KR102236792B1

KR102236792B1 - 카메라 기반의 차선 변경 가능 시점을 학습하는 방법 및 시스템, 그리고 차선 변경 가능 시점을 예측하는 방법 및 시스템

Info

Publication number: KR102236792B1
Application number: KR1020180105530A
Authority: KR
Inventors: 정성균; 이동규; 민재식
Original assignee: 네이버랩스 주식회사
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2021-04-06
Also published as: KR20200029652A

Abstract

카메라 기반의 차선 변경 시점을 학습하는 방법 및 시스템, 그리고 차선 변경 시점을 예측하는 방법 및 시스템을 개시한다. 본 발명의 일실시예에 따른 차선 변경 시점 학습 방법은, 차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받는 단계(상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함), 상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 초당 프레임 수(Frame Per Second, FPS)에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)초 후에 차선 변경이 가능함을 정의하는 라벨을 부여하는 단계 및 상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하는 단계를 포함할 수 있다.

Description

카메라 기반의 차선 변경 가능 시점을 학습하는 방법 및 시스템, 그리고 차선 변경 가능 시점을 예측하는 방법 및 시스템{METHOD AND SYSTEM FOR LEARNING LANE CHANGEABLE TIME BASED ON CAMERA AND METHOD AND SYSTEM FOR PREDICTING TIME LANE CHANGEABLE TIME }

아래의 설명은 카메라 기반의 차선 변경 시점을 학습하는 방법 및 시스템, 그리고 차선 변경 시점을 예측하는 방법 및 시스템을 제공한다.

차선 변경 보조를 위한 기술들로, BSD(blind spot detection), BLIS(blind spot information system) 등이 존재한다. 그러나 이러한 종래의 기술들은 레이더 센서를 사용하는 장치(또는 시스템)의 경우, 센서 자체의 가격이 고가인데다 해당 장치가 차량의 외각(일례로, 범퍼)에 매립되어 경미한 사고에도 파손되거나 캘리브레이션 정보가 훼손되어 교체 또는 재설치가 요구되는 문제점이 있다. 따라서, 시스템 설치 및 유지 비용이 비싸다는 단점을 가지고 있다. 반면에 카메라 센서는 가격면에서 경쟁 우위를 가지며 제안하는 시스템은 설치된 위치에 대하여 강건한 특성을 가진다. 보다 구체적으로 레이더 센서의 경우, 해당 센서의 물리적인 특성으로 인해 정지한 사물 그리고 매우 근접한 물체에 대한 인식 오차가 커지는 단점이 있다. 또한, 기존의 BLIS는 해당 차로의 점유상태에 따라 차선변경이 불가능한 경우에만 운전자에게 알림을 주는 문제점이 있다.
[선행문헌번호]
일본 공개특허공보 특개2004-210109호(2004.07.29.)

차량의 사이드미러로 관측된 측-후방 영역과 유사한 시점을 얻을 수 있도록 설치된 카메라로부터 영상을 입력받아 차선 변경 가능 시점에 대한 정보(일례로, 3초전, 2초전, 1초전, 가능, 불가능)를 예측하여 운전자 또는 자율주행 인공지능에 알림을 줄 수 있는 카메라 기반의 차선 변경 시점 예측/학습 방법 및 시스템을 제공한다.

차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받는 단계 - 상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함 -; 상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 초당 프레임 수(Frame Per Second, FPS)에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)초 후에 차선 변경이 가능함을 정의하는 라벨을 부여하는 단계; 및 상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하는 단계를 포함하는 차선 변경 시점 학습 방법을 제공한다.

차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하는 단계; 및 상기 현재 상태로서 n(상기 n은 자연수)초 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 단계를 포함하는 차선 변경 시점 예측 방법을 제공한다.

컴퓨터와 결합되어 상기 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 제공한다.

상기 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체를 제공한다.

컴퓨터 장치에 있어서, 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서에 의해, 차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받고 - 상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함 -, 상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 초당 프레임 수(Frame Per Second, FPS)에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)초 후에 차선 변경이 가능함을 정의하는 라벨을 부여하고, 상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하는 것을 특징으로 하는 컴퓨터 장치를 제공한다.

컴퓨터 장치에 있어서, 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서에 의해, 차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하고, 상기 현재 상태로서 n(상기 n은 자연수)초 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 것을 특징으로 하는 컴퓨터 장치를 제공한다.

차량의 사이드미러로 관측된 측-후방 영역과 유사한 시점을 얻을 수 있도록 설치된 카메라로부터 영상을 입력받아 차선 변경 가능 시점에 대한 정보(일례로, 3초전, 2초전, 1초전, 가능, 불가능)를 예측하여 운전자 또는 자율주행 인공지능에 알림을 줄 수 있다.

도 1은 본 발명의 일실시예에 따라 주석이 달린 이미지들의 예를 도시한 도면이다.
도 2는 CAM의 주의 결과를 본 발명의 일실시예에 따른 방법의 주의 결과와 비교한 예를 도시하고 있다.
도 3은 본 발명의 일실시예에 따른 통합 방법의 예를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 5는 본 발명의 일실시예에 따른 차선 변경 시점 학습 방법의 예를 도시한 흐름도이다.
도 6은 본 발명의 일실시예에 따른 차선 변경 시점 예측 방법의 예를 도시한 흐름도이다.
도 7은 본 발명의 일실시예에 있어서, 라벨을 부여하는 예를 도시한 도면이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

본 발명의 실시예들에 따른 차선 변경 시점 학습 방법은 이후 설명될 적어도 하나의 컴퓨터 장치에 의해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 차선 변경 시점 학습 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 본 발명의 실시예들에 따른 방법을 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.

본 발명의 실시예들에서는 차량-인지 영상 특징들(vehicle-aware image features) 및 소수 학습에 의한 분류(few-shot classification)를 추출하여 극심한 데이터 불균형 이슈를 극복하는 약한 지도(weak supervision)를 이용하는 차선-변경 보조를 위한 시스템을 제안한다. 자율주행차(self-driving agents) 및 인간 운전자들을 위해서, 제안하는 시스템은 측-후방 공간을 모니터링하고 차선 변경이 가능한 시점을 예상할 수 있다. 약한 지도 학습(weakly supervised learning) 및 주의 맵(attention map)을 사용함으로써, 시스템은 자기-차량(ego-vehicle) 뒤에서 움직이는 물체들의 새로운 영상 특징들을 추출할 수 있다. 이진 레이블들을 양자화된 시간 슬롯들로 변환하는 것 외에, 수동으로 이진 레이블들(FREE 또는 BLOCKED)이 부여된 측-후방 시점 영상 데이터셋이 재사용될 수 있다. 소수 학습에 의한 분류(few-shot classification) 방식을 사용함으로써, 목표 차선 상태를 간접적으로 예상하고 다양한 도로 시나리오들에 빠르게 적응할 수 있으며, 제안하는 시스템은 차선을 변경하고자 하는 자기-차량 주변의 공간적 및 시간적 속성들을 인식할 수 있다.

1. 도입

안전성과 편리성을 위하여, 차선-변경 결정 보조(lane-change decision aid)는 ADAS(Advanced Driving Assistance System)에서 핵심 기능들 중 하나이다. 따라서, 자동차 회사들은 운전자들에게 측-후방 공간의 잠재적인 충돌들을 알려서 경고하는 사각 지역 탐지 시스템(blind spot detection system)을 장착하려고 노력한다. 인간 운전자들이 공존하는 도로 상에서도 자율주행차가 협력적인 차선-변경을 수행하는 것 또한 요구된다. 내장된 컴퓨터 비전 시스템(computer vision system)은 비용 효율적이기 때문에, 차량 안전 기능 구현에 있어서 더 인기를 얻고 있다.

종단간 학습(end-to-end learning) 프레임워크는 차선-변경 결정을 돕기 위하여 영상들의 공간적 속성(spatial attribute)을 분류할 수 있다. 이러한 종단간 학습 프레임워크에서는 측-후방 시점 영상들을 수집하여 자기-차량이 목표 차선으로 움직일 수 있다면 FREE, 그렇지 않으면 BLOCKED이라는 이진 클래스들(또는 레이블들)로 주석을 달 수 있다. 측-후방 시점 영상 데이터셋이 영상 기반의 차선-변경 연구에 귀중한 자산이지만, 이 이진 분류는 다양한 도로 시나리오들, 특히 다른 차량과의 상호 작용이 있는 운전 환경을 해석하는 데에 불충분하다. 차선-변경 행동 전에, 목표 차선 상의 뒤쪽 차량 또는 앞쪽 차량과의 안전 거리가 확보되어야 하며, 안전 거리에 대한 정의는 두 차량 간의 상대적인 속도와 도로 유형(예를 들어, 도심의 도로 vs. 고속 도로)에 따라 변할 수 있다. 그러므로, 도로 상황에 상관없이 차선을 변경하기 위해 남은 시간을 알려줄 수 있는 새로운 시스템이 요구된다.

최근 지도 학습(supervised learning) 기반의 컴퓨터 비전 알고리즘들의 성공은 대규모 데이터셋을 매우 필요로 하고 있다. 그러나, 특히 지능형 차량(intelligent vehicle) 영역에서의 모든 가능한 시나리오들에서 모든 데이터셋을 수집하고 그들 각각에 주석을 다는 것은 비효율적이다. 이 위치-수준(location-level)의 주석화 태스크에 대한 부담을 감소시키기 위하여, 물체 위치인식(object localization)에 대한 약한 지도 학습 방법(weakly supervised learning methods)이 연구되었다. 흥미롭게도, 약한 지도를 통해 영상 특징을 설계함으로써, 심층 합성곱 신경망(deep convolution neural network)의 내부 메커니즘이 이해될 수 있다. 이러한 약한 지도 학습에 기반하여, 측-후방 공간 상의 주요 목표(primary target)에 초점을 두는 차량-인식 영상 특징 추출 방법(vehicle-aware image feature extraction method)이 제안될 수 있다. 바퀴 및 그릴(grill)과 같이 차량의 일부 식별력 있는 부분 보다는 차량의 전체적인 형태에 초점을 두기 위하여 픽셀 단위 정규화(pixelwise regularization) 및 다중 스케일 집적(multiscale aggregation)에 대해 설명한다.

시스템이 장면 상의 공간적 속성들 뿐만 아니라 시간적 속성들(temporal attributes)도 해석할 수 있게 만들기 위하여, 우리는 데이터셋의 이진-클래스 레이블들을 n 개(일례로, 5개)의 클래스 레이블들로 변경하며, 이것들은 안전한 차선-변경을 수행하기 위해 남은 시간을 나타낸다. 이 변경 태스크는 시스템적으로 수행되며, 지루한 수동 주석 작업에 대한 필요성을 완화할 수 있다. 그러나, 변경된 데이터셋은 거대한 클래스-내부 변동(intra-class variation)을 갖는 심각한 데이터 불균형을 갖게 되기 때문에 데이터셋에 단순한 이미지 분류를 적용하는 것을 부적절하다. 대신, 서브세트가 다양한 도로 환경 및 운전 양식들에 대한 대표적인 예시들을 포함하도록 하기 위하여 다양한 도로 유형들 및 운전 시나리오들에 따라 전체적인 데이터셋이 분리되는, 소수 학습에 의한 분류 방식(few-shot classification scheme)이 사용될 수 있다. 결과적으로, 소수 학습에 의한 분류 방식은 제안하는 시스템이 처음 보는 다양한 도로 시나리오들에 빠르게 적응하는 것을 가능하게 할 수 있다.

이하에서는 차선 변경 시기를 예상하는 새로운 차량 컴퓨터 비전 어플리케이션, 약한 지도 학습에 기반하여 주요 목표에 초점을 두는 태스크-지정(task-specific) 영상 특징 및 다양한 도로 환경에서 제안하는 차선-변경 시스템을 적용하기 위하여 소수 학습 문제를 공식화를 설명한다.

2. 관련 연구

자동-운전을 위한 심층 학습. 대규모 도로 데이터셋들은 지능형 차량 및 컴퓨터 비전 연구의 결합을 이끌었다. 이는 탐지(detection), 추적(tracking), 스테레오 매칭(stereo matching), 옵티컬 플로우(optical flow) 및 시맨틱 분할(semantic segmentation)과 같은 인지 알고리즘들(machine perception algorithms)의 진보에 기여해왔다. 최근, 일부 연구들은 컴퓨터 비전 어플리케이션이 지각(perception)에서 제어(control)로 도약하도록 하기 위하여 심층 학습 기술들을 이용했다. 예를 들어, 영상 입력으로부터, 조향 각(steering angle)과 같은 차량 제어 인자를 직접적으로 만드는 종단간 운전 모델이 제안되었으며, 자동-운전 에이전트의 컨트롤러에 대한 구조화된 산출 결과를 생성하거나 다양한 운전 양식을 반영하는 포괄적인 모델을 구현하기 위하여, 자연 그대로(in the wild) 수집된 대규모 비디오 데이터셋을 이용하거나 또는 차선-변경 결정 문제는 목표 차선의 점유 상태를 측정하는 이진 분류로 단순화하는 연구들이 존재한다. 그러나, 차선을 변경하기 위한 시간을 예상하는 기술은 지금까지 개발되지 않았다.

약하게 지도된 객체 위치인식(Weakly Supervised Object Localization). 기존의 약하게 지도된 객체 위치인식 방법들은 순차적 방법들(sequential approaches)과 통합된 방법들(integrated approaches)로 분류될 수 있다. 순차적 방법들은 우선 객체가 나타날 수 있는 영역을 제안하고 나서, 분류를 수행할 수 있다. 다중 인스턴스 학습(Multiple Instance Learning, MIL) 방법은 인스턴스 영역의 양성 및 음성 레이블 백(positive and negative labeled bags)을 생성하여 비-볼록 최적화(non-convex optimization)된 양성 레이블 백들 내에서 일부 인스턴스를 선택한다. 약하게 지도된 심층 탐지 네트워크(Weakly Supervised Deep Detection Networks, WSDDN)는 영역 제안을 위해 공간 피라미드 풀링을 사용하고 원소 단위의(elementwise) 곱셈을 통해 인식(recognition)과 탐지(detection) 수치를 결합한다.

반면에, 통합된 방법들은 학습 과정에서의 부수적인 결과물인 클래스 단위의 중요도 맵(saliency maps)을 통하여 객체 분류와 위치인식을 동시에 수행한다. 클래스 활성화 매핑(Class Activation Mapping, CAM) 알고리즘은 클래스-지정 활성화(class-specific activations)에 관한 특징 맵들의 적응적 가중치(adaptive weights)를 습득하도록, 분류 태스크를 위한 완전 연결 계층들(fully connected layers)을 글로벌 평균 풀링 계층(global average pooling layer)으로 대체한다. 아주 작은(fine-grained) 주의 영역(attention region)을 얻기 위하여, 유도된 역전파 수치(backpropagation scores)가 가중된 특징 맵에 곱해질 수 있다. 그러나, 이러한 알고리즘들은 영상 분류를 위해 크로스 엔트로피(cross entropy)에 기반하여 중요도 맵을 만들어 내기 때문에, 활성화 결과는 전체적인 객체보다는 일부 식별력 있는 부분을 크게 다룬다. 이 문제를 해결하기 위하여, Hide-and-Seek 알고리즘은 에러 탄력성 모델(error resilience model)을 학습하기 위하여 의도적으로 영상의 일부분을 가리도록 구현되었다. 적대적 삭제 기술(adversarial erasing technique)은 가장 식별력 있는 부분들을 반복적으로 삭제하여 네트워크가 객체의 완전한 본체를 이해하도록 제안되었다. 본 발명의 실시예들에서는 부분들을 조각내지 않은 채 전체적인 객체 영역을 다루는 주의 맵(attention map)을 유도하기 위하여 픽셀 단위 주의 정규화(per-pixel attention regularization) 및 다중 스케일 추론(multiscale inference)을 제안한다.

소수 학습에 의한 분류를 위한 메타-학습. 메타-학습은 적은 수의 예시를 가지고 새로운 태스크에 빠르게 적응할 수 있는 인간의 지능을 닮아가는 것에 목표를 둔다. 컴퓨터 비전에서, 소수 학습에 의한 분류(few-shot classification)는 부족한 데이터가 자연 그대로의 다양화된 시각적 특징들을 포함하기에는 불충분하기 때문에 어려운 태스크이다. 불균형한 학습 데이터를 다루기 위하여, 모델 회귀 네트워크(model regression network)는 작은 샘플 모델에서 큰 샘플 모델로의 분류기 변환을 학습하도록 제안되었다. 모델에 무관한 메타-학습(Model-agnostic meta-learning)에서는 모든 부수적 태스크들에 걸친 파라미터들을 받아들이는 목적 함수(objective function)가 정의되었다. 경사-기반 최적화(gradient-based optimization)를 통해, 파라미터들은 새로운 태스크의 손실에 의하여 민감하게 갱신도 모델의 빠른 적응을 유발한다. 언레이블(unlabeled) 데이터로 모델을 학습하는 메커니즘도 존재한다. 반면에, 비-모수(non-parametric) 접근법은 거리 단위로 각 클래스에 대한 대표 값을 생성하는 임베딩 함수를 학습시키는 것이다. 대부분의 운전자들이 자연스럽게 그들의 이전 운전 경험에 기반하여 새로운 도로 환경에 반응하므로 본 발명의 실시예들에서는 비-모수 접근법을 따른다.

3. 데이터셋

앞서, 각 측-후방 시점 영상에, 장면의 공간적 속성에 따라 목표 차선이 자유로운지(FREE) 또는 막혀 있는지(BLOCKED)를 말해주는 이진 레이블이 할당될 수 있음을 설명하였다. 일실시예에 따른 시스템이 부가적으로 장면의 시간적 정보를 활용하여 최종적으로는 매우 짧은 시간 안에 목표 차선이 차선-변경을 위해 자유로워지는 시점을 예상하도록 하기 위하여 데이터셋을 변경할 수 있다. 예를 들어, 이전에 레이블 BLOCKED가 할당된 영상들을 1s, 2s, 3s, BLOCKED 중의 하나의 레이블로 다시 매핑할 수 있다. 여기서, ns는 목표 차선이 현재 막혀 있지만 약 n 초 이내에 자유로워질 것이라는 것을 나타낼 수 있다. 한편, 이전의 레이블 FREE가 할당된 모든 영상들은 그대로 남을 수 있다. 비싸고 시간-소모적인 수동 주석 작업을 피하기 위해서, 일련의 원본 데이터셋을 활용하는 시스템적인 방법이 활용될 수 있다. 더 자세하게, 한 묶음의 측-후방 시점 장면들이 주어지면, BLOCKED 상태에서 FREE 상태로 된 프레임들의 최소 수가 카운트될 수 있고, 묶음의 초 당 프레임 수에 따라서 프레임 카운트가 초로 변환될 수 있다. 새로운 레이블을 할당할 때, 양자화 에러를 완화시키기 위하여 ±1 프레임이 용인될 수 있다.

도 1은 본 발명의 일실시예에 따라 주석이 달린 이미지들의 예를 도시한 도면이다. 도 1에서 첫 번째 행의 이미지들은 자기-차량이 목표 차선에서 다른 차량을 추월하는 순서를 보여준다. 두 번째 행의 이미지들은 반대 경우의 순서를 보여준다. 또한, 도 1의 데이터셋의 이미지들은 주거 지역(첫 번째 행의 이미지들)과 고속도로(두 번째 행의 이미지들)을 포함하는 다양한 장소로부터 얻어짐을 나타내고 있다.

아래 표 1은 일실시예에 따라 변환된 데이터셋의 전체적인 통계의 예를 나타내고 있다.

기존 레이블	변환된 레이블	비율(proportions)
FREE	FREE	55.41%
BLOCKED	FREE in 1s	1.17%
	FREE in 2s	1.04%
	FREE in 3s	0.47%
	BLOCKED	41.91%

표 1은 측-후방 시점 장면들에 FREE 레이블과 BLOCKED 레이블을 할당하는 경우의 데이터 분배의 예와, 본 발명의 일실시예에 따라 -후방 시점 장면들에 FREE 레이블, FREE in 1s 레이블, FREE in 2s 레이블, FREE in 3s 레이블 및 BLOCKED 레이블을 할당하는 경우의 데이터 분배의 예를 나타내고 있다. 예를 들어, 도 1의 이미지들은 이러한 변환된 레이블이 할당된 예를 나타내고 있다.차선 변경과 관련하여 총 109,416 영상들을 포함하여 기 구축된 데이터셋이 존재한다. 그러나, 이러한 데이터셋은 심층 학습을 위해 적절한 학습 데이터가 되기 위한 두 가지 문제점을 갖는다. 첫 번째, 동일 클래스 내의 영상들은 큰 변동(variation)을 보인다. 예를 들어, 도 1의 4 번째 열은 같은 1s 클래스(레이블) 내의 두 가지 영상들이고, 여기서 목표 차선 상의 차량 위치는 매우 다르다. 이은 데이터셋이 영상들은 다양한 유형의 도로(도심의 도로 vs. 고속도로)에서 얻어지며, 자기-차량은 다른 차량들을 추월하거나 그 반대로 추월 당하는 것과 같은 다양한 도로 구조 및 차선-변경 시나리오를 다루기 때문이다. 한다. 두 번째, 리레이블링(relabeling) 결과는 표 1에 나타난 바와 같이 5개의 클래스 전반에 걸쳐 심한 불균형을 나타낸다. 표 1에서 1s, 2s 및 3s 클래스들이 데이터셋의 오직 3%만 차지하는 반면, FREE와 BLOCKED 클래스들은 전체적인 데이터셋에서 압도적으로 수가 많다.

4. 방법론

이하에서는 측-후방 공간 상의 주요 목표(primary target)에 초점을 두는 새로운 영상 특징 추출 방법을 설명한다. 그 후, 본 발명의 실시예들에 따른 시스템 내에서 어떻게 소수 학습에 의한 분류가 차선-변경 결정을 가능하게 하는지 설명한다.

4.1 약한 지도를 통한 학습 특징(Leaning Features via Weak Supervision)

사전-학습된 특징들은 다양한 영상 인식 태스크에서 폭 넓게 사용되어 왔다. 본 발명의 실시예들에서는 태스크에 대한 더 신뢰할 수 있는 결과들을 위하여, 도로 상에서 움직일 수 있는 객체들을 다루는 새로운 영상 특징들을 학습할 수 있다. 주의 메커니즘(attention mechanism)을 이용하는 것은 태스크와 관련이 없는 특징들의 효과를 억누르면서 빠르게 움직이는 객체들과 관련된 영상 특징들을 지각하는 것을 향상시킬 수 있다. 이러한 태스크-지정(task-specific) 특징들을 얻기 위하여, 특정 클래스의 중요도 맵(saliency map)을 사용하는 주의 메커니즘과 함께 약한 지도 학습이 이용될 수 있다. 또한, 제안된 시스템이 차량 어플리케이션으로서 안전성 및 신뢰성을 달성하도록 합성곱 신경망(Convolutional Neural Network, CNN) 내부를 이해할 필요성이 있다.

4.1.1 클래스 활성화 매핑(Class Activation Mapping)

영상 분류를 위한 CNN 아키텍처는 대부분 특징 추출을 위한 합성곱 계층들 및 분류 태스크를 위한 그 뒤의 선형 계층들로 구성된다. 합성곱 계층들의 출력을 변형(reshaping)하는 과정에서 영상 특징들의 공간적 정보를 읽는 것이 요구될 수 있다. 클래스 활성화 매핑(Class Activation Mapping, CAM) 알고리즘의 주된 아이디어는 각 활성화 유닛이 개별적인 영상 특징을 인코딩한다는 것이며, 따라서 활성화 유닛들은 클래스를 예상하기 위하여 각각 다른 중요도를 가져온다. 특히, CAM은 마지막 합성곱 계층에 대하여 글로벌 평균 풀링(global average pooling)을 수행하며 활성화 유닛들 전반에 걸쳐 특징 맵들의 적응적 가중치를 계산할 수 있다.

수식적으로, 학습하는 동안 CAM 알고리즘은 아래 수학식 1과 같이 각 클래스에 대한 가중치

를 내재적으로(implicitly) 학습하여 클래스가 지정된 중요도 맵

을 얻을 수 있다.

여기서

는 예를 들어, 소프트맥스(softmax)와 같은 활성화 함수(activation function)를 나타낼 수 있고,

는 마지막 합성곱 계층에서 k 번째 활성화 유닛을 나타낼 수 있다. 달리 말하면, 클래스가 지정된 가중치

와 특징 맵

의 선형 조합은 분류를 위해 지역적으로 의미 있는 영역을 강조하는 픽셀 단위의 중요도 맵

가 될 수 있다. 그러므로,

는 클래스

가 될 가능성이므로 CAM은 클래스의 예상을 위해 이 수치를 이용할 수 있다.

4.1.2 픽셀 단위 정규화(Pixelwise Regularization)

본 발명의 일실시예에서는 도로 상에 움직일 수 있는 객체에 초점을 두는 주의 마스크(attention mask)로서 차량-관련 클래스들에 대한 중요도 맵을 사용할 수 있다. CAM이 클래스와 관련 있는 전체적인 주의를 최대화하는 예상을 하기 위하여 크로스 엔트로피 손실을 이용하기 때문에, 객체의 가장 식별력 있는 부분들만을 강조하려는 경향이 있다. 이 문제를 공략하기 위하여, 본 실시예에서는 CAM에 픽셀 단위 정규화를 적용하고 모든 클래스들에 공통적인 지역적 특성의 효과를 최소화할 수 있다. 결과적으로, 각 클래스에 대해, 본 실시예에 따른 정규화 방법은 관련 없는 영역들을 억누르면서 클래스에 대응하는 영역들이 강조되도록 할 수 있다.

본 실시예에서는 확장된 실측 자료(정답)인

의 집합으로 중요도 맵

의 집합에 대한 평균적인 이진 크로스 엔트로피 손실을 계산할 수 있다. 여기서

는 클래스의 총 개수를 나타낸다. 다른 정보(예를 들어, 이진 분할 맵(binary segmentation map))가 이용 가능하다면, 클래스들과 관련 있는 모양 정보(shape information)를 만들기 위하여 픽셀 단위의 실측 자료 맵(정답 맵)이 정의될 수 있다. 그러나, 본 실시예에서는 확장된 실측 자료를 이진 행렬로 간단히 설계할 수 있다. 예를 들어, 모든

에 대하여

이고, 여기서

와

는 각각 영상의 폭(width)과 높이(height)를 나타낼 수 있다. 이때, 픽셀 단위의 회귀 손실(pixelwise regression loss)은 다음 수학식 2와 같이 정의될 수 있다.

마지막으로, 주의 모델(attention model)은 아래 수학식 3과 같이 손실들에 대한 선형 조합을 학습할 수 있다:

여기서,

는 분류를 위한 크로스 엔트로피 손실일 수 있으며,

는 초매개변수(hyperparameter)일 수 있다. 이진 분류기로서 주의 엔진(attention engine)을 학습시키면서, 차량-유사 객체(양성 샘플) 및 그 외의 것(음성 샘플)과 관련된 서브세트가 활용될 수 있다. 데이터 샘플링에 대해서는 이후 더욱 자세히 설명한다.

4.1.3 다중 스케일 집적(Multiscale Aggregation)

활용하고자 하는 데이터셋이 대부분 객체-중심의 영상들로 구성되기 때문에, 이로부터 크기-불변의 특징들을 학습하는 것은 어렵다. 그러나, 움직이는 객체들은 특히 측-후방 시점 도로 장면 상에서는 다양한 크기로 흔히 나타난다. 따라서, 객체 크기와 관계없이 중요도 맵을 얻을 수 있는 다중 스케일 집적 방법이 이용될 수 있다. 제안하는 집적 방법은 수학식 3에 의해 학습된 모델을 다시 사용할 수 있으며, 추론 단계에서 동작할 수 있다. 따라서, 부가적인 학습이 요구되지 않는다.

시스템은 하나의 입력 영상에 대하여 다양한 크기를 갖는 영상 피라미드를 생성할 수 있다. 이때, 초기의 입력 영상을 이후 "앵커 영상(anchor image)"이라고 명명하여 크기 조정된 영상(resized image)과 구분할 수 있다. 시스템은 크기 조정된 영상들의 세트를 모델로 반복적으로 입력시켜서 다중 스케일의 중요도 맵들을 얻을 수 있다. 입력에 대한 다양한 크기를 받아들이기 위하여, 마지막 합성곱 계층의 최상단에 글로벌 평균 풀링 연산의 크기를 조정함으로써 모델에 대한 최소 변형이 적용될 수 있다. m 번째 피라미드 입력 영상에 대해, 주의 엔진은 car 클래스에 대한 중요도 맵을 나타내는

을 생성할 수 있다. 이 이후부터, 명료함을 위하여

의 표기법을

으로 대체한다.

을 영상의 사이즈를 앵커 영상의 사이즈로 바꾸게 하는 변환(예를 들어, 이중 선형 보간법(bilinear interpoliation))이라고 하자. 이때 다중 스케일의 주의 맵

을 얻기 위하여 다음 수학식 4와 같이 모든 스케일에 대해 중요도 맵들이 적응적으로 통합될 수 있다.

여기서,

은 m 번째 크기 변경된(scaled) 입력에 대한 예상 수치를 나타내고,

은 다양한 크기 변경된 입력들에 대한 예상 수치들 중에서 소프트맥스(softmax)가 계산한 각 크기의 상대적인 중요도를 결정할 수 있다.

도 2는 CAM의 주의 결과를 본 발명의 일실시예에 따른 방법의 주의 결과와 비교한 예를 도시하고 있다. 도 2에서 PR(Pixelwise Regularization)과 MA(Multiscale Aggregation)는 앞서 설명한 바 있으며, 제안된 방법이 영상에서 전체 차량 모양을 인식하는 것을 향상시킬 수 있음을 나타내고 있다. 이처럼, 본 실시예에 따른 픽셀 단위 정규화 및 다중 스케일 집적 접근법은 부가적인 학습 절차 없이 CNN의 제한된 인지 영역을 확장시킬 수 있다.

4.2 차선-변경을 위한 소수학습에 의한 분류(Few-Shot Classification for Lane-Change)

심각한 데이터 불균형 문제를 극복하기 위하여, 데이터셋에 소수 학습이 적용될 수 있다. 인간들이 그들의 경험에 기반하여 다양한 운전 시나리오에 행동 양식을 적응시킬 수 있다는 점에서, 시스템에 비-모수 알고리즘인 프로토타입 네트워크를 채택할 수 있다.

4.2.1 프로토타입 네트워크

여기서는 완전성을 위하여 프로토타입 네트워크를 간략히 검토한다. 세트 클래스

에 대해

개의 레이블링된(labeled) 예시들을 포함하는 지원 세트(support set)인

를 갖는다고 가정하자. 여기서,

은 데이터 지점(data point)이고,

는 대응하는 정답 레이블(ground truth label)을 나타낼 수 있다. 프로토타입 네트워크는 각 클래스에 대해 프로토타입(prototype)인

를 표현하기 위하여 임베딩 함수(embedding function)

를 학습할 수 있다. 여기서

는 학습 변수(learnable parameters)를 의미할 수 있다. 임베딩 공간(embedding space) 내 거리 단위

로, 프로토타입 네트워크는 소프트맥스(softmax)를 사용하여 클래스들 상의 분포를 도출할 수 있으며, 쿼리

에 대한 레이블을 다음 수학식 5와 같이 예상할 수 있다.

4.2.2 차선-변경을 위한 특징 임베딩(Feature Embedding for Lane-Change)

본 실시예에서는 사전-계산된 영상 특징들을 사용하는 곳을 고정된 특징 공간이라고 가정한다. 장면 상의 시간적 속성을 고려하기 위하여, 1초 간격으로 계산된 영상 특징이 연결될 수 있으며, 연결된 특징의 주석은 마지막 시간 슬롯의 주석에서 복사될 수 있다. 이때, 영상 특징들은 주의(attention)와 통합될 수 있다. 이는 연결 후 통합(fuse after concatenation, FAC) 또는 통합 후 연결(concatenate after fusion, CAF)이 될 수 있다. FAC를 사용하여, 주의 결과들은 확장된 특징 맵에 글로벌하게 적용되는 반면, CAF는 각 특징 맵의 개별적인 주의 영역을 연결시킬 수 있다. 도 3은 본 발명의 일실시예에 따른 통합 방법의 예를 도시한 도면이다. 상세히 도 3은 영상 특징과 주의 맵의 서로 다른 시공간적 통합 방법을 비교 도시하고 있다. 도 3의 좌측은 FAC 방식을 사용한 예를 도시하고, 도 3의 우측은 CAF 방식을 사용한 예를 도시한다. 영상 특징들과 주의 마스크들은 곱셈 또는 덧셈으로 결합될 수 있다. 표 2는 다양한 통합 시나리오에 대한 성능을 비교한 예를 나타내고 있다.

Fusion	Op.	1-shot(5-way)	5-shot(5-way)
FAC	Mul	56.00±0.78%	75.95±0.70%
CAF	Mul	56.70±0.81%	81.04±0.67%
FAC	Add	68.76±0.80%	84.88±0.64%
CAF	Add	74.09±0.83%	86.48±0.65%

이러한 표 2는 통합 방법과 관련하여 VGG-16 내장에 대한 성능을 나타내고 있다.임베딩 공간에 대해 유클리드 거리 단위(Euclidean distance metric)가 적용될 수 있다. 특징 임베딩 네트워크들은 3개의 합성곱 빌딩 블록으로 구성되며, 각 블록은 (3Х3 커널 크기를 갖는) 합성곱 계층, 배치 정규화, ReLU(Rectified Linear Unit) 및 (2Х2 커널 크기를 갖는) 최대 풀링(max pooling)의 스택으로 형성될 수 있다. 입력 특징들의 차원이 백본 모델에 따라 달라지면, 임베딩 네트워크 내의 숨겨진 유닛의 차원은 각각 512 및 256으로 고정될 수 있다.

도 4는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 앞서 설명한 본 발명의 실시예들에 따른 시스템들은 도 4를 통해 도시된 컴퓨터 장치(400)에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 방법은 이러한 컴퓨터 장치(400)에 의해 수행될 수 있다.

이때, 도 4에 도시된 바와 같이 컴퓨터 장치(400)는, 메모리(410), 프로세서(420), 통신 인터페이스(430) 그리고 입출력 인터페이스(440)를 포함할 수 있다. 메모리(410)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(410)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(400)에 포함될 수도 있다. 또한, 메모리(410)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(410)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(410)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(430)를 통해 메모리(410)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(460)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(400)의 메모리(410)에 로딩될 수 있다.

프로세서(420)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(410) 또는 통신 인터페이스(430)에 의해 프로세서(420)로 제공될 수 있다. 예를 들어 프로세서(420)는 메모리(410)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(430)은 네트워크(460)를 통해 컴퓨터 장치(400)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(400)의 프로세서(420)가 메모리(410)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(430)의 제어에 따라 네트워크(460)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(460)를 거쳐 컴퓨터 장치(400)의 통신 인터페이스(430)를 통해 컴퓨터 장치(400)로 수신될 수 있다. 통신 인터페이스(430)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(420)나 메모리(410)로 전달될 수 있고, 파일 등은 컴퓨터 장치(400)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

입출력 인터페이스(440)는 입출력 장치(450)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(440)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(450)는 컴퓨터 장치(400)와 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 장치(400)는 도 4의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(400)는 상술한 입출력 장치(450) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

통신 방식은 제한되지 않으며, 네트워크(460)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(460)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(460)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

도 5는 본 발명의 일실시예에 따른 차선 변경 시점 학습 방법의 예를 도시한 흐름도이다. 본 실시예에 따른 차선 변경 시점 학습 방법은 차선 변경 시점 학습 시스템을 구현하기 위한 컴퓨터 장치(400)에 의해 수행될 수 있다. 예를 들어, 컴퓨터 장치(400)의 프로세서(420)는 메모리(410)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(420)는 컴퓨터 장치(400)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(400)가 도 5의 방법이 포함하는 단계들(510 내지 550)을 수행하도록 컴퓨터 장치(400)를 제어할 수 있다.

단계(510)에서 컴퓨터 장치(400)는 차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받을 수 있다. 여기서, 제1 라벨이 할당된 영상은 차선 변경이 블록된 상태를 나타내는 영상을, 그리고 제2 라벨이 할당된 영상은 차선 변경이 프리한 상태를 나타내는 영상을 각각 포함할 수 있다. 일례로, 제1 라벨은 앞서 설명한 라벨 'BLOCKED'를 제2 라벨은 앞서 설명한 라벨 'FREE'를 각각 의미할 수 있다.

단계(520)에서 컴퓨터 장치(400)는 블록된 상태에서 프리한 상태로 전환되는 전환시점을 기준으로 초당 프레임 수(Frame Per Second, FPS)에 따라 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)초 후에 차선 변경이 가능함을 정의하는 라벨을 부여하는 할 수 있다. 예를 들어, 컴퓨터 장치(400)는 단계(520)에서 전환시점 이전의 m 번째 프레임에 n 초 후에 차선변경이 가능함에 대한 라벨을 부여할 수 있다. 이때, m은 n과 초당 프레임 수를 파라미터로 갖는 곱셈연산에 의해 결정될 수 있다. 보다 구체적인 예로, FPS가 10으로 고정된 동영상에서 블록된 상태에서 프리한 상태로 전환되는 전환시점에 해당하는 프레임의 인덱스가 110이라 가정한다. 이때, 1초 뒤에 차선 변경이 가능함을 정의하는 라벨은 전환시점 이전의 10(1(초) Х 10(FPS)) 번째 프레임인 인덱스 100의 프레임에 부여될 수 있다. 이와 유사하게 2초 뒤에 차선 변경이 가능함을 정의하는 라벨은 전환시점 이전의 20(2(초) Х 10(FPS)) 번째 프레임인 인덱스 90의 프레임에 부여될 수 있다.

단계(530)에서 컴퓨터 장치(400)는 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습할 수 있다. 실시예에 따라, 컴퓨터 장치(400)는 영상의 프레임들 각각에 대해 차량 또는 움직이는 물체가 존재하는지 유무를 기반으로 약한 지도 학습(weakly supervised learning)를 수행하여 각 프레임들에서 차량 또는 움직이는 물체가 차지하는 영역을 히트맵의 형태로 출력할 수 있다. 이때, 컴퓨터 장치(400)는 단계(430)에서 히트맵 및 영상의 특징 벡터를 더 이용하여 차선 변경 시점을 학습할 수 있다. 이때, 컴퓨터 장치(400)는 특징 벡터의 모든 차원에 히트맵의 값을 더하여 영상 내의 차량 또는 움직이는 물체가 차지하는 영역에 대한 가중치를 증가시킬 수 있다. 또한, 도 1에 나타난 바와 같이 동일한 라벨이 할상된 영상들이 서로 다양한 상황을 가질 수 있기 때문에 기설정된 시간 간격(일례로, 1초)에 해당하는 영상의 특징들을 하나의 벡터로 연결하여 영상의 시간적 특징을 부호화할 수 있다. 예를 들어, 영상 내에서 차량이나 움직이는 물체가 차지하는 영역이 시간이 흐름에 따라 커지는 경우와 작아지는 경우에 따라 도 1에 나타난 서로 다른 상황을 구분할 수 있다.

또한, 컴퓨터 장치(400)는 영상에서 서로 다른 크기로 나타나는 객체에 대해 객체의 크기와 관계 없이 중요도 맵을 얻기 위해 다중 스케일 집적을 활용할 수 있다. 예를 들어, 컴퓨터 장치(400)는 영상에 대해 크기가 조정된 영상들의 세트를 생성하고, 크기가 조정된 영상들의 세트를 주의 모델(attention model)로 반복적으로 입력시켜 다중 스케일의 중요도 맵들(saliency maps)을 생성한 후, 모든 스케일에 대한 중요도 맵들을 통합하는 방식을 통해 영상에서 서로 다른 크기로 나타나게 되는 객체에 대해 객체의 크기와 관계 없이 중요도 맵을 얻을 수 있게 된다.

도 6은 본 발명의 일실시예에 따른 차선 변경 시점 예측 방법의 예를 도시한 흐름도이다. 본 실시예에 따른 차선 변경 시점 예측 방법은 차선 변경 시점 예측 시스템을 구현하기 위한 컴퓨터 장치(400)에 의해 수행될 수 있다. 예를 들어, 컴퓨터 장치(400)의 프로세서(420)는 메모리(410)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(420)는 컴퓨터 장치(400)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(400)가 도 6의 방법이 포함하는 단계들(610 내지 650)을 수행하도록 컴퓨터 장치(400)를 제어할 수 있다.

단계(610)에서 컴퓨터 장치(400)는 차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정할 수 있다. 이러한 결정은 앞서 도 5를 통해 학습된 인공지능모델을 통해 이루어질 수 있다. 일례로, 인공지능모델은 현재 상태를 n(n은 자연수)초 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태로서 결정할 수 있다.

단계(610)는 차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 획득하는 단계 및 그러한 영상으로부터 차선 변경과 관련된 현재 상태를 차선 변경이 불가능한 상태, 차선 변경이 가능한 상태, 및 n(상기 n은 자연수)초 후에 차선 변경이 가능한 상태 중 하나로 예측하는 단계로 나누어질 수 있고, 예측하는 단계는 도 5를 통해 학습된 모델을 이용하는 것일 수 있다.

단계(620)에서 컴퓨터 장치(400)는 현재 상태로서 n(n은 자연수)초 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공할 수 있다. 예를 들어, 컴퓨터 장치(400)는 n초 후에 차선 변경이 가능한 상태에 대해서는 n초부터 1초까지 매 초마다 차선 변경까지 남은 시간에 대한 정보를 제공하고, 차선 변경이 프리한 상태에서는 차선 변경이 가능함에 대한 정보를 제공할 수 있다. 보다 구체적이 예로, 차량에 설치된 디스플레이 장치와 연결된 컴퓨터 장치(400)는 디스플레이 장치가 n이 3인 경우, n초 후에 차선 변경이 가능한 상태에 대한 정보를 3초, 2초, 1초와 같이 차선 변경까지 남은 시간에 대한 정보를 제공할 수 있다. 또한, 컴퓨터 장치는 차선 변경이 가능한 경우에는 디스플레이 장치가 차선 변경이 가능함에 대한 정보를 출력하도록 알림을 제공할 수 있다. 디스플레이 장치를 통한 시각적인 알림의 제공 이외에, 스피커를 이용한 청각적인 알림의 제공도 고려될 수 있다. 한편, 알림의 제공은 차량의 운전자에게 제공되는 것 이외에, 차량의 자율주행을 제어하는 인공지능에게 제공되는 것 역시 고려될 수 있다.

실시예에 따라, 컴퓨터 장치(400)는 n초 후에 차선 변경이 가능한 상태에 대한 알림이 제공됨에 따라 차선 변경 준비기능을 활성화할 수도 있다. 이때, 차선 변경 준비기능은 차선변경을 위한 상세 파라미터를 계산하거나 경로를 계산하는 등의 준비기능을 포함할 수 있다.

컴퓨터 장치(400)는 알림은 차선변경 요청에 따라 제공될 수도 있으나, 차량의 좌측 차선 변경 및 우측 차선 변경과 관련하여 서로 다른 방식의 알림을 지속적으로 출력할 수도 있다.

또한, 컴퓨터 장치(400)는 단계(620)에서 차량의 운전자의 운전성향에 대한 정보를 저장하고, 운전성향에 기초하여 상기 알림의 강도를 설정할 수도 있다.

컴퓨터 장치(400)는 n초 후에 차선 변경이 가능함을 정의하는 라벨이 할당된 프레임들에 대한 라벨별 프레임 수에 기초하여 알림의 강도를 결정할 수도 있다. 예를 들어, 10 FPS를 기준으로 3초 라벨이 할당된 프레임 수가 10인 반면, 2초 라벨이 할당된 프레임 수가 1이나 0인 경우, 변경하고자 하는 차선에 급가속하는 차량이나 물체가 존재하는 것을 의미할 수 있다. 이 경우, 컴퓨터 장치(400)는 상대적으로 더 강한 알림을 제공하거나 또는 차선변경을 방지하는 안전장치를 구동하기 위한 신호를 제공할 수 있다.

도 7은 본 발명의 일실시예에 있어서, 라벨을 부여하는 예를 도시한 도면이다. 도 7는 영상이 포함하는 프레임들 중 10 프레임들마다 하나씩 총 5개의 프레임들(710 내지 750)을 나타내고 있다. 이때, 도 7의 제1 프레임(710)은 블록된 상태에서 프리한 상태로 전환되는 시점의 프레임을 나타내고 있다. 이러한 제1 프레임(710)에는 프리한 상태를 나타내는 라벨인 라벨 'FREE'가 부여된 상태일 수 있다. 제1 프레임(710) 이전의 프레임들은 블록된 상태를 나타내는 라벨인 라벨 'BLOCKED'가 부여된 프레임들일 수 있다. 이때, 도 7에 도시된 제2 프레임(720), 제3 프레임(730), 제4 프레임(740) 및 제5 프레임(750) 역시 라벨 'BLOCKED'가 부여된 프레임들에 포함될 수 있다.

초당 프레임 수가 10이라 가정할 때, 이미 설명한 바와 같이, 컴퓨터 장치(400)는 n초 후에 차선 변경이 가능함을 정의하는 라벨을 제1 프레임(710)로부터 이전의 m 번째 프레임에 부여할 수 있다. 여기서, m은 초당 프레임 수와 n간의 곱셈연산을 통해 결정될 수 있다.

예를 들어, 도 7에서 제2 프레임(720)는 제1 프레임(710)로부터 이전의 10 번째 프레임을 나타내고 있다. 이때, 1초 후에 차선 변경이 가능함을 정의하는 라벨은 제1 프레임(710)로부터 이전의 10(초당 프레임 수 10 Х 1초) 번째 프레임인 제2 프레임(720)에 부여될 수 있다.

이와 유사하게, 제3 프레임(730)는 제1 프레임(710)로부터 이전의 20 번째 프레임을 나타내고 있다. 이때, 2초 후에 차선 변경이 가능함을 정의하는 라벨은 제1 프레임(710)로부터 이전의 20(초당 프레임 수 10 Х 2초) 번째 프레임인 제3 프레임(730)에 부여될 수 있다.

제4 프레임(740)는 제1 프레임(710)로부터 이전의 30 번째 프레임을 나타낼 수 있으며, 이러한 제4 프레임(740)에 3초 후에 차선 변경이 가능함을 정의하는 라벨이 부여될 수 있음을 쉽게 이해할 수 있을 것이다.

앞서 표 1과 도 7에서는 n이 3 이하의 자연수인 경우의 예를 설명하고 있으나, n이 보다 다양하게 설정될 수 있음을 쉽게 이해할 수 있을 것이다. 만약, n이 4 이하의 자연수라면, 도 7의 제5 프레임(750)에는 4초 후에 차선 변경이 가능함을 정의하는 라벨이 부여될 것이다.

n초 후에 차선 변경이 가능함을 정의하는 라벨은 기존의 라벨 'BLOCKED'에 추가로 부여될 수도 있으나, 기존의 라벨 'BLOCKED'를 대체하여 부여될 수도 있다.

이처럼 본 발명의 실시예들에 따르면, 차량의 사이드미러로 관측된 측-후방 영역과 유사한 시점을 얻을 수 있도록 설치된 카메라로부터 영상을 입력받아 차선 변경 가능 시점에 대한 정보(일례로, 3초전, 2초전, 1초전, 가능, 불가능)를 예측하여 운전자 또는 자율주행 인공지능에 알림을 줄 수 있다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받는 단계 - 상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함 -;
상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 기설정된 시간 간격 당 프레임 수에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)번의 상기 기설정된 시간 간격 후에 차선 변경이 가능함을 정의하는 라벨을 부여하는 단계; 및
상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하는 단계
를 포함하고,
상기 부여하는 단계는,
상기 전환시점 이전의 m 번째 프레임에 n번의 상기 기설정된 시간 간격 후에 차선변경이 가능함에 대한 라벨을 부여하고,
상기 m은 상기 n과 상기 기설정된 시간 간격 당 프레임 수를 파라미터로 갖는 곱셈연산에 의해 결정되는 것을 특징으로 하는 차선 변경 시점 학습 방법.
삭제
차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받는 단계 - 상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함 -;
상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 기설정된 시간 간격 당 프레임 수에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)번의 상기 기설정된 시간 간격 후에 차선 변경이 가능함을 정의하는 라벨을 부여하는 단계; 및
상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하는 단계
를 포함하고,
상기 영상의 프레임들 각각에 대해 차량 또는 움직이는 물체가 존재하는지 유무를 기반으로 약한 지도 학습(weakly supervised learning)를 수행하여 각 프레임들에서 차량 또는 움직이는 물체가 차지하는 영역을 히트맵의 형태로 출력하는 단계
를 더 포함하는 차선 변경 시점 학습 방법.
제3항에 있어서,
상기 출력하는 단계는,
상기 영상에 대해 크기가 조정된 영상들의 세트를 생성하는 단계;
상기 크기가 조정된 영상들의 세트를 주의 모델(attention model)로 반복적으로 입력시켜 다중 스케일의 중요도 맵들을 생성하는 단계; 및
모든 스케일에 대한 중요도 맵들을 통합하는 단계
를 포함하는 것을 특징으로 하는 차선 변경 시점 학습 방법.
제4항에 있어서,
상기 출력하는 단계는,
상기 중요도 맵과 이진 행렬로 설계된 정답 맵에 대한 픽셀단위의 회귀 손실에 기초하여 상기 주의 모델을 학습하는 단계
를 더 포함하는 것을 특징으로 하는 차선 변경 시점 학습 방법.
제3항에 있어서,
상기 학습하는 단계는,
상기 히트맵 및 상기 영상의 특징 벡터를 더 이용하여 상기 차선 변경 시점을 학습하는 것을 특징으로 하는 차선 변경 시점 학습 방법.
제6항에 있어서,
상기 학습하는 단계는,
상기 특징 벡터의 모든 차원에 상기 히트맵의 값을 더하여 상기 차량 또는 움직이는 물체가 차지하는 영역에 대한 가중치를 증가시키는 것을 특징으로 하는 차선 변경 시점 학습 방법.
제6항에 있어서,
상기 학습하는 단계는,
기설정된 시간 간격에 해당하는 영상의 특징들을 하나의 벡터로 연결하여 상기 영상의 시간적 특징을 부호화하는 것을 특징으로 하는 차선 변경 시점 학습 방법.
제1항 또는 제3항에 있어서,
상기 영상을 입력받는 단계는,
상기 차량의 측-후방 영역의 관측을 위한 위치에 상기 카메라를 장착하여 학습기 훈련을 위한 영상을 취득하는 단계; 및
상기 취득된 영상의 개별 프레임들에 대하여 시간에 따라 순차적으로 상기 제1 라벨 또는 상기 제2 라벨을 부여하는 단계
를 포함하는 것을 특징으로 하는 차선 변경 시점 학습 방법.
차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하는 단계; 및
상기 현재 상태로서 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 단계
를 포함하고,
상기 서로 다른 방식의 알림을 제공하는 단계는,
상기 n번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태에 대해서는 n 번째 시간 간격부터 첫 번째 시간 간격까지 매 시간 간격마다 차선 변경까지 남은 시간에 대한 정보를 제공하고, 상기 차선 변경이 프리한 상태에서는 차선 변경이 가능함에 대한 정보를 제공하는 것을 특징으로 하는 차선 변경 시점 예측 방법.
삭제
차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하는 단계; 및
상기 현재 상태로서 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 단계
를 포함하고,
상기 n번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태에 대한 알림이 제공됨에 따라 차선 변경 준비기능을 활성화하는 단계
를 더 포함하는 것을 특징으로 하는 차선 변경 시점 예측 방법.
차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하는 단계; 및
상기 현재 상태로서 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 단계
를 포함하고,
상기 서로 다른 방식의 알림을 제공하는 단계는,
상기 차량의 좌측 차선 변경 및 우측 차선 변경과 관련하여 상기 서로 다른 방식의 알림을 지속적으로 출력하는 것을 특징으로 하는 차선 변경 시점 예측 방법.
차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하는 단계; 및
상기 현재 상태로서 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 단계
를 포함하고,
상기 차량의 운전자의 운전성향에 대한 정보를 저장하는 단계; 및
상기 운전성향에 기초하여 상기 알림의 강도를 설정하는 단계
를 더 포함하는 것을 특징으로 하는 차선 변경 시점 예측 방법.
제10항에 있어서,
상기 서로 다른 방식의 알림을 제공하는 단계는,
상기 차량의 자율주행을 제어하는 인공지능으로 상기 서로 다른 방식의 알림을 제공하는 것을 특징으로 하는 차선 변경 시점 예측 방법.
차량의 측-후방 영역과 관련하여 카메라를 통해 입력된 영상을 분석하여 차선 변경과 관련된 현재 상태를 결정하는 단계; 및
상기 현재 상태로서 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능한 상태 및 차선 변경이 프리한(FREE) 상태에 대해 서로 다른 방식의 알림을 제공하는 단계
를 포함하고,
상기 서로 다른 방식의 알림을 제공하는 단계는,
상기 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능함을 정의하는 라벨이 할당된 프레임들에 대한 라벨별 프레임 수에 기초하여 알림의 강도를 결정하는 단계
를 더 포함하는 것을 특징으로 하는 차선 변경 시점 예측 방법.
컴퓨터와 결합되어 제1항, 제3항 내지 제8항, 제10항 및 제12항 내지 제16항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
제1항, 제3항 내지 제8항, 제10항 및 제12항 내지 제16항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체.
컴퓨터 장치에 있어서,
컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서에 의해,
차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받고 - 상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함 -,
상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 기설정된 시간 간격 당 프레임 수에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)번의 상기 기설정된 시간 간격 후에 차선 변경이 가능함을 정의하는 라벨을 부여하고,
상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하고,
상기 라벨을 부여하기 위해,
상기 전환시점 이전의 m 번째 프레임에 n번의 상기 기설정된 시간 간격 후에 차선변경이 가능함에 대한 라벨을 부여하고,
상기 m은 상기 n과 상기 기설정된 시간 간격 당 프레임 수를 파라미터로 갖는 곱셈연산에 의해 결정되는 것
을 특징으로 하는 컴퓨터 장치.
컴퓨터 장치에 있어서,
컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서에 의해,
차량의 측-후방 영역과 관련하여 카메라를 통해 입력되어 개별 프레임에 제1 라벨 또는 제2 라벨이 할당된 영상을 입력받고 - 상기 제1 라벨이 할당된 영상은 차선 변경이 블록된(BLOCKED) 상태를 나타내는 영상을, 그리고 상기 제2 라벨이 할당된 영상은 차선 변경이 프리한(FREE) 상태를 나타내는 영상을 각각 포함함 -,
상기 블록된 상태에서 상기 프리한 상태로 전환되는 전환시점을 기준으로 기설정된 시간 간격 당 프레임 수에 따라 상기 전환시점 이전의 적어도 하나의 프레임에 n(상기 n은 자연수)번의 기설정된 시간 간격 후에 차선 변경이 가능함을 정의하는 라벨을 부여하고,
상기 영상의 프레임들과 프레임들이 포함하는 라벨에 기초하여 차선 변경 시점을 학습하고,
상기 영상의 프레임들 각각에 대해 차량 또는 움직이는 물체가 존재하는지 유무를 기반으로 약한 지도 학습(weakly supervised learning)를 수행하여 각 프레임들에서 차량 또는 움직이는 물체가 차지하는 영역을 히트맵의 형태로 출력하는 것
을 특징으로 하는 컴퓨터 장치.