KR20230079999A

KR20230079999A - 교통 수신호 인식 시스템 및 방법

Info

Publication number: KR20230079999A
Application number: KR1020210167331A
Authority: KR
Inventors: 이용구; 백태승
Original assignee: 광주과학기술원
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-06-07
Also published as: US20230169797A1

Abstract

본 발명은 소정의 범위를 촬영하는 카메라로부터 촬영 영상을 획득하는 영상 획득부; 영상 획득부에서 제공받은 촬영 영상에서, 팔 동작을 클래스를 부여하여 분류하는 영상 분류부; 영상 분류부에서 분류된 촬영 영상에서 팔 동작을 검출하여 숫자로 변환된 교통 신호 시퀀스를 생성하는 검출모듈; 및 숫자로 변환된 교통 수신호 시퀀스를 검출모듈로부터 입력받아 교통 수신호 종류를 판단하는 분석 모듈;을 포함하는 교통 수신호 인식 시스템을 제공한다.

Description

교통 수신호 인식 시스템 및 방법 {Traffic Hand Signal Detection System and Method thereof}

본 발명은 교통 수신호 인식 시스템 및 이를 이용한 교통 수신호 인식 방법에 관한 것으로서, 더욱 상세하게는 카메라에 촬영된 영상에서의 교통 수신호에 대한 정보를 토대로 교통 수신호가 표시하는 신호를 판별할 수 있는 교통 수신호 인식 시스템 및 이를 이용한 교통 수신호 인식 방법에 관한 것이다.

최근 테슬라(Tesla), 웨이모(Waymo) 등의 업체가 자율주행기술 개발에 박차를 가하며, 전세계적으로 자율주행에 대한 관심이 높아지고 있다. 자율주행이란 차량이 목적지까지 경로를 계획하고, 주변 환경을 인지하면서 주행 중에 장애물을 피하는 등의 사람이 개입하지 않는 주행을 뜻한다. 미국 SAE(Society of Automotive Engineers)에서는 자율주행을 다섯 단계로 분류하였다. 운전자의 개입 정도에 따라 단계가 나누어진다. 레벨이 높아짐에 따라 운전자의 개입이 적어지며, 자율주행 시스템의 역할이 커지게 된다. 시스템은 카메라, RADAR, LiDAR, GPS 등의 센서로 주변 환경을 인지한다. 운전자가 시스템에 개입하지 않는 레벨 4부터는 시스템이 다양한 도로와 조건 하에 운행이 가능해야 한다. 완전자율주행이 가능하기 위해서는 신호등과 교통 수신호가 중복되었을 때, 교통 수신호를 인식하고 따를 수 있어야 한다. 교통경찰의 수신호는 신호등의 고장 혹은 통행량의 제어를 위하여 사용한다. 도로교통법 상에서는 신호등과 수신호가 중복되는 경우, 수신호를 우선으로 두고 있다. 따라서, 교통 수신호를 인식하고 해석하는 기술이 필수적이다.

경찰의 손을 이용하는 수신호를 인식하는 기술의 개발은 여러 번 시도되어왔다. J. wiederer는 이미지 기반 검출(image-based detection) 후에, 3차원 자세 추정(3D pose estimation)으로 동작을 추출하여 RNN, GRU, LSTM 등으로 수신호 인식을 시도하였다. V. Neeraj는 이미지를 여섯 구역으로 분할하여 해당 영역에 손이 포착될 경우 해당하는 수신호를 해석하였다. Quoc는 심층 이미지(depth image)를 활용하여 인체 파트(human body parts)를 인식하였다. 이후, 골격 관절(skeletal joint)로 수신호 이미지를 라벨링한 뒤에 각 관절(joint)의 각도를 학습하여 수신호를 해석하고자 하였다. R. Sathya는 연속적인 이미지를 획득할 때, 프레임 분할(frame differencing)을 적용하였다. 이 후, 관심영역(RoI : Region of Interest)를 설정한 다음 CBIV feature를 추출하여 수신호 분류를 시도하였다. F. Guo는 dark channel prior과 kernel density estimation을 이용하여 경찰관의 몸과 팔을 추출하고 이후 경찰관의 양팔의 좌표값의 차이를 이용하여 경찰관의 수신호를 인식하는 알고리즘을 개발하였다. Jian은 모션 인식에 특화된 Convolution Pose Machine과 LSTM을 이용하여 카메라 기반의 제스처 인식을 시도하였다. 또한 Chunyong은 스켈레톤 데이터셋을 구축하고 ST-CNN을 이용하여 스켈레톤 포인트들의 위치 변화를 분석하여 교통 수신호 인식 알고리즘을 개발하였다. Cai는 RGB-D depth sensor 기반의 스켈레톤 데이터 셋을 이용하여 수신호 인식 알고리즘을 개발했는데 신경망을 통한 피쳐(feature) 추출을 용이하게 하고자 스켈레톤의 구조를 일부 변경하였다. Chaojun은 스켈레톤 이외의 Lucas-Kanade optical flow method를 사용하여 연속적인 프레임에서 수신호 동작을 추적하여 수신호를 인식하는 알고리즘을 개발했다. Guan은 기존 Faster R-CNN이 복잡한 배경에서 인식률이 떨어지는 현상을 해결하기 위해 2개의 Faster R-CNN모델을 컬러와 깊이(depth)에 대해 개별적으로 적용하여 경찰 수신호 인식률을 높이고자 하였다. vision-base가 아닌 accelerometer를 이용한 연구도 있었다. Ben은 수신호 동작은 하는 경찰의 각 손에 가속도계를 부착하여 각 동작이 갖는 가속도 변화를 이용해 알고리즘을 개발하였다. 수신호가 아닌 지시봉을 이용한 신호의 해석을 하고자 한 여러 알고리즘 또한 있다. Yoon은 yolov3를 기반으로 foremen과 traffic wand를 검출하고, 바운딩 박스(bounding box)의 크기와 위치의 변화를 정규화(normalization)한 뒤 RNN으로 학습하여 신호를 해석하였다. Aulia는 3D CNN을 기반으로 foremen이 신호를 하는지 하지 않는지를 판단한 뒤, wand의 신호를 검출하는 시도를 하였다.

그러나, 이러한 종래 방법론은 제한된 상황에서 깊이(Depth) 이미지 기반 영역 추출 혹은 스켈레톤 부여로 동작을 인식, 가속도 센서를 이용하는 등 많은 연산량을 필요로 하는 한계를 노출하였다.

본 발명은 상기와 같은 문제점을 개선하기 위해 창안된 것으로서, 카메라에 촬영된 영상에서의 교통 수신호에 대한 정보를 토대로 교통 수신호가 표시하는 신호를 판별할 수 있는 교통 수신호 인식 시스템 및 이를 이용한 교통 수신호 인식 방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명에 따른 교통 수신호 인식 시스템은 소정의 범위를 촬영하는 카메라로부터 촬영 영상을 획득하는 영상 획득부; 상기 영상 획득부에서 제공받은 촬영 영상에서, 팔 동작을 클래스를 부여하여 분류하는 영상 분류부; 상기 영상 분류부에서 분류된 촬영 영상에서 팔 동작을 검출하여 숫자로 변환된 교통 신호 시퀀스를 생성하는 검출모듈; 및 상기 숫자로 변환된 교통 수신호 시퀀스를 상기 검출모듈로부터 입력받아 교통 수신호 종류를 판단하는 분석 모듈;을 포함한다.

상기 검출모듈은 상기 영상 분류부에 의하여 분류된 촬영 영상 시퀀스에서 수신호권자가 취하고 있는 팔의 동작을 검출하는 팔 동작 검출부; 및 상기 검출된 팔 동작 영상의 클래스를 숫자로 변환하는 팔 동작 숫자 변환부;를 포함한다.

상기 검출모듈은 팔 방향 이미지의 클래스를 나타내는 숫자의 조합으로 교통 수신호 시퀀스를 생성하는 교통 수신호 시퀀스 조절부를 더 포함한다.

상기 교통 수신호 시퀀스 조절부는 상기 팔 방향 이미지의 클래스를 일정 범위 내에서 랜덤하게 생성하여 상기 교통 수신호의 시퀀스에 추가하거나 삭제할 수 있다.

상기 분석 모듈은 상기 숫자로 변환된 교통 수신호 시퀀스를 학습하는 교통 수신호 학습부; 및 상기 교통 수신호 시퀀스를 입력받아 교통 수신호의 종류를 판단하는 교통 수신호 판단부를 포함한다.

상기 교통 신호 학습부는 Vanilla RNN, LSTM, GRU 및 LSTM GRU 중 어느 하나이다.

상기 교통 수신호 판단부는 교통 수신호의 확률값이 0.4 이상인 경우, 해당 교통 수신호로 판단한다.

상기 교통 수신호 판단부는 풀리 커넥티드 레이어와 소프트 맥스를 포함한다.

상기 분석 모듈은 촬영된 교통 수신호 시퀀스 영상, 촬영영상에서 추출된 팔의 방향 이미지, 및 숫자로 표현된 교통 수신호 시퀀스에 대한 정보를 저장하는 데이터 베이스를 더 포함한다.

본 발명에 따른 교통 수신호 인식 방법은 소정의 범위를 촬영하는 카메라로부터 촬영 영상을 획득하는 영상 획득단계; 상기 영상 획득단계에서 획득한 촬영 영상에서, 팔 동작 종류별로 분류하는 영상 분류단계; 상기 분류된 영상에서 팔 방향 동작을 검출하여 숫자로 변환된 교통 수신호 시퀀스를 생성하는 검출단계; 및 상기 검출단계에서 검출된 정보를 토대로 숫자로 변환된 교통 수신호 시퀀스에 대응되는 교통 수신호의 종류를 판단하는 분석단계를 포함한다.

상기 검출 단계는 변환된 교통 수신호 시퀀스에 임의의 교통 수신호 시퀀스를 추가하거나 삭제하는 단계를 더 포함할 수 있다.

상기 검출단계에서는, 숫자로 변환된 교통 수신호 시퀀스를 학습하는 단계를 포함할 수 있다.

상기 분석단계에서는, 교통 수신호 시퀀스를 입력으로 사용할 때, 문턱값 이상이 되는 경우에 교통 수신호로 판별한다.

본 발명에 따른 교통 수신호 인식 시스템 및 교통 수신호 인식 방법은 카메라에 촬영된 영상에서의 교통 수신호에 대한 정보를 토대로 교통 수신호가 표시하는 신호를 판별할 수 있으므로 운전자가 부주위하더라도 해당 교통 수신호가 표시하는 신호에 대한 정보를 제공받을 수 있고, 자율주행 차량도 교통 수신호가 표시하는 신호를 인지할 수 있다.

도 1은 교통 수신호 종류에 대한 개념도이다.
도 2는 교통 수신호 동작을 취할 때 팔의 동작을 운전자 입장에서 표현한 개념도이다.
도 3은 4종류의 교통 수신호를 운전자 시점에서 나타낸 이미지이다.
도 4는 교통 수신호 시퀀스를 이루는 팔 방향 동작의 촬영영상을 나타내는 이미지이다.
도 5은 본 발명의 일실시예에 따른 교통 수신호 인식 시스템을 도시한 블록도이다.
도 6은 본 발명의 일실시예에 따른 교통 수신호 인식 시스템의 신경망 네트워크를 나타내는 개념도이다.
도 7 내지 도 10은 최적의 교통 수신호 학습부를 선정하기 위하여, 교통 수신호에서 추출한 팔 방향 클래스 시퀀스 데이터세트로 vanilla RNN, LSTM, Bi-LSTM, 그리고 GRU를 학습하여 비교한 결과를 나타내는 그래프이다.
도 11은 교통 수신호 학습부에 입력되는 시퀀스와 출력을 시간의 순서에 따라 나타낸 예시이다.
도 12은 6가지 신호에 대하여 프레임 진행에 따른 6가지 교통 수신호의 확률 변화를 나타내는 그래프이다.
도 13은 본 발명의 교통 수신호 인식 시스템(100)을 이용한 교통 수신호 인식 방법에 대한 순서도이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시예에 따른 차량 수신호 인식 시스템 및 차량 수신호 인식 방법에 대해 상세히 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하여 도시한 것이다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함 하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

일반적으로, 교통 수신호는 도로 위 통행량의 제어를 위해 수신호권자가 행하는 신호를 뜻하며 법률로 명시되어 있다. 중앙경찰학교의 외근 경찰관 수신호 교양안에 따르면 경찰이 교통정리를 위하여 사용하는 수신호는 모두 10가지이다. 그러나 도 1을 참조하면, 실제 도로 상황에서 수신호를 적용하기 위하여 기존 수신호 종류에 다섯 가지를 추가한 총 15가지의 수신호를 정의할 수 있다. 교통 수신호의 이름은 경찰이 바라보고 있는 방향이 정면임을 염두에 두고 있다. 도 1의 (a) 전방에서 후방(front to back)의 경우 경찰이 정면에 있는 차량을 자신의 뒤로 보내는 신호를 의미한다. 또한, 도 1의 (f) 우측에서 전방(right to front)의 경우는 경찰이 자신의 오른쪽에 위치한 차량을 자신의 정면으로 보내는 신호를 의미한다.

교통 수신호 동작은 2가지에서 4가지 동작의 조합으로 이루어져 있다. 단순히 해당 방향을 향해 팔을 대각선으로 드는 정지 신호를 제외한 모든 신호는 신호의 대상을 팔로 지칭한 후, 다음 진행 방향으로 팔을 이동하여 가리키는 동작으로 조합되어 있다.

도 2는 교통 수신호 동작을 취할 때 팔의 동작을 운전자 입장에서 표현한 개념도이다. 도 2를 참조하면, 교통 수신호에서 사용하는 팔 방향에 따른 팔 동작은 총 8가지 동작으로 분류될 수 있다. 즉, 교통 수신호를 나타내는 팔 동작은 전방(front), 후방(back), 좌측(left), 우측(right), 상방(up), 아래(down), 사선(oblique), 그리고 좌우(left and right)의 8가지 동작으로 이루어져 있다.

도 3은 4종류의 교통 수신호를 운전자 시점에서 나타낸 이미지이다. 교통 수신호는 경찰이 아닌 운전자의 입장에서 팔이 향하는 방향으로 정의해야 된다. 도 3을 참조하면, 우회전을 지시하는 교통 수신호는 4가지 종류를 신호를 받는 운전자 시점에서 나타낼 수 있다. 경찰이 바라보고 있는 방향과 무관하게, 수신호를 동작하는 팔의 방향은 운전자를 향한 뒤에 다음 진행방향인 오른쪽을 향한다.

즉, 경찰이 바라보고 있는 방향과 관계없이 팔이 가리키는 방향의 변화로 교통 수신호가 완성된다. 또한, 경찰이 운전자를 가리키는 팔의 방향을 신호로 하여 해당 수신호가 자신을 향한 것인지 아닌지 판단할 수 있다. 선행 동작이 운전자를 가리키는 경우, 운전자에게 유효한 신호임을 알 수 있다. 그렇지 않은 경우는 다른 방향의 운전자에게 내리는 신호이므로 운전자는 아무런 동작을 취할 필요가 없다. 따라서 교통 수신호는 경찰의 팔 방향과 그 순서로 유추할 수 있다.

도 4는 교통 수신호 시퀀스를 이루는 팔 방향 동작의 촬영영상을 나타내는 이미지이다. 도 5은 본 발명의 일실시예에 따른 교통 수신호 인식 시스템(100)을 도시한 블록도이다. 도 6은 본 발명의 일실시예에 따른 교통 수신호 인식 시스템의 신경망 네트워크를 나타내는 개념도이다.

도 5를 참조하면, 교통 수신호 인식 시스템(100)은 소정의 범위를 촬영하는 카메라(15)로부터 촬영 영상을 획득하는 영상 획득부(200)와, 상기 영상 획득부(200)에서 제공받은 촬영 영상에서, 팔 동작을 클래스를 부여하여 분류하는 영상 분류부(300)와, 상기 영상 분류부(300)에서 분류된 촬영 영상에서 팔 동작을 검출하여 숫자로 변환된 교통 신호 시퀀스를 생성하는 검출모듈(400) 및 상기 교통 신호 시퀀스를 상기 검출모듈로부터 입력받아 교통 수신호 종류를 판단하는 분석모듈(500)을 포함한다.

영상 획득부(200)는 카메라(15)에 연결되어 카메라(15)로부터 촬영 영상 즉, 차량의 전방에 대한 촬영 영상을 획득한다. 여기서, 영상 획득부(200)는 카메라(15)에 유선 또는 무선 통신망을 통해 연결되는 것이 바람직하다.

영상 획득부(200)는 수신호의 수행 전부터 수행 후까지를 영상으로 촬영하여, 이를 하나의 수신호 시퀀스(sequence)를 촬영한다.

도 4를 참조하면, 영상 분류부(300)는 교통 수신호를 수행하는 사람의 팔 동작에 따라 아래(down), 전방(front), 후방(back), 좌측(left), 우측(right), 상방(up), 사선(oblique), 좌우(left and right) 및 보행자의 8가지로 팔 동작을 클래스를 부여하여 분류한다.

영상 분류부(300)는 전체 촬영 영상 중에서, 전방에서 찍은 영상만을 선택하여 전방 영상으로 어노테이션(annotation)한다. 또한, 영상 분류부(300)는 교통 수신호 시퀀스를 예를 들어 초당 15장의 이미지로 변환한 후, 도 4의 클래스를 기준으로 팔 동작에 대하여 바운딩 박스 어노테이션(bounding box annotation)한다.

영상 분류부(300)는 검출모듈(400)을 학습시키기 위하여 전체 이미지를 8:2의 비율로 트레이닝 데이터세트(training dataset)와 테스트 데이터세트(test dataset)로 분류할 수 있다. 또한, 영상 분류부(300)는 트레이닝 데이터세트를 8:2의 비율로 트레인 데이터(train data)와 유효 데이터(validation data)로 분배한다. 예를 들어, 분류된 영상의 수량은 표 1과 같다.

신호	(a)	(b)	(c)	(d)	(e)	(f)	(g)	(h)	(i)	(j)	(k)	(l)	(m)	(n)	(o)	총합
트레인	5,470	3,700	3,764	3,681	5,768	3,952	4,322	4,148	4,369	3,819	4,340	3,960	4,193	3,984	3,969	63,439
유효	1,367	924	940	920	1,442	988	1,080	1,037	1,092	954	1,084	990	1,048	995	992	15,853
테스트	1,689	1,189	1,191	1,174	1,768	1,194	1,359	1,289	1,389	1,193	1,386	1,230	1,286	1,265	1,221	19,823

표 2는 영상 분류부(300)가 트레이닝 데이터세트와 테스트 데이터세트를 구분하여 분류한 팔 동작의 클래스 개수의 예시를 나타낸다. 교통 수신호권자가 아닌 보행자의 개채 수가 가장 많다. 그 다음으로 팔을 아래로 내리고 있는 기본 동작인 아래(down)의 개수가 많았다. 운전자가 아닌 좌측과 우측을 정지시키는 좌우측(left and right) 팔 동작의 수가 가장 적으며, 직진을 의미하는 신호에서만 나타나는 상방(up) 팔 동작이 그 다음으로 작았다.

신호	down	front	back	left	right	up	oblique	left and right	보행자
트레이닝	40,123	7,100	8,227	7,299	6,090	3,448	4,324	2,764	104,683
테스트	10,056	1,755	2,012	1,840	1,544	876	1,055	706	26,351

검출모듈(400)은 상기 분류된 촬영 영상에서 교통 수신호의 팔동작을 검출하고 팔 동작을 숫자로 변환한 교통 수신호 시퀀스를 생성하여 교통 수신호를 학습하여 교통 수신호의 종류를 판단한다.도 5와 도 6을 참조하면, 검출모듈(400)은 팔동작 검출부(410), 팔동작 숫자 변환부(420) 및 교통 수신호 시퀀스 조절부(430)를 포함한다.

하나의 교통 수신호 시퀀스는 수신호의 시작 전부터 종료 후까지, 100장 내외의 교통 수신호 동작 프레임별 이미지로 구성될 수 있다.

팔 동작 검출부(410)는 교통 수신호 동작을 분류(classify)하기 위하여 영상 분류부(300)에 의하여 분류된 촬영 영상 시퀀스에서 수신호권자가 취하고 있는 팔의 동작을 검출한다.

팔 동작 검출부(410)은 yolo v3와 yolo v4 중 어느 하나일 수 있다.

yolo v4는 BoF(Bag of Freebies), BoS(Bag of Specials) 등의 최신 딥러닝 기법을 이용하여 yolo v3의 성능을 개선한 것이다. yolo v4는 하나의 이미지에 여러 개의 클래스를 넣어 데이터를 증강하는 모자익 데이터 증가(Mosaic Data Augmentation)과 드랍아웃(DropOut) 실행 시 랜덤하게 아웃시키지 않고 일정한 범위를 아웃시키는 드랍블락 정규화(DropBlock Regularization)를 사용한다. 또한, yolo v4는 클래스 라벨 스무딩(class label smoothing)을 이용하여 기존의 1과 0으로 표현되었던 라벨을 0.1, 0.9와 같은 확률로 변경하여 오버피팅(overfitting) 문제를 방지하였다.

팔 동작 숫자 변환부(420)는 검출된 팔 동작 이미지에 각 클래스를 순서대로 예를 들어 0부터 8까지 숫자로 변환한다. 즉, 팔 동작 숫자 변환부(320)은 추출된 팔의 방향 이미지를 클래스별로 숫자를 부여한다. 표 3을 참조하면, 교통 수신호는 직진, 우회전, 좌회전, 정지와 무신호를 팔 방향 숫자의 조합으로 표시할 수 있다.

신호	교통 수신호	팔의 동작
go straight	(a) front to back	front(1) - up(5) - back(2)
	(g) right to left
	(k) left to right
turn right	(b) front to left	front(1) - right(4)
	(f) right to front
	(l) left to back
	(m) back to right
turn left	(c) Front to right	front(1) - left(3)
	(h) right to back
	(j) left to front
	(n) back to left
stop	(d) front stop	Oblique(6)
	(o) back stop
	(f) front and back simultaneous stop
invalid signal	(i) right and left simultaneous stop	left and right(7)

교통 수신호 시퀀스 조절부(430)는 팔 방향을 가리키는 이미지의 클래스를 나타내는 숫자의 조합으로 운전자에게 의미있는 6 종류의 교통 수신호 시퀀스를 생성한다. 또한, 교통 수신호 시퀀스 조절부(430)는 팔 방향 이미지의 클래스를 일정 범위 내에서 랜덤하게 생성하여 교통 수신호의 시퀀스에 추가할 수 있다. 팔 동작 검출부(410)에서 검출되어 클래스가 부여된 팔 방향 라벨은 교통 수신호 학습부(510)인 RNN에게 전달될 때 일정한 길이로 잘려서 전달되지 않는다. 연속적인 스트림으로 프레임마다 라벨이 전달되어온다. 따라서 아무 동작이 없다가 교통 수신호 행동을 취하는 경우, 교통 수신호가 시작되기도 전에 전혀 다른 교통 수신호로 분류될 가능성이 있다. 이를 방지하기 위하여 교통 수신호 시퀀스 조절부(430)는 0으로만 이루어진 시퀀스를 랜덤한 길이로 생성할 수 있다. 추가적으로, 교통 수신호 시퀀스 조절부는 운전자를 가리키는 신호와 정지신호를 제외한 다른 숫자를 아주 짧게 0 시퀀스 뒤에 붙인 시퀀스를 생성할 수 있다.

생성된 시퀀스의 길이는 최소 6부터, 최대 91까지이다. 평균 길이는 33.8이며, 표준편차는 9.4이다. 데이터세트가 15 프레임/초로 구해진 것을 고려한다면, 대부분의 수신호는 약 2초에서 4초 사이에 이루어진다는 것을 유추할 수 있다.

교통 수신호 시퀀스 조절부(430)는 숫자로 변환된 교통 수신호 시퀀스를 6:2:2의 비율로 훈련(train), 유효성(validation), 시험(test) 세트로 랜덤하게 믹싱한다. 또한, 교통 수신호 시퀀스 조절부(430)는 교통 수신호 시퀀스의 길이를 조절한다. 즉, 교통 수신호 시퀀스 조절부(430)는 교통 수신호 시퀀스가 입력 길이보다 짧을 경우, 뒷부분부터 절단(truncation)한다. 반면에 시퀀스 길이가 입력길이보다 더 길 경우에는 시퀀스 앞부분을 0으로 채우는 영 충전(zero padding)을 진행한다.

도 5와 도 6을 참조하면, 분석 모듈(500)은 교통 수신호 학습부(510), 교통 수신호 판단부(520) 및 데이터베이스(530)을 포함한다.

본 발명의 일실시예에 따른 교통 수신호 학습부(510)는 숫자로 표현된 팔의 방향에 따른 8가지 교통 수신호 클래스와 보행자 클래스를 학습한다. 하이퍼 파라미터(hyper parameter)는 100,000회 반복(iterations), 0.5 IoU, 64 배치 사이즈를 갖는다. 교통 수신호 학습부(510)는 Table 2.3의 훈련 세트와 유효성 세트로 학습을 진행하였다. 100,000 반복(iteration)은 약 80 이포크(epoch)이다. 학습결과 최종 mAP는 91.3%이었다.

교통 수신호 학습부(510)는 스켈레톤(skeleton) 기반의 동작 인식(action recognition)은 동작의 분석을 위하여 RNN을 포함한다. 실시예로서, 교통 수신호 학습부(510)는 Vanilla RNN, LSTM, GRU 및 LSTM GRU 중 어느 하나일 수 있다.

RNN은 히든 노드(hidden node)가 방향성을 지니고 연결되어 directed cycle을 이루는 딥 러닝 모델의 한 종류이다. Vanilla RNN은 기본적인 RNN 모델이다

LSTM은 RNN의 한 종류이며, Vanilla RNN 보다 더 복잡한 셀을 가지고 있다. LSTM은 V-RNN에 비하여 더 긴 입력 데이터에 잘 작동한다. LSTM의 가장 큰 특징은 바로 셀 스테이트(cell state)이다. LSTM은 하나의 layer로 이루어진 반복 모듈을 갖는 RNN과는 다르게 LSTM은 3개의 지그모이드 레이어(sigmoid layer)를 추가하여 정보의 기억와 망각을 결정하는 기능을 가진다. Bi LSTM은 LSTM에서 발생하는 데이터 병목 현상을 해결하기 위해 기존의 LSTM에 역방향으로 처리하는 LSTM 계층을 추가한 네트워크를 말한다. 역방향의 레이어가 추가되었기 때문에 시간 순으로 입력되는 데이터 전체를 조망하는 종단간 학습이 가능하다.

LSTM GRU는 RNN에 지그모이드 레이어(Sigmoid layer)를 추가한 LSTM과 같은 역할을 하지만 LSTM의 구조를 단순화해 계산상의 효율성을 높인 신경망이다. LSTM에 존재하는 입력(input), 포겟 게이트(forget gate)와 달리 리셋 게이트(reset gate)와 업데이트 게이트(update gate)로 구성되어 2번의 지그모이드 연산과 1번의 tanh 연산만을 요구한다.

도 7 내지 도 10은 최적의 교통 수신호 학습부(510)를 선정하기 위하여, 교통 수신호에서 추출한 팔 방향 클래스 시퀀스 데이터세트로 vanilla RNN, LSTM, Bi-LSTM, 그리고 GRU를 학습하여 비교한 결과를 나타내는 그래프이다.

도 7 내지 도 10은 입력 데이터 길이는 48이며, 이보다 짧은 경우는 영 충전(zero padding)하였다. 스텝 사이즈(Step size)는 32, 배치 사이즈(batch size) 64, 250 에포트(epoch)로 히든 레이어(hidden layer)의 수를 2, 4, 7, 10으로 바꾸어 학습한 결과를 그래프로 나타낸 것이다.

도 7을 참조하면, vanilla RNN은 가장 기초적인 RNN의 구조이기에 다른 RNN에 비하여 트레인(train)과 테스트(test) 및 유효(validation)의 차이가 비교적 큰 것을 알 수 있다. 히든 레이어(hidden layer)의 수가 커질수록 vanilla RNN은 더 크게 오버피팅(overfitting)되는 것은 알 수 있다. LSTM의 경우, 도 8의 (b)를 보면 히든 레이어(hidden layer)의 수가 4일 때부터 그래프가 요동 치는 것을 볼 수 있다. Bi-LSTM과 GRU는 7 레이어까지는 안정적인 학습을 보여주었으며 10 레이어에서 그래프가 진동하는 것을 볼 수 있다.

[표 4]은 히든 레이어 수에 따른 각 RNN의 평가 정확도(evaluation accuracy)와 테스트 정확도(test accuracy)를 나타낸다. 각 RNN의 최대 테스트 정확도(maximum test accuracy)는 다음과 같다. vanilla RNN: 89%, LSTM: 95.47%, Bi-LSTM: 95.79, GRU: 95.79이다. 테스트 정확도가 가장 높은 두개의 알고리즘은 4개의 히든 레이어의 Bi-LSTM과 7개의 히든 레이어의 GRU이다. 가장 정확도가 낮은 RNN은 vanilla RNN이다.

GT	V-RNN				LSTM				Bi-LSTM				GRU
Hidden layers	2	4	7	10	2	4	7	10	2	4	7	10	2	4	7	10
Evaluation accuracy (%)	96.43	97.24	95.54	96.19	95.94	96.19	95.62	95.86	96.27	94.97	95.54	95.05	96.43	96.35	95.86	96.19
Test accuracy (%)	88.35	87.38	89.00	87.70	95.47	94.82	95.47	94.82	95.15	95.79	93.53	92.88	94.82	93.85	95.79	94.82

교통 수신호 학습부(510)는 학습한 결과를 토대로, 같은 정확도(accuracy)를 가지지만 연산 속도가 상대적으로 빠른 7 히든 레이어(hidden layer)의 GRU를 사용하는 것이 바람직하다. 도 11은 교통 수신호 학습부에 입력되는 시퀀스와 출력을 시간의 순서에 따라 나타낸 예시이다.

도 11을 참조하면, 처음 아무 동작이 없는 경우 혹은 수신호권자가 없는 경우에는 0시퀀스를 입력받으며, 해당하는 라벨은 무동작(inactive)이다. 그 다음 프레임에서 운전자를 가리키는 전방라벨(front label) 1이 입력된다. 프레임이 계속 입력되면서 t=k일 때와 같이 다음 팔 동작인 업라벨(up label) 5가 입력된다. 마지막 팔 동작인 후방 라벨(back label) 2가 모두 입력될 경우, 교통 수신호 학습부(510)는 교통 수신호 시퀀스를 직진(go straight)신호로 인식하게 된다.

도 12은 6가지 신호에 대하여 프레임 진행에 따른 6가지 교통 수신호의 확률 변화를 나타내는 그래프이다. 도 12의 (a)를 참조하면, 아무 동작을 하지 않는 무동작 시퀀스(inactive sequence)는 확률 그래프가 평탄하게 진행하는 것을 알 수 있다. 직진 시퀀스의 경우, 평탄하다가 수신호가 진행되는 시점에서 직진(go straight) 신호에 해당하는 확률이 가장 높아지는 것을 알 수 있다. 마찬가지로, 우회전(turn right), 좌회전(turn left), 정지(stop) 시퀀스는 해당하는 교통 수신호가 진행되는 경우 각 확률이 높아지는 것을 알 수 있다. 수신호가 인식되는 경우, 해당하는 신호의 확률이 0.6에 근접하는 것을 알 수 있다.

따라서, 교통 수신호 판단부(520)는 라벨을 스트리밍하여 교통 수신호 시퀀스를 입력으로 사용할 때, 문턱값(threshold)을 설정하여 이 값 이상이 되는 경우에 교통 수신호로 판별한다. 문턱값은 0.4일 수 있다.

무동작 시퀀스(inactive sequence)와 무효 시퀀스(invalid sequence)는 둘 모두 운전자에게 아무런 신호를 하지 않는다. 그러나 확률 그래프에서는 다른 양상을 보인다. 평탄한 무동작 시퀀스의 확률 그래프와는 다르게, 무효 시퀀스는 수신호 동작이 진행될 때 값이 변하는 것을 볼 수 있다. 따라서, 교통 수신호 판단부는 문턱값인 0.4보다 낮고 0.2보다 높은 확률을 갖는 신호를 무효 수신호(invalid signal)로 판단할 수 있다.

교통 수신호 학습부(510)를 평가하기 위하여, 앞서 데이터를 확충하기 위해 교통 수신호 시퀀스 조절부(430)를 사용할 수 있다. 교통 수신호 시퀀스 조절부(430)는 300 개의 시퀀스를 생성하여 교통 수신호 종류에 따라 균등하게 조절할 수 있다.

표 5는 데이터세트에서 추출된 교통 수신호의 시퀀스를 예를 나타낸다. 숫자 하나는 팔 방향 이미지 한 장을 의미하며, 0으로만 이루어진 시퀀스는 아무 수신호 동작을 취하고 있지 않은 것이므로, 무신호로 여긴다. 모든 교통 수신호의 종류는 15가지이지만, 운전자 입장에서 교통 수신호를 해석하는 것이 바람직하다.

신호	교통 수신호 시퀀스 예	Original sequence	Artificial sequence	Total sequence
go	111111115552222222222222222222222222	100	1,100	1,200
	1111111111111155555555552222222222222222222
	1111111111155552222222222
turn right	1111111111111333333333333333	100	1,100	1,200
	111111111133333333333
	1111111111133333333333333
turn left	111111111144444444444444444	100	1,100	1,200
	11111111111111111444444444444444
	11111111111111111111111111444444444444444
stop	111111116666666666666	100	1,100	1,200
	111111111666666666666666666666
	6666666666666666666
invalid signal	22222222222222222222222	1,100	100	1,200
	44444444444444444111111111111111111
	55555555555555555522222222222222222
inactive signal	000000000000000000000000000	0	1,200	1,200
	00000000000000000000222222
	000000000000000000000000000555
total		1,500	5,700	7,200

교통 수신호 판단부(520)는 15가지의 신호를 직진, 우회전, 좌회전, 정지, 그리고 수신호권자가 아무 동작을 취하고 있지 않은 무신호(inactive)와 수신호가 운전자에게 향하는 것이 아닌 무효신호(invalid)로 교통 수신호의 종류를 판단한다.다시 도 5와 도 6을 참조하면, 교통 수신호 판단부(520)는 풀리 커넥티드 레이어(fully connected layer)와 소프트맥스를 포함할 수 있다.

교통 수신호 판단부(520)는 숫자로 변환된 교통 수신호 시퀀스를 검출모듈(400)로부터 입력받아 풀리 커넥티드 레이어를 통과시킨 후 그 결과를 소프트 맥스에 의하여 처리하여 교통 수신호 종류를 판단한다.

교통 수신호 판단부(520)는 유효 신호로 직진, 우회전, 좌회전, 정지 신호로 판단된 결과를 출력하고 다른 방향의 운전자에게 지시하는 경우와 교통 수신호에 해당하지 않은 경우 유효하지 않은 신호를 출력한다.

데이터 베이스(530)는 촬영된 교통 수신호 시퀀스 영상, 촬영영상에서 추출된 팔의 방향 이미지, 및 숫자로 표현된 교통 수신호 시퀀스에 대한 정보를 저장한다.

교통 수신호 판단부(520)는 검출 모듈(400)에서 제공되는 교통 수신호 시퀀스에 대한 정보를 데이터 베이스(530)에 저장된 정보와 비교하여 상기 촬영 영상에 포함된 교통 수신호의 종류를 판단한다.

상술된 바와 같이 구성된 본 발명에 따른 교통 수신호 인식 시스템(100)은 카메라(15)에 촬영된 영상에서의 교통 수신호에 대한 정보를 토대로 교통 수신호가 표시하는 신호를 판별할 수 있으므로 운전자가 교통 수신호가 표시하는 신호에 대한 정보를 제공받을 수 있고, 자율주행 차량도 교통 수신호가 표시하는 신호를 인지할 수 있다.

한편, 도 13은 본 발명의 교통 수신호 인식 시스템(100)을 이용한 교통 수신호 인식 방법에 대한 순서도이다.

도 12를 참조하면, 교통 수신호 인식 방법은 영상 획득단계(S100), 영상 분류단계(S200), 팔동작 검출단계(S300) 및 교통 수신호 분석단계(S400)를 포함한다.

영상 획득단계(S100)는 소정의 범위를 촬영하는 카메라(15)로부터 촬영 영상을 획득하는 단계이다. 카메라(15)에 연결된 영상 획득부(200)는 카메라(15)로부터 촬영 영상을 제공받는다.

영상 획득부(200)는 교통 수신호의 수행 전부터 수행 후까지를 영상으로 촬영하고, 하나의 교통 수신호 시퀀스(sequence)를 수집한다.

영상 분류단계(S200)는 수집된 교통 수신호 촬영 영상 중에서, 전방에서 찍은 영상을 팔 동작 종류별로 분류한다. 영상 분류부(300)는 교통 수신호 시퀀스를 초당 15장의 이미지로 변환한 뒤, 클래스를 기준으로 바운딩 박스 어노테이션(bounding box annotation)한다. 또한, 영상 분류부(300)는 교통 수신호의 팔 동작에 따라 아래(down), 전방(front), 후방(back), 좌측(left), 우측(right), 상방(up), 사선(oblique), 좌우(left and right)의 8가지로 팔 동작을 분류한다.

검출단계(S300)는 영상 분류단계(S200)에서 획득한 팔 동작 촬영영상에서, 팔 방향의 동작을 검출하고 검출된 팔 동작 영상에 0에서 8까지 숫자로 클래스를 부여하고 교통 수신호 시퀀스를 생성하는 단계이다.

팔 동작 검출부(410)은 상기 영상 분류부에 의하여 분류된 촬영 영상 시퀀스에서 수신호권자가 취하고 있는 팔의 동작을 검출한다. 팔 동작 숫자 변환부(420)는 검출된 팔 동작 영상의 클래스를 숫자로 변환한다.

검출단계(300)에서 교통 수신호 시퀀스 조절부(430)에 의하여 숫자로 변환된 교통 수신호 시퀀스에 임의의 교통 수신호 시퀀스를 추가하거나 삭제할 수 있다.

교통 수신호 분석단계(S400)는 검출단계(S300)에서 검출된 정보를 토대로 숫자로 변환된 교통 수신호 시퀀스에 대응되는 교통 수신호의 종류를 판단하는 단계이다.

분석단계(S400)에서, 교통 수신호 학습부(510)가 숫자로 변환된 교통 수신호 시퀀스를 학습하는 단계를 포함한다. 교통 수신호 판단부(520)는 숫자로 변환된 교통 수신호 시퀀스를 검출 모듈(400)로부터 입력받아 풀리 커넥티드 레이어를 통과시킨 후 그 결과를 소프트 맥스에 의하여 처리하여 교통 수신호 종류를 판단한다.

교통 수신호 판단부(520)는 라벨을 스트리밍하여 교통 수신호 시퀀스를 입력으로 사용할 때, 문턱값(threshold)을 설정하여 이 값 이상이 되는 경우에 교통 수신호로 판별한다. 문턱값은 0.4일 수 있다.

제시된 실시예들에 대한 설명은 임의의 본 발명의 기술분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시 예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

100: 교통 수신호 인식 시스템 200: 영상 획득부 300: 영상 분류부 400: 검출모듈 410: 팔 동작 검출부 420: 팔 동작 숫자 변환부 430: 교통 수신호 시퀀스 조절부 500: 분석모듈 510: 교통 수신호 학습부 520: 교통 수신호 판단부 530: 데이터 베이스

Claims

소정의 범위를 촬영하는 카메라로부터 촬영 영상을 획득하는 영상 획득부;
상기 영상 획득부에서 제공받은 촬영 영상에서, 팔 동작을 클래스를 부여하여 분류하는 영상 분류부;
상기 영상 분류부에서 분류된 촬영 영상에서 팔 동작을 검출하여 숫자로 변환된 교통 신호 시퀀스를 생성하는 검출모듈; 및
상기 숫자로 변환된 교통 수신호 시퀀스를 상기 검출모듈로부터 입력받아 교통 수신호 종류를 판단하는 분석 모듈;을 포함하는, 교통 수신호 인식 시스템.
제1항에 있어서,
상기 검출모듈은 상기 영상 분류부에 의하여 분류된 촬영 영상 시퀀스에서 수신호권자가 취하고 있는 팔의 동작을 검출하는 팔 동작 검출부; 및
상기 검출된 팔 동작 영상의 클래스를 숫자로 변환하는 팔 동작 숫자 변환부;를 포함하는, 교통 수신호 인식 시스템.
제2항에 있어서, 상기 검출모듈은 팔 방향 이미지의 클래스를 나타내는 숫자의 조합으로 교통 수신호 시퀀스를 생성하는 교통 수신호 시퀀스 조절부를 더 포함하는, 교통 수신호 인식 시스템.
제3항에 있어서,
상기 교통 수신호 시퀀스 조절부는 상기 팔 방향 이미지의 클래스를 일정 범위 내에서 랜덤하게 생성하여 상기 교통 수신호의 시퀀스에 추가하거나 삭제하는, 교통 수신호 인식 시스템.
제1항에 있어서,
상기 분석 모듈은 상기 숫자로 변환된 교통 수신호 시퀀스를 학습하는 교통 수신호 학습부; 및
상기 교통 수신호 시퀀스를 입력받아 교통 수신호의 종류를 판단하는 교통 수신호 판단부를 포함하는 교통 수신호 인식 시스템.
제5항에 있어서,
상기 교통 신호 학습부는 Vanilla RNN, LSTM, GRU 및 LSTM GRU 중 어느 하나인, 교통 수신호 인식 시스템.
제5항에 있어서,
상기 교통 수신호 판단부는 교통 수신호의 확률값이 0.4 이상인 경우, 해당 교통 수신호로 판단하는, 교통 수신호 인식 시스템.
제5항에 있어서,
상기 교통 수신호 판단부는 풀리 커넥티드 레이어와 소프트 맥스를 포함하는 교통 수신호 인식 시스템.
제1항에 있어서,
상기 분석 모듈은 촬영된 교통 수신호 시퀀스 영상, 촬영영상에서 추출된 팔의 방향 이미지, 및 숫자로 표현된 교통 수신호 시퀀스에 대한 정보를 저장하는 데이터 베이스를 더 포함하는, 교통 수신호 인식 시스템.
소정의 범위를 촬영하는 카메라로부터 촬영 영상을 획득하는 영상 획득단계;
상기 영상 획득단계에서 획득한 촬영 영상에서, 팔 동작 종류별로 분류하는 영상 분류단계;
상기 분류된 영상에서 팔 방향 동작을 검출하여 숫자로 변환된 교통 수신호 시퀀스를 생성하는 검출단계; 및
상기 검출단계에서 검출된 정보를 토대로 숫자로 변환된 교통 수신호 시퀀스에 대응되는 교통 수신호의 종류를 판단하는 분석단계;를 포함하는,
교통 수신호 인식 방법.
제10항에 있어서,
상기 검출 단계는 변환된 교통 수신호 시퀀스에 임의의 교통 수신호 시퀀스를 추가하거나 삭제하는 단계를 더 포함하는, 교통 수신호 인식 방법.
제10항에서,
상기 검출단계에서는, 숫자로 변환된 교통 수신호 시퀀스를 학습하는 단계를 포함하는, 교통 수신호 인식 방법.
제10항에 있어서,
상기 분석단계에서는, 교통 수신호 시퀀스를 입력으로 사용할 때, 문턱값 이상이 되는 경우에 교통 수신호로 판별하는, 교통 수신호 인식 방법.