KR20200051529A

KR20200051529A - 단순한 2d 카메라를 기반으로 하여 자율주행 자동차와 통신하기 위한 거동 제어

Info

Publication number: KR20200051529A
Application number: KR1020197038411A
Authority: KR
Inventors: 에르빈 크라프트; 니콜라이 하리히; 자샤 젬러; 피아 드라이자이텔
Original assignee: 콘티 테믹 마이크로일렉트로닉 게엠베하
Priority date: 2017-09-11
Filing date: 2018-09-10
Publication date: 2020-05-13
Also published as: CN111033512B; WO2019048011A1; US11557150B2; DE112018001957A5; DE102017216000A1; EP3682367A1; EP3682367B1; JP7280865B2; US20200394393A1; CN111033512A; JP2020533662A

Abstract

본 발명은 단안 카메라를 이용한 거동 인식을 위한 방법 및 장치에 관한 것으로서, 특히 부분적으로 자동화되어 주행하는 자동차의 차량 카메라에서 사용될 수 있다.
단안 카메라로 촬영한 최소한 하나의 영상에서 거동을 인식하기 위한 이 방법은 다음의 단계로 이루어져 있다:
a) 단안 카메라로 촬영한 최소한 하나의 영상에 있는 어떤 사람의 핵심 항목 감지,
b) 핵심 항목을 신체 일부의 골격 형태 표시와 연결, 이때 골격 형태의 표시는 각 신체 일부의 상대적 위치 및 지향 방향을 반영한다.
c) 골격 형태로 표시된 사람에서 거동 인식 및
d) 인식된 거동의 출력.

Description

단순한 2D 카메라를 기반으로 하여 자율주행 자동차와 통신하기 위한 거동 제어

본 발명은 단안 카메라를 이용한 거동 인식을 위한 방법 및 장치에 관한 것으로서, 특히 부분적으로 자동화되어 주행하는 자동차의 차량 카메라에서 사용될 수 있다.

거동을 감지하는 최신 기술은 예를 들어 3D 카메라 키넥트(Kinect)이다. 알려진 대부분의 방법 또는 시스템에는 거동을 인식할 수 있도록 하는 3D 정보(예컨대 키넥트)가 필요하다.

출원 공개 "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields"(Cao 외 공저, https :// arxiv . org /pdf/1611.08050.pdf, 2017년 9월 11일 일 공개)는 여러 사람의 자세를 2D으로 추정하여 한 화면에 표시하는 방법을 보여준다. 여기서는 어느 한 사람에 속하는 신체 부분이 골격의 형태로 결합되어 있다.

따라서 내골격의 연결 요소를 통해 만들어지는 핵심 항목(key points)의 목록이 만들어진다.

DE 10 2014 207 802 B3은 도로교통에서 교통 참여자가 취하는 동작을 선행적으로 인식하기 위한 방법과 시스템을 보여준다. 여기서는 최소한 한 대의 카메라에 의해 화소로 구조화된 교통 참여자(예를 들어 보행자)의 영상이 촬영되어, 그에 따른 영상 데이터가 만들어진다. 여러 화소로 이루어진 영상 데이터는 각각 셀로 그룹화되는 바, 이때 그 영상에는 여러 셀이 있다. 어느 한 셀 내의 영상 데이터를 이용하여 각각 중점이 결정된다. 각 화소에 대해, 여러 셀의 중점에 대한 각 거리가 결정되는 바, 이때 각 화소와 중점의 좌표를 이용하여 화소에 할당된 특징 벡터가 형성된다. 이 특징 벡터는 최소한 하나의 기준 벡터 클러스터와 비교되며, 이 비교를 바탕으로 하여 교통 참여자가 취하는 전형적인 동작의 자세를 교통 참여자에게 할당한다. 이 방법은 어떤 교통 참여자의 자세에 의해 그가 의도하는 동작을 실행하기 전에 이미 그의 의도(예를 들어 횡단보도를 건너려는 의도)를 인식할 수 있다는 것을 출발점으로 삼는다. 그러면 이러한 자세 인식을 기반으로 하여 그러한 동작이 실행되기 전에 이미 선행적으로 조치를 취할 수 있는 바, 예를 들어 운전자에게 및/또는 측정 기술에 의해 파악된 교통 참여자에서 청각적 및/또는 시각적 경고를 발령할 수 있으며/있거나 예를 들어 제동 시스템이나 조향 시스템과 같은 차량 시스템을 제어할 수 있다.

자세는 예를 들어 교통 참여자나 보행자의 골격 형태나 또는 단순화된 도형 형태를 띨 수 있다. 다른 한편으로 그 자세는 그 교통 참여자의 예상되는 동작에 할당될 수 있는 바, 이 자세에 의해 어떤 교통 상황이 평가되고 어떤 위험을 피하게 하며, 경우에 따라 추가적인 제어 조치가 완전 자동 방식으로나 또는 부분적인 자동 방식으로 개시되도록 할 수 있다. 예를 들어 사람들이 달리기 시작할 때 가장 흔히 취하는, 약간 구부린 자세는 그 자세가 "앞에서"라는 방향으로 파악되면, 즉 그 사람이 차량 방향으로 움직이는 경우 도로교통에서 어떤 위험으로 분류될 수 있다.

이러한 출발점의 단점은 특징 벡터의 형성에 비용이 많이 든다는 점이다.

현재의 기술 수준을 고려하여 해결해야 할 문제는 차량에 설치된 단안 카메라의 영상을 기반으로 한 어떤 개선된 거동 인식인 바, 이러한 카메라에 차량의 기능을 제어하는 장치를 장착할 수 있다.

본 발명의 측면은 예를 들어 다음과 같다:

차량에게 지시하는 거동 인식예를 들어 교차로에 있는 경찰(오른손은 오른쪽으로 주행하라는 신호이다)

도로교통 참여자(예를 들어 스마트폰에 정신이 팔린 보행자)의 주의력 점검

거동 또는 자세 인식의 목표는 특히 사람의 정적 자세(거동)을 평가하는 것이다. 그러므로 예컨대 어떤 사람이 왼팔이나 오른팔을 들어올리고 있는지 또는 양팔을 벌리고 있는지를 인식할 수 있다.

이러한 문제는 본 발명의 독립된 청구항에 따른 방법과 장치에 의해 해결된다.

유용한 다른 구현 형태는 종속된 청구항의 대상이다.

본 발명에서 제시한 해결 방안의 출발점은 골격 형태의 표시를 기반으로 하여 여러 거동을 설명하고 그 거동에 분류자가 접근할 수 있도록 한 다음, 사람을 촬영한 영상에서 이 거동을 인식하는 것에 근거를 두고 있다.

카메라 영상에 사상된 사람에 대한 골격 형태의 표시는 특히 도식적으로 지정된 객체의 일부에, 예를 들어 신체의 일부에 근거를 두고 있다.

단안 카메라로 촬영한 최소한 하나의 영상에서 거동을 인식하기 위한, 본 발명에 따른 방법은 다음의 단계로 이루어져 있다:

a) 단안 카메라로 촬영한 최소한 하나의 영상에 있는 어떤 사람의 핵심 항목 감지,

b) 핵심 항목을 신체 일부의 골격 형태 표시와 연결, 이때 골격 형태의 표시는 각 신체 일부의 상대적 위치 및 지향 방향을 반영한다.

c) 골격 형태로 표시된 사람에서 거동 인식 및

d) 인식된 거동의 출력.

핵심 항목의 감지 후 및 핵심 항목과 골격의 결합 후 결합된 신체의 일부에 대한 목록이 예를 들어 표의 형태로 제시된다. 이러한 목록은 완전할 수 있지만, 불완전(절반 정도 가려진 사람)할 수도 있다. 신체 일부가 없을 수도 있다.

골격 형태의 표시는 각 신체 일부의 위치와 지향 방향을 반영하는 바, 예를 들어 서로 결합된 핵심 항목 및 그 위치를 목록 형태로 제시하며 반영한다.

따라서 어떤 한 사람의 여러 핵심 항목은 어떤 견고한 표시로 변환된다.

이를 위해 여러 신체 부위가 특히 그룹으로 분류된다((예를 들어 팔이 있는 상체, 좌측 팔이 있는 머리, 우측 팔이 있는 머리, 순수하게 머리만). 사람이 부분적으로 감추어진다는 것을 고려할 때, 이처럼 중복하여 분류함으로써 이 방법은 상당히 안정적이 된다(자동차 뒤에 있는 사람은 상반신만, 광고탑 뒤에 있는 사람은 세로로 절반만 보인다).

특히 그룹(서로 결합된 핵심 항목)은 하나 이상의 서로 연관된 신체 부위로 이루어진다. 그룹은 사람의 부분 자세 또는 사람이 취한 거동의 일부분에 해당한다.

유용하게도 어느 한 신체 부위는 여러 그룹에 속하는 바, 예를 들어 첫 번째 부분 자세에는 머리와 왼팔이 있고 두 번째 부분 자세에는 머리와 오른팔이 있을 수 있다.

그룹 또는 부분 자세의 개수는 다양하게 설정할 수 있는 자유 매개변수이다.

핵심 항목의 코딩은 치밀하고 의미론적으로 해석할 수 있는, 예를 들어 심층 신경망을 통해 해석되는 특징 공간으로 변환되는 것이 이상적이다. 달리 표현하자만 각 그룹 또는 부분 자세에 특징 벡터를 할당할 수 있다. 특징 벡터를 예를 들어 이 그룹에 통합되어 있는 핵심 항목의 좌표에 근거를 두고 있다.

특히 그룹 또는 부분 자세의 특징 벡터는 군집화된 자세 디렉터리(자세 사전)을 이용하여 병합 방법에 의해 최종적인 특징 벡터로 통합된다.

이러한 병합에서는 예를 들어 자세 디렉터리를 통해 막대 그래프를 만들거나 자세 디렉터리의 각 클러스터 센터 사이에 있는 차이를 합산한 차이를 만들 수 있다. 자세 디렉터리 자체는 군집화 방법으로, 예를 들어 kNN 군집화, 즉 K-최근접 이웃(k nearest neighbor)을 고려한 군집화나 GMM 군집화, 즉 가우스 혼합 모델(Gaussian Mixture Model)을 이용한 군집화로 만들어질 수 있다.

특히 최종 특징 벡터(부분 자세의 특징 벡터로 구성됨)는 자세/거동을 분류하는 데 사용된다.

특히 사람의 시선 방향은 골격 형태의 표시를 기반으로 하여 평가된다.

특히 사람의 시선 방향이 단안 카메라 방향으로 향하고 있는가를 점검할 수 있다.

유용하게도 거동의 인식은 사전에 훈련을 받았던 거동 분류에 의해 이루어진다. 분류 방법으로서는 SVM(Support Vector Machines)이나 또는 심층 신경망과 같이 적절하고 일반적으로 알려진 분류 방법을 투입할 수 있다.

특히 한 사람에게 할당되어 있는 핵심 항목의 개수는 최대 20개이다.

특히 머리를 숙이고 그 시선 방향이 손으로 향한 상태로 걷는 사람은 주의력이 분산된 교통 참여자로 분류된다.

거동 인식을 기반으로 하여 자율주행 자동차와 통신하기 위한 거동 제어가 이루어질 수 있다. 예컨대 차량 소유자나 자율 방식으로 주행하는 택시에 탈 손님과 통신하기 위해서는 차량 측에서 나온 피드백이 필요한 바, 이는 그 사람이 자신이 감지되었거나 이해되었다는 것을 알도록 하기 위해서이다. 이러한 방식으로 차량과 사람이 서로 상호 작용을 할 수 있다. 하지만 사람이 도로 위에서 달리거나 차량과 충돌할 위험이 있어 경고가 발령되는 경우에도 그 차량이 그 사람을 감지하여 충돌을 피한다고 차량이 그 사람에게 보내는 피드백이 유용할 수 있다.

본 발명의 또 다른 대상은 단안 카메라의 영상에서 사람의 거동을 인식하기 위한 적절한 장치이다. 이 장치는 다음을 위해 구성되어 있는 바,

b) 핵심 항목을 신체 일부의 골격 형태 표시와 연결, 이때 골격 형태의 표시는 각 신체 일부의 상대적 위치 및 지향 방향을 반영한다,

c) 골격 형태로 표시된 사람에서 거동 인식 및

d) 인식된 거동을 나타내는 출력 신호 생성 및 출력.

이 장치에는 특히 마이크로 컨트롤러나 프로세서, 디지털 신호 프로세서(Digital Signal Processor: DSP), ASIC(주문형 집적 회로: Application Specific Integrated Circuit), FPGA(필드 프로그래머블 게이트 어레이: Field Programmable Gate Array) 등과 해당 처리 단계를 실행하기 위한 소프트웨어가 포함될 수 있다.

따라서 본 발명은 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어 또는 소프트웨어에서 구현될 수 있다.

이 장치는 특히 전방, 후방 또는 측방 카메라와 같은 단안 카메라와 함께 차량에 배치되어 작동할 수 있다.

본 발명은 단안 카메라가 장착된 차량과 본 발명에 따른 장치에 관한 것이다.

이하에서 예시 모델과 도면을 이용하여 더 상세히 설명하겠다.

거동 인식의 한 예시 모델은 두 단계로 이루어져 있다.

1. 사람의 감지

영상에 있는 사람이 먼저 감지된다. 여기에는 사람 감지기가 투입된다. 유용하게도 사람의 개별 신체 부위를 찾아 이를 어느 한 골격과 연결하는 특수 감지기가 사용된다.

도면 1은 차량 카메라가 촬영한 실제 사람에 대한 골격 형태의 표시를 예시로서 도시한 그림이다. 차량 카메라가 촬영한 영상에서 핵심 항목을 추출하였고 핵심 항목의 연결을 산출하였다. 핵심 항목이란 예를 들어 어깨, 목 기저부, 팔꿈치, 손(관절), 좌골부, 무릎, 복사뼈 관절; 입, 우안 및 좌안, 정수리이다.

핵심 항목은 직선에 의해 서로 연결되었으므로, 이 항목들은 골격 형태로 표시된다. 예를 들어 좌측 손목 관절과 팔꿈치의 핵심 항목은 "좌측 하박"과 서로 연결되고 좌측 어깨(도면에서 표시된 "핵심 항목")는 좌측 팔꿈치와 함께 "좌측 상박"에 연결되어 있다.

핵심 항목의 군집화는 "Gaussian Mixture Model"과 피셔-벡터 표시로의 신체 부위 변환을 통해 이루어질 수 있다. 이때 피셔 벡터는 각 개인의 정보만 코딩한다. 이때 중첩된 사람은 제외된다.

표를 통해 해당 사람의 여러 신체 부위가 어떤 특정 거동에 대해 적합한 동작 그룹으로 나누어진다. 이 표는 학습 과정을 통해서도 학습될 수 있다. 단순한 경우(거동이 비교적 적다는 점에서 구별됨), 그 자세를 상당히 명확하게 상이한 신체 영역에 할당할 수 있으면 그러한 표를 수동으로 만들 수 있다.

시선 방향을 머리 영역에 속하는 핵심 항목을 이용하여 평가할 수 있다. 시선 방향은 아래로 향하고 오른손 방향으로 향한다.

이에 거동 인식 장치에 의해 그 사람이 자신의 손에 있는 어떤 물체를 보고 있으며 현재 교통 상황에 주의를 기울이고 있지 않다고 인식하게 된다. 그 사람이 자신의 스마트폰을 보고 있다는 가정에서 그 거동을 "스몸비 족"(스마트폰 좀비)으로 분류한다.

거동 인식 장치를 이러한 정보를 차량의 다은 제어 장치에 전송한다. 이제 자율주행 자동차는 주행 계획을 수립할 때 이 보행자가 주의하지 않고 보행하고/하거나 그 위험 상태에 있을 경우 보행자에게 경고한다는 것을 고려할 수 있다.

2. 거동 또는 자세의 분류

골격 연결점(핵심 항목, 관절)의 좌표를 기반으로 하여 각 사람에 대해 특징 벡터를 만든다.

도 2는 거동을 분류하는 과정을 알기 쉽게 도시한 도면이다:

각 사람에 대해 기존의 방식처럼 어떤 특징 벡터만 사용하지는 않는다. 그 대신 각 사람에 대해 상이한 부분 자세를 기반으로 하는 N개의 특징 벡터를 만든다. 이러한 부분 자세 중 하나에는 머리와 좌측 팔만 포함되고, 다른 부분 자세에는 머리와 우측 팔만 포함될 수 있다. 이러한 부분 자세의 개수는 다양하게 설정할 수 있는 자유 매개변수이다.

부분 자세의 특징 벡터는 군집화된 자세 디렉터리(Pose-Dictionary)를 이용하여 병합 방법에 의해 최종적인 특징 벡터로 통합된다. 이러한 병합에서는 예를 들어 자세 디렉터리를 통해 막대 그래프를 만들거나 자세 디렉터리의 M개의 클러스터 센터 사이에 있는 차이를 합산한 차이를 만들 수 있다. 자세 디렉터리 자체는 군집화 방법으로 (예를 들어 kNN 군집화, 즉 K-최근접 이웃을 고려한 군집화 방법이나 GMM 군집화, 즉 가우스 혼합 모델을 이용한 군집화 방법으로) 만들어질 수 있다.

최종 특징 벡터(부분 자세의 특징 벡터로 구성됨)는 자세/거동을 분류하는 데 사용된다. 이를 위해 예컨대 SVMs(Support Vector Machines)나 심층 신경망과 같은 분류 방법을 임의로 이용할 수 있다.

도 2는 부분 자세의 특징 벡터가 어떻게 군집화된 자세 디렉터리(Pose-Dictionary)를 이용하여 병합 방법에 의해 최종적인 특징 벡터로 통합되는가를 예시적으로 보여준다.

좌측에서는 도 1에 표시된 골격 표시와 비교한 골격 표시를 볼 수 있다. 실선은 연관된 두 핵심 항목 사이의 연결, 즉 골격의 "뼈"를 나타낸다. 어느 한 사람의 골격 표시는 여러 개의 부분 자세 1, 2, 3, ..., N으로 나누어지는 바, 여기서 좌측 도 2의 첫 번째 세 부분 자세는 빗금 친 사각형으로 표시되어 있다. 여기서 부분 자세 1에는 예를 들어 머리의 좌측 팔이 포함되어 있다. 부분 자세 2에도 머리, 우측 및 상반신이 포함되어 있다. 부분 자세 3에는 우측 및 좌측 상박, 상반신과 대퇴부가 포함되어 있다. 각 부분 자세에 해당 특징 벡터가 할당된다. 각 특징 벡터는 자세 디렉터리의 한 (또는 각) 클러스터 센터 1, 2, 3, ?, M에 전송된다. 끝으로 자세 디렉터리는 자세 또는 거동을 분류하는 데 사용되는 최종 특징 벡터를 출력한다.

또 다른 예시 모델에서는 거동 인식장치를 통해 연속적인 영상에서 차량 주변에 있는 어떤 사람이 하박을 움직여 몸짓으로 신호를 보낸다는 것을 골격 형태의 표시로 인식한다. 이 예시에서 카메라와 거동 인식장치가 장착된 차량은 자율주행 택시이다. 이러한 거동에서는 보행자의 거동이 택시에 대한 것인가를 결정하는 것이 중요하다. 여기서도 시선 방향의 분석을 고려하는 것이 필요하다.

그렇지 않으면 보행자가 다른 보행자에게 몸짓으로 신호를 보냈음에도 그 보행자가 탑승하도록 택시가 정차하는 경우가 발생할 수 있다. 또는 그 보행자가 선행하는 자율주행 택시에서 신호를 보냈지만 이 두 택시 두 개가 정차하는 경우도 발생할 수 있다.

Claims

단안 카메라로 촬영한 최소한 하나의 영상에서 거동을 인식하기 위한 방법은 다음의 단계로 이루어져 있다:
a) 단안 카메라로 촬영한 최소한 하나의 영상에 있는 어떤 사람의 핵심 항목 감지,
b) 핵심 항목을 신체 일부의 골격 형태 표시와 연결, 이때 골격 형태의 표시는 각 신체 일부의 상대적 위치 및 지향 방향을 반영한다.
c) 골격 형태로 표시된 사람에서 거동 인식 및
d) 인식된 거동의 출력.
청구항 1에 따른 방법으로서, 여기서 하나 이상의 연관된 신체 부위에서 그룹이 형성된다.
청구항 2에 따른 방법으로서, 여기서 어느 한 신체 부위는 여러 그룹에 속한다.
청구항 2 또는 3에 따른 방법에 관한 것으로서, 여기서 그룹의 개수 N이 설정된다.
청구항 2에서 4까지 중 하나에 따른 방법으로서, 여기서 각 그룹에 각 그룹에서 통합되어 있는 핵심 항목의 좌표에 기반을 둔 어떤 특징 벡터가 할당된다.
청구항 5에 따른 방법으로서, 여기서 어떤 사람의 그룹에 속하는 특징 벡터가 군집화된 자세 디렉터리를 이용하여 최종 특징 벡터로 병합된다.
청구항 6에 따른 방법으로서, 여기서 거동 인식은 최종 특징 벡터의 분류에 의해 이루어진다.
상기 청구항 중 하나에 따른 방법으로서, 여기서 골격 형태의 표시를 기반으로 하여 어떤 사람의 시선 방향에 대한 평가가 이루어진다.
청구항 8에 따른 방법으로서, 여기서 특히 사람의 시선 방향이 단안 카메라 방향으로 향하고 있는가를 점검한다.
상기 청구항 중 하나에 따른 방법으로서, 여기서 거동의 인식은 사전에 훈련을 받았던 거동 분류에 의해 이루어진다.
상기 청구항 중 하나에 따른 방법으로서, 여기서 한 사람에게 할당되어 있는 핵심 항목의 개수는 최대 20개이다.
청구항 8에서 11까지 중 하나에 따른 방법으로서, 여기서 머리를 숙이고 그 시선 방향이 손으로 향한 상태로 걷는 사람은 주의력이 분산된 교통 참여자로 분류된다.
단안 카메라에 의해 촬영된 사진에서 어떤 사람의 거동을 인식하기 위한 장치에 관한 것으로서, 여기서 이 장치를 다음을 하도록 구성되어 있는 바,
a) 단안 카메라로 촬영한 최소한 하나의 영상에 있는 어떤 사람의 핵심 항목 감지,
b) 핵심 항목을 신체 일부의 골격 형태 표시와 연결, 이때 골격 형태의 표시는 각 신체 일부의 상대적 위치 및 지향 방향을 반영한다,
c) 골격 형태로 표시된 사람에서 거동 인식 및
d) 인식된 거동을 나타내는 출력 신호 생성 및 출력.
단안 카메라와 청구항 13에 따른 장치가 장착된 차량.