KR20190051621A - 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법 - Google Patents

시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법 Download PDF

Info

Publication number
KR20190051621A
KR20190051621A KR1020170147475A KR20170147475A KR20190051621A KR 20190051621 A KR20190051621 A KR 20190051621A KR 1020170147475 A KR1020170147475 A KR 1020170147475A KR 20170147475 A KR20170147475 A KR 20170147475A KR 20190051621 A KR20190051621 A KR 20190051621A
Authority
KR
South Korea
Prior art keywords
image data
semantic
network
learning
input image
Prior art date
Application number
KR1020170147475A
Other languages
English (en)
Other versions
KR102206527B1 (ko
Inventor
정희철
권순
김준광
이진희
정우영
최민국
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority to KR1020170147475A priority Critical patent/KR102206527B1/ko
Publication of KR20190051621A publication Critical patent/KR20190051621A/ko
Application granted granted Critical
Publication of KR102206527B1 publication Critical patent/KR102206527B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/21Collision detection, intersection

Abstract

영상 데이터 처리 장치 및 제어 방법이 개시된다. 영상 데이터 처리 장치는 영상 데이터를 입력받는 입력부, 입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출하도록 학습하는 시맨틱 분할 네트워크 및 입력된 영상 데이터 및 추출된 시맨틱 정보에 기초하여 위험 상황을 예측하도록 학습하는 예측 네트워크를 포함하고, 예측 네트워크는 입력된 영상 데이터를 기 설정된 필터에 기초하여 입력된 영상 데이터의 특징을 포함하는 매트릭스 맵을 생성하는 컨벌류션 레이어를 포함하고, 시맨틱 분할 네트워크는 예측 네트워크의 컨벌루션 레이어를 공유한다.

Description

시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법{IMAGE DATA PROCESSING APPARATUS USING SEMANTIC SEGMETATION MAP AND CONTROLLING METHOD THEREOF}
본 개시는 영상 데이터 처리 장치 및 제어 방법에 관한 것으로, 더욱 상세하게는 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법에 관한 것이다.
첨단 운전자 지원 시스템(Advanced Drivers Assistance System: ADAS)은 교통사고 방지를 위해 중요하다. ADAS는 전방 충돌 경고(Forward Collision Warning: FCW), 차선 이탈 경고(Lane Departure Warning: LDW) 및 보행자 충돌 경고(Pedestrian Collision Warning: PCW)와 같은 몇 가지 요소를 포함한다. 특히 PCW 시스템은 심각하거나 가벼운 부상을 막는데 도움을 주기 때문에 많은 연구자들과 개발자들은 PCW 시스템을 발전시키기 위해 노력한다.
그러나, 기존 PCW 시스템은 때때로 위험하지 않을 때도 알람을 울린다. 예를 들어, 모든 보행자가 보도를 걷고 있는 상황에서도 기존 PCW 시스템을 알람을 울리는 경우가 있다. 오작동 알람은 운전자가 운전에 집중하는 것을 어렵게 만든다. PCW 시스템은 보행자 감지 및 배경 인식을 포함한 몇가지 복잡한 단계를 요구한다. 그런데, 기존 PCW 시스템은 수작업을 통한 특징을 이용하는 방식을 사용하기 때문에 시스템을 개선하기 어려운 점이 있다. 따라서, 오작동 알람을 줄이고 경고 정확도를 증가시킬 수 있는 새로운 PCW 시스템에 대한 필요성이 존재한다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 새로운 프레임워크를 구성하고 영상 데이터로부터 시맨틱 정보를 추출하여 추출된 시맨틱 정보를 이용함으로써 오작동 알람을 줄이고 경고 정확도를 증가시키는 영상 데이터 처리 장치 및 제어 방법을 제공하는 것이다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 영상 데이터 처리 장치는 영상 데이터를 입력받는 입력부, 상기 입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출하도록 학습하는 시맨틱 분할 네트워크 및 상기 입력된 영상 데이터 및 상기 추출된 시맨틱 정보에 기초하여 위험 상황을 예측하도록 학습하는 예측 네트워크를 포함하고, 상기 예측 네트워크는 상기 입력된 영상 데이터를 기 설정된 필터에 기초하여 상기 입력된 영상 데이터의 특징을 포함하는 매트릭스 맵을 생성하는 컨벌류션 레이어를 포함하고, 상기 시맨틱 분할 네트워크는 상기 예측 네트워크의 컨벌루션 레이어를 공유한다.
그리고, 상기 예측 네트워크는 상기 컨벌루션 레이어에서 생성된 매트릭스 맵에 포함된 일반적인 특징을 추출하여 연결하는 제1 완전 연결 레이어(fully connected layer)를 더 포함하고, 상기 시맨틱 분할 네트워크는 상기 생성된 매트릭스 맵으로부터 시맨틱 특징을 추출하여 연결하는 제3 완전 연결 레이어를 더 포함할 수 있다.
또한, 상기 예측 네트워크는 상기 제1 완전 연결 레이어의 출력값 및 상기 제3 완전 연결 레이어의 출력값을 입력받아 조합하는 제2 완전 연결 레이어 및 상기 제2 완전 연결 레이어의 출력값을 확률적으로 분석하여 위험 상황을 학습하는 소프트맥스 레이어를 더 포함할 수 있다.
또한, 상기 예측 네트워크는 크로스 엔트로피 손실 함수를 포함하고, 상기 시맨틱 분할 네트워크는 기하학적 손실 함수를 포함하며, 상기 예측 네트워크 및 상기 시맨틱 분할 네트워크는 상기 크로스 엔트로피 손실 함수와 상기 기하학적 손실 함수의 총 합이 최소화하도록 상기 예측 네트워크와 상기 시맨틱 분할 네트워크는 동시에 학습될 수 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 영상 데이터 처리 장치의 제어 방법은 영상 데이터를 입력받는 단계, 입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출하도록 학습하는 단계 및 상기 입력된 영상 데이터 및 상기 추출된 시맨틱 정보에 기초하여 위험 상황을 예측하도록 학습하는 단계를 포함하고, 상기 위험 상황을 예측하도록 학습하는 단계 및 상기 시맨틱 정보를 추출하도록 학습하는 단계는, 상기 입력된 영상 데이터를 기 설정된 필터에 기초하여 상기 입력된 영상 데이터의 특징을 포함하는 매트릭스 맵을 생성하고, 상기 생성된 매트릭스 맵을 공유한다.
그리고, 상기 위험 상황을 예측하도록 학습하는 단계는 제1 완전 연결 레이어에서 상기 생성된 매트릭스 맵에 포함된 일반적인 특징을 추출하여 연결하고, 상기 시맨틱 정보를 추출하도록 학습하는 단계는 제3 완전 연결 레이어에서 상기 생성된 매트릭스 맵으로부터 시맨틱 특징을 추출하여 연결할 수 있다.
또한, 상기 위험 상황을 예측하도록 학습하는 단계는 상기 제1 완전 연결 레이어의 출력값 및 상기 제3 완전 연결 레이어의 출력값을 입력받아 제2 완전 연결 레이어에서 조합하고, 소프트맥스 레이어에서 상기 제2 완전 연결 레이어의 출력값을 확률적으로 분석하여 위험 상황을 학습할 수 있다.
또한, 상기 위험 상황을 예측하도록 학습하는 단계는 크로스 엔트로피 손실을 산출하고, 상기 시맨틱 정보를 추출하도록 학습하는 단계는 기하학적 손실을 산출하며, 상기 산출된 엔트로피 손실 및 상기 기하학적 손실의 총 합이 최소화하도록 상기 위험 상황을 예측하도록 학습하는 단계 및 상기 시맨틱 정보를 추출하도록 학습하는 단계는 동시에 학습될 수 있다.
이상 설명한 바와 같이, 본 개시의 다양한 실시 예에 따르면, 영상 데이터 처리 장치 및 제어 방법은 새로운 프레임워크를 구성하고 영상 데이터로부터 시맨틱 정보를 추출할 수 있다.
그리고, 영상 데이터 처리 장치 및 제어 방법은 추출된 시맨틱 정보를 이용함으로써 오작동 알람을 줄이고 경고 정확도를 증가시킬 수 있다.
도 1은 본 개시의 일 실시 예에 따른 영상 데이터 처리 장치의 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 영상 데이터 처리 장치의 세부 블록도이다.
도 3은 기존 방식 및 본 개시의 방식에 따른 ROC(Receiver Operating Characteristic) 곡선을 나타낸 도면이다.
도 4는 본 개시의 일 실시 예에 따른 위험 상황 예측 결과를 나타낸 도면이다.
도 5는 본 개시의 일 실시 예에 따른 영상 데이터 처리 장치 제어 방법의 흐름도이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 발명의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 제어부에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
그 밖에도, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다.
도 1은 본 개시의 일 실시 예에 따른 영상 데이터 처리 장치의 블록도이다.
도 1을 참조하면, 영상 데이터 처리 장치(100)는 입력부(110), 예측 네트워크(120) 및 시맨틱 분할 네트워크(130)를 포함한다.
입력부(110)는 영상 데이터를 입력받는다. 예를 들어, 영상 데이터는 차량을 포함하는 이미지일 수 있다. 예를 들어, 입력부(110)는 통신 인터페이스로 연결된 통신 모듈, 입력 인터페이스로 연결된 입력 단자 등을 포함할 수 있다. 즉, 입력부(110)가 통신 모듈로 구현되는 경우, 영상 데이터 처리 장치(100)는 유무선 통신 방식을 이용하여 영상 데이터를 입력받을 수 있다. 또는, 입력부(110)가 입력 단자로 구현되는 경우, 영상 데이터 처리 장치(100)는 내외부 저장 장치로부터 영상 데이터를 입력받을 수 있다.
시맨틱 분할 네트워크(130)는 입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출하도록 학습한다. 시맨틱 분할 네트워크(120)는 예측 네트워크(120)의 일부 구성을 공유할 수 있다. 즉, 예측 네트워크(120)는 기 설정된 필터를 이용하여 입력된 영상 데이터를 매트릭스 맵으로 생성할 수 있다. 시맨틱 분할 네트워크(130)는 예측 네트워크(120)에서 생성된 매트릭스 맵에 기초하여 유용한 시맨틱 정보를 추출한다. 시맨틱 분할 네트워크(130)는 입력된 영상 데이터로부터 예측 네트워크(120)가 위험 상황을 예측할 수 있는 시맨틱 정보를 추출한다. 그리고, 시맨틱 분할 네트워크(130)는 추출된 시맨틱 정보를 다시 예측 네트워크(120)로 전달한다.
한편, 추출된 시맨틱 정보는 시맨틱 분할 맵으로 생성될 수 있다. 시맨틱 분할 네트워크(130)는 생성된 시맨틱 분할 맵에서 위험 상황을 예측할 수 있는 시맨틱 특징을 연결한 특징 맵을 생성하여 생성된 연결 특징 맵을 예측 네트워크(120)로 전달할 수 있다. 시맨틱 분할 네트워크(130)의 구체적인 구성 및 동작은 후술한다.
예측 네트워크(120)는 입력된 영상 데이터 및 추출된 시맨틱 정보에 기초하여 위험 상황을 예측하도록 학습한다. 상술한 바와 같이, 예측 네트워크(120)는 기 설정된 필터를 이용하여 입력된 영상 데이터를 매트릭스 맵으로 생성하는 컨벌루션 레이어(convolutional layer)를 포함한다. 입력된 영상 데이터를 매트릭스 맵으로 생성하는 컨벌루션 레이어는 시맨틱 분할 네트워크(120)와 공유한다. 예측 네트워크(120)는 생성된 매트릭스 맵으로부터 몇 가지 과정을 거쳐 입력된 영상 데이터의 일반적인 특징을 추출한 특징 맵을 생성할 수 있다. 일 실시 예로서, 일반적인 특징은 차량, 보행자, 배경 등을 감지하는 특징일 수 있다. 즉, 일반적인 특징은 엣지, 블롭(blob) 등과 같은 특징일 수 있다. 예측 네트워크(120)의 구체적인 구성 및 동작은 후술한다.
도 2는 본 개시의 일 실시 예에 따른 영상 데이터 처리 장치의 세부 블록도이다.
도 2를 참조하면, 예측 네트워크(120)는 5개의 컨벌루션 레이어, 2개의 완전 결합 레이어(fully connected layer: FC layer) 및 소프트맥스 레이어를 포함할 수 있다. 그리고, 시맨틱 분할 네트워크(130)는 2개의 컨벌루션 레이어와 2개의 완전 결합 레이어를 포함할 수 있다. 상술한 바와 같이, 시맨틱 분할 네트워크(130)에 포함된 2개의 컨벌루션 레이어는 예측 네트워크(120)의 최초 2개의 컨벌루션 레이어일 수 있다. 즉, 시맨틱 분할 네트워크(130)는 예측 네트워크(120)와 컨벌루션 레이어를 공유할 수 있다.
기존 기술의 경우 PCW 시스템은 보행자 감지 과정을 포함하지만 본 개시의 영상 데이터 처리 장치는 보행자 감지 과정을 포함하지 않는다. 즉, 본 개시의 영상 데이터 처리 장치는 위험 상황을 입력된 원 데이터로부터 직접 예측한다. 보행자의 변하는 모습은 보행자 감지 과정이 불완전하도록 야기할 수 있기 때문에 보행자 감지 과정을 수행하지 않는 본 개시의 영상 데이터 처리 장치는 기존 시스템보다 위험 상황을 더 정확하게 예측할 수 있다.
예측 네트워크(120)는 입력된 영상 데이터가 바이너리 분류 문제인 경고 상황인지 여부를 결정할 수 있다. 시맨틱 분할 네트워크(130)는 입력된 영상 데이터를 분할하고 예측 네트워크(120)에 전달할 유용한 시맨틱 정보를 추출할 수 있다. 두 네트워크(120, 130)는 다음과 같은 손실 함수를 최소화하여 동시에 학습될 수 있다.
Figure pat00001
---------- (1)
여기서,
Figure pat00002
,
Figure pat00003
Figure pat00004
는 각각 총 손실 함수, 크로스 엔트로피(cross-entropy) 손실 함수 그리고 기하학적(Euclidean) 손실 함수를 의미한다. 크로스 엔트로피 손실 함수는 예측 네트워크(120)에 적용되고, 기하학적 손실 함수는 시맨틱 분할 네트워크(130)에 적용될 수 있다.
Figure pat00005
는 두 손실 값의 스케일을 조정하기 위한 조정 파라미터이다. 예를 들어,
Figure pat00006
는 10-3으로 세팅될 수 있다. 크로스 엔트로피 손실 함수는 다음과 같이 정의된다.
Figure pat00007
---------- (2)
여기서, B는 배치(batch) 내의 데이터 샘플의 총 개수이다. tij는 현재 학습 배치의 i번째 데이터 샘플을 위한 기본 진실 레이블(ground truth label)의 j번째 값이고,
Figure pat00008
는 i번째 데이터 샘플을 위한 예측 네트워크(120)의 j번째 소프트맥스 출력값이다. C는 클래스의 총 개수이다. 예를 들어, C는 2로 설정될 수 있다. 크로스 엔트로피 손실 함수는 네트워크가 상황을 정확하게 예측하는데 도움을 줄 수 있다. 시맨틱 분할 네트워크(130)를 위한 기하학적 손실 함수는 다음과 같이 정의된다.
Figure pat00009
---------- (3)
여기서,
Figure pat00010
는 배치의 i번째 데이터 샘플을 위한 시맨틱 분할 네트워크의 마지막 FC 레이어(예, FC4)의 출력 벡터이다.
Figure pat00011
는 배치의 i번째 데이터 샘플을 위한 기본 진실 분할 이미지의 벡터화된 형태이다. 이 손실 함수를 이용하여 시맨틱 분할 네트워크(130)는 입력된 영상 데이터를 의미론적으로 분할하는 방법을 학습한다.
상술한 바와 같이, 예측 네트워크(120)와 시맨틱 분할 네트워크(130)는 제1 및 제2 컨벌루션 레이어의 두 개의 저레벨 레이어를 공유할 수 있다. 저레벨 레이어가 엣지나 블롭과 같은 공통 특징을 생산하기 때문에 본 개시의 구조는 효과적이고 학습할 수 있는 파라미터의 총 개수를 줄일 수 있다. 두 개의 네트워크의 출력은 FC2에서 결합될 수 있다. FC1 및 FC3의 고레벨 특징은 연결되고, FC2 레이어의 입력으로 사용될 수 있다. FC1에 의해 추출된 특징과 달리 FC3에 의해 추출된 특징은 입력된 영상 데이터의 시맨틱 특징을 나타낼 수 있다. 시맨틱 특징은 내포적으로 객체를 감지하고 분류할 수 있고, 시맨틱 특징은 위험한 상황을 추론하는데 도움을 줄 수 있다. FC4 특징의 차원수는 너무 크기 때문에 FC4 레이어에 의해 추출된 출력은 사용하지 않는다. 예를 들어, FC3의 차원수는 2048이지만, FC4의 차원수는 131,072일 수 있다. 이러한 거대한 차원수는 오버피팅을 야기할 수 있는 FC2 레이어에서 많은 가중치 연결을 요구할 수 있다.
학습 데이터가 불균형한 경우, 즉, 데이터의 양이 클래스 간에 유의미하게 변하는 경우 딥 뉴럴 네트워크는 학습하기 어렵다. 이것은 클래스 간의 불균형 손실값과 CNN 학습의 실패를 초래할 수 있다. 따라서, 비경고 케이스를 가진 영상 데이터의 개수가 경고 케이스를 가진 영상 데이터 개수보다 클 수 있으므로 본 개시에서는 비경고 케이스에 대한 동일한 영상 데이터 개수를 생성하기 위해 경고 케이스 학습 영상 데이터를 복사할 수 있다.
일 실시 예로서, 입력 영상 데이터의 크기는 RGB 값을 나타내는 3개의 채널을 가진 512×256일 수 있다. 예측 네트워크(120)는 CONV(11, 96, 4) - ReLU - MaxPool(3, 2) - CONV(5, 256, 1) - ReLU - MaxPool(3, 2) - CONV(3, 384, 1) - ReLU - CONV(3, 256, 1) - ReLU - MaxPool(3, 2) - FC(256) - ReLU - FC(256) - ReLU - Softmax(2)를 이용할 수 있다. 여기서, 괄호 안의 각 값은 CONV(커널 크기, 채널 수, 스트라이드(stride)), MaxPool(커널 크기, 스트라이드), FC(출력 노드 개수)이다. 시맨틱 분할 네트워크(130는 CONV(11, 96, 4) - ReLU - MaxPool(3, 2) - CONV(5, 256, 1) - ReLU - MaxPool(3, 2) - FC(2048) - FC(131072)이다.
미니 배치의 크기는 128이고, 학습률의 값은 0.001일 수 있다. 그리고, 가중치 하락(weight decay)의 값은 0.0001이고, 총 반복 수는 2000일 수 있다. 모든 가중치 레이어의 가중치는 초기화될 수 있다.
도 3은 기존 방식 및 본 개시의 방식에 따른 ROC(Receiver Operating Characteristic) 곡선을 나타낸 도면이다.
도 3은 진실(truth) 및 거짓(false) 두 가지 요소에 대한 양성 비율(positive rate)을 보여주는 각 방법에 대한 수신자 동작 특성(Receiver Operating Characteristic: ROC)을 나타낸다. 도 3(a)에는 원 ROC 곡선이 도시되어 있고, 도 3(b)에는 [0, 0.35] 범위의 거짓 양성 비율(false positive rate)에서 ROC 곡선이 확대된 버전이 도시되어 있다. 짧은 점선(파란선)은 HoG 기반의 알고리즘, 긴 점선(녹색선)은 시맨틱 분할 네트워크를 가지지 않은 알고리즘 및 실선(붉은선)은 시맨틱 분할 네트워크를 가진 알고리즘을 나타낸다. HoG 기반 알고리즘의 진실 양성 비율은 거짓 양성 비율이 0.05 이하일 때 다른 방식보다 좋은 결과를 나타낸다. 그러나, 본 개시의 영상 데이터 처리 장치의 알고리즘은 다른 케이스의 HoG 기반 알고리즘에 비해 현저하게 좋은 성능을 보여준다. 특히, 시맨틱 분할 네트워크를 가진 알고리즘은 세가지 방식 중 가장 좋은 성능을 보여준다.
표 1은 15% 거짓 양성 비율에서 각 방식의 정확도를 나타낸다.
[표 1]
Figure pat00012
시맨틱 분할 네트워크가 없는 알고리즘은 HoG 기반 알고리즘에 비해 19% 향상된 결과를 보여준다. 그리고, 시맨틱 분할 네트워크를 가진 알고리즘의 성능은 유의미하게 26% 향상된 결과를 보여준다.
도 4는 본 개시의 일 실시 예에 따른 위험 상황 예측 결과를 나타낸 도면이다.
도 4는 시맨틱 분할 네트워크를 가진 본 개시의 방식으로부터 추출된 질적인 결과를 보여준다. 도 4(a)는 본 개시의 방식에 의해 생산된 경고 케이스의 결과 이미지이고, 도 4(b)는 본 개시의 방식에 의해 안전한 케이스로 예측된 결과 이미지이다. 본 개시의 영상 데이터 처리 장치는 보행자 및 자전거 운전자 모두를 인식할 수 있다. 그리고, 본 개시의 영상 데이터 처리 장치는 보행자 또는 자전거 운전자와 충돌 위험이 없을 때는 알람을 울리지 않았다.
지금까지 영상 데이터 처리 장치의 다양한 실시 예를 설명하였다. 아래에서는 영상 데이터 처리 장치 제어 방법의 흐름도를 설명한다.
도 5는 본 개시의 일 실시 예에 따른 영상 데이터 처리 장치 제어 방법의 흐름도이다.
도 5를 참조하면, 영상 데이터 처리 장치는 영상 데이터를 입력받는다(S510). 일 실시 예로서, 영상 데이터는 통신 인터페이스로 연결된 통신 모듈, 입력 인터페이스로 연결된 입력 단자 등을 통해 데이터 처리 장치로 입력될 수 있다.
영상 데이터 처리 장치는 입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출한다(S520). 영상 데이터 처리 장치는 입력된 영상 데이터 및 추출된 시맨틱 정보에 기초하여 위험 상황을 예측한다(S530). 위험 상황을 예측하도록 학습하는 단계 및 시맨틱 정보를 추출하도록 학습하는 단계는 입력된 영상 데이터를 기 설정된 필터에 기초하여 입력된 영상 데이터의 특징을 포함하는 매트릭스 맵을 생성하고 생성된 매트릭스 맵을 공유한다.
위험 상황을 예측하도록 학습하는 과정은 제1 완전 연결 레이어에서 생성된 매트릭스 맵에 포함된 일반적인 특징을 추출하여 연결하고 시맨틱 정보를 추출하도록 학습하는 과정은 제3 완전 연결 레이어에서 생성된 매트릭스 맵으로부터 시맨틱 특징을 추출하여 연결할 수 있다. 또한, 위험 상황을 예측하도록 학습하는 과정은 제1 완전 연결 레이어의 출력값 및 제3 완전 연결 레이어의 출력값을 입력받아 제2 완전 연결 레이어에서 조합하고, 소프트맥스 레이어에서 제2 완전 연결 레이어의 출력값을 확률적으로 분석하여 위험 상황을 학습할 수 있다.
상술한 다양한 실시 예에 따른 영상 데이터 처리 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110: 입력부
120: 예측 네트워크 130: 시맨틱 분할 네트워크

Claims (8)

  1. 영상 데이터를 입력받는 입력부;
    상기 입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출하도록 학습하는 시맨틱 분할 네트워크; 및
    상기 입력된 영상 데이터 및 상기 추출된 시맨틱 정보에 기초하여 위험 상황을 예측하도록 학습하는 예측 네트워크;를 포함하고,
    상기 예측 네트워크는,
    상기 입력된 영상 데이터를 기 설정된 필터에 기초하여 상기 입력된 영상 데이터의 특징을 포함하는 매트릭스 맵을 생성하는 컨벌류션 레이어를 포함하고,
    상기 시맨틱 분할 네트워크는 상기 예측 네트워크의 컨벌루션 레이어를 공유하는, 영상 데이터 처리 장치.
  2. 제1항에 있어서,
    상기 예측 네트워크는,
    상기 컨벌루션 레이어에서 생성된 매트릭스 맵에 포함된 일반적인 특징을 추출하여 연결하는 제1 완전 연결 레이어(fully connected layer)를 더 포함하고,
    상기 시맨틱 분할 네트워크는 상기 생성된 매트릭스 맵으로부터 시맨틱 특징을 추출하여 연결하는 제3 완전 연결 레이어를 더 포함하는, 영상 데이터 처리 장치.
  3. 제2항에 있어서,
    상기 예측 네트워크는,
    상기 제1 완전 연결 레이어의 출력값 및 상기 제3 완전 연결 레이어의 출력값을 입력받아 조합하는 제2 완전 연결 레이어 및 상기 제2 완전 연결 레이어의 출력값을 확률적으로 분석하여 위험 상황을 학습하는 소프트맥스 레이어를 더 포함하는, 영상 데이터 처리 장치.
  4. 제1항에 있어서,
    상기 예측 네트워크는 크로스 엔트로피 손실 함수를 포함하고, 상기 시맨틱 분할 네트워크는 기하학적 손실 함수를 포함하며, 상기 예측 네트워크 및 상기 시맨틱 분할 네트워크는 상기 크로스 엔트로피 손실 함수와 상기 기하학적 손실 함수의 총 합이 최소화하도록 상기 예측 네트워크와 상기 시맨틱 분할 네트워크는 동시에 학습되는, 영상 데이터 처리 장치.
  5. 영상 데이터를 입력받는 단계;
    입력된 영상 데이터를 분할하고 위험 상황에 대한 시맨틱 정보를 추출하도록 학습하는 단계; 및
    상기 입력된 영상 데이터 및 상기 추출된 시맨틱 정보에 기초하여 위험 상황을 예측하도록 학습하는 단계;를 포함하고,
    상기 위험 상황을 예측하도록 학습하는 단계 및 상기 시맨틱 정보를 추출하도록 학습하는 단계는,
    상기 입력된 영상 데이터를 기 설정된 필터에 기초하여 상기 입력된 영상 데이터의 특징을 포함하는 매트릭스 맵을 생성하고, 상기 생성된 매트릭스 맵을 공유하는, 영상 데이터 처리 장치의 제어 방법.
  6. 제5항에 있어서,
    상기 위험 상황을 예측하도록 학습하는 단계는,
    제1 완전 연결 레이어에서 상기 생성된 매트릭스 맵에 포함된 일반적인 특징을 추출하여 연결하고,
    상기 시맨틱 정보를 추출하도록 학습하는 단계는,
    제3 완전 연결 레이어에서 상기 생성된 매트릭스 맵으로부터 시맨틱 특징을 추출하여 연결하는, 영상 데이터 처리 장치의 제어 방법.
  7. 제6항에 있어서,
    상기 위험 상황을 예측하도록 학습하는 단계는,
    상기 제1 완전 연결 레이어의 출력값 및 상기 제3 완전 연결 레이어의 출력값을 입력받아 제2 완전 연결 레이어에서 조합하고, 소프트맥스 레이어에서 상기 제2 완전 연결 레이어의 출력값을 확률적으로 분석하여 위험 상황을 학습하는, 영상 데이터 처리 장치의 제어 방법.
  8. 제5항에 있어서,
    상기 위험 상황을 예측하도록 학습하는 단계는 크로스 엔트로피 손실을 산출하고, 상기 시맨틱 정보를 추출하도록 학습하는 단계는 기하학적 손실을 산출하며, 상기 산출된 엔트로피 손실 및 상기 기하학적 손실의 총 합이 최소화하도록 상기 위험 상황을 예측하도록 학습하는 단계 및 상기 시맨틱 정보를 추출하도록 학습하는 단계는 동시에 학습되는, 영상 데이터 처리 장치의 제어 방법.
KR1020170147475A 2017-11-07 2017-11-07 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법 KR102206527B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170147475A KR102206527B1 (ko) 2017-11-07 2017-11-07 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170147475A KR102206527B1 (ko) 2017-11-07 2017-11-07 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법

Publications (2)

Publication Number Publication Date
KR20190051621A true KR20190051621A (ko) 2019-05-15
KR102206527B1 KR102206527B1 (ko) 2021-01-22

Family

ID=66579873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170147475A KR102206527B1 (ko) 2017-11-07 2017-11-07 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법

Country Status (1)

Country Link
KR (1) KR102206527B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855467A (zh) * 2019-08-19 2020-02-28 中国电子科技集团公司第三十研究所 一种基于计算机视觉技术的网络综合态势预测方法
CN112288748A (zh) * 2019-07-25 2021-01-29 银河水滴科技(北京)有限公司 一种语义分割网络训练、图像语义分割方法及装置
CN112634190A (zh) * 2019-09-24 2021-04-09 上海汽车集团股份有限公司 一种涂胶检测方法及装置
KR20220067138A (ko) * 2020-11-17 2022-05-24 연세대학교 산학협력단 동영상 특징 추출 방법 및 장치
KR20230014008A (ko) * 2021-07-20 2023-01-27 한양대학교 산학협력단 인공신경망을 이용한 주행 차량의 충돌 가능성 판단 방법 및 장치
CN117434624A (zh) * 2023-09-28 2024-01-23 兰州中心气象台(兰州干旱生态环境监测预测中心) 一种基于语义分割的强对流天气识别和发展预判方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011068593A2 (en) * 2009-12-03 2011-06-09 Gm Global Technology Operations, Inc. Cross traffic collision alert system
KR20160096460A (ko) * 2015-02-05 2016-08-16 삼성전자주식회사 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
US20170206426A1 (en) * 2016-01-15 2017-07-20 Ford Global Technologies, Llc Pedestrian Detection With Saliency Maps
JP2017162438A (ja) * 2016-03-11 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 危険予測方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011068593A2 (en) * 2009-12-03 2011-06-09 Gm Global Technology Operations, Inc. Cross traffic collision alert system
KR20160096460A (ko) * 2015-02-05 2016-08-16 삼성전자주식회사 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
US20170206426A1 (en) * 2016-01-15 2017-07-20 Ford Global Technologies, Llc Pedestrian Detection With Saliency Maps
JP2017162438A (ja) * 2016-03-11 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 危険予測方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kazuki ZKozuka 등. Risky Region Localization with Point Supervision, ICCVW.(2017.10.22.) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288748A (zh) * 2019-07-25 2021-01-29 银河水滴科技(北京)有限公司 一种语义分割网络训练、图像语义分割方法及装置
CN112288748B (zh) * 2019-07-25 2024-03-01 银河水滴科技(北京)有限公司 一种语义分割网络训练、图像语义分割方法及装置
CN110855467A (zh) * 2019-08-19 2020-02-28 中国电子科技集团公司第三十研究所 一种基于计算机视觉技术的网络综合态势预测方法
CN110855467B (zh) * 2019-08-19 2022-02-08 中国电子科技集团公司第三十研究所 一种基于计算机视觉技术的网络综合态势预测方法
CN112634190A (zh) * 2019-09-24 2021-04-09 上海汽车集团股份有限公司 一种涂胶检测方法及装置
KR20220067138A (ko) * 2020-11-17 2022-05-24 연세대학교 산학협력단 동영상 특징 추출 방법 및 장치
KR20230014008A (ko) * 2021-07-20 2023-01-27 한양대학교 산학협력단 인공신경망을 이용한 주행 차량의 충돌 가능성 판단 방법 및 장치
CN117434624A (zh) * 2023-09-28 2024-01-23 兰州中心气象台(兰州干旱生态环境监测预测中心) 一种基于语义分割的强对流天气识别和发展预判方法
CN117434624B (zh) * 2023-09-28 2024-04-16 兰州中心气象台(兰州干旱生态环境监测预测中心) 一种基于语义分割的强对流天气识别和发展预判方法

Also Published As

Publication number Publication date
KR102206527B1 (ko) 2021-01-22

Similar Documents

Publication Publication Date Title
KR102206527B1 (ko) 시맨틱 분할 맵을 이용한 영상 데이터 처리 장치 및 제어 방법
CN109977943B (zh) 一种基于yolo的图像目标识别方法、系统和存储介质
US10740654B2 (en) Failure detection for a neural network object tracker
US11188794B2 (en) Convolutional neural network framework using reverse connections and objectness priors for object detection
KR20200075344A (ko) 검출기, 객체 검출 방법, 학습기 및 도메인 변환을 위한 학습 방법
EP3329425A1 (en) Media classification
US20170061326A1 (en) Method for improving performance of a trained machine learning model
US11461992B2 (en) Region of interest selection for object detection
US11816841B2 (en) Method and system for graph-based panoptic segmentation
CN111507160B (zh) 集成从执行协同驾驶的车辆获取的行驶图像的方法及装置
CN114244603A (zh) 异常检测及对比嵌入模型训练、检测方法、装置及介质
US11790646B2 (en) Network for interacted object localization
KR20200054367A (ko) 객체 검출 장치 및 그 방법
CN111783665A (zh) 一种动作识别方法、装置、存储介质和电子设备
US20240013521A1 (en) Sequence processing for a dataset with frame dropping
CN114241253A (zh) 违规内容识别的模型训练方法、系统、服务器及存储介质
Priya et al. Vehicle Detection in Autonomous Vehicles Using Computer Vision Check for updates
Lakshmi Priya et al. Vehicle Detection in Autonomous Vehicles Using Computer Vision
Goel et al. Transfer Learning-based Driver Distraction Detection
KR102236792B1 (ko) 카메라 기반의 차선 변경 가능 시점을 학습하는 방법 및 시스템, 그리고 차선 변경 가능 시점을 예측하는 방법 및 시스템
KR102383566B1 (ko) 카메라 기반의 차선 변경 가능 시점을 학습하는 방법 및 시스템, 그리고 차선 변경 가능 시점을 예측하는 방법 및 시스템
WO2023184188A1 (zh) 一种自动驾驶系统中神经网络模型故障监测方法及装置
US20220159278A1 (en) Skip convolutions for efficient video processing
US11710344B2 (en) Compact encoded heat maps for keypoint detection networks
US20230131935A1 (en) Co-learning object and relationship detection with density aware loss

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant