KR102394024B1 - 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치 - Google Patents

자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치 Download PDF

Info

Publication number
KR102394024B1
KR102394024B1 KR1020210160432A KR20210160432A KR102394024B1 KR 102394024 B1 KR102394024 B1 KR 102394024B1 KR 1020210160432 A KR1020210160432 A KR 1020210160432A KR 20210160432 A KR20210160432 A KR 20210160432A KR 102394024 B1 KR102394024 B1 KR 102394024B1
Authority
KR
South Korea
Prior art keywords
voxel data
label
loss
object detection
server
Prior art date
Application number
KR1020210160432A
Other languages
English (en)
Inventor
황선욱
김영석
김형신
박세웅
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020210160432A priority Critical patent/KR102394024B1/ko
Priority to US17/659,878 priority patent/US11495012B1/en
Application granted granted Critical
Publication of KR102394024B1 publication Critical patent/KR102394024B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치에 관한 것이다. 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법은 서버가 차량으로부터 비라벨 복셀 데이터를 수신하는 단계, 서버가 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 서버 객체 탐지 모델에 대한 데이터 기반 업데이트를 수행하는 단계, 서버가 라벨 복셀 데이터 및 비라벨 복셀 데이터를 기반으로 손실값을 결정하는 단계와 서버가 손실값을 사용하여 서버 객체 탐지 모델에 대한 손실값 기반 업데이트를 수행하는 단계를 포함할 수 있다.

Description

자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치{Method for semi-supervised learning for object detection on autonomous vehicle and apparatus for performing the method}
본 발명은 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치에 관한 것이다. 보다 상세하게는 준지도 학습을 통해 차량에서 전송되는 이미지 정보를 기반으로 계속적인 자율 주행 차량을 위한 객체 탐지 학습을 가능하게 하는 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치에 관한 것이다.
객체 검출 문제는 컴퓨터 비전 분야의 전통적인 도전 과제이다. 최근에는 보안, 서비스, 공장 자동화등 많은 분야에서 접목되어 발전하고 있으며 특히 자율 주행 환경에서 중요성이 높아지고 있다. 특히 GPU의 발달과 함께 인공 지능 연구가
빠르게 진행되고 있는 가운데, 자율 주행 차량 또한 빠르게 발전하고 있다.
딥러닝 기반의 객체 검출기가 자율 주행 환경에서 잘 동작하기 위해서는 몇가지 요구 사항이 있다.
첫째, 자율 주행 환경에서의 다양한 상황에 즉각적으로 대처하기 위해 실시간성을 보장해야 한다. 둘째, 자율 주행 환경에서 정확한 위치 검출과 클래스 분류를 보장해야 한다. 그러나 실시간성과 정확성은 트레이드 오프(trade off) 관계이기 때문에 둘다 향상하는 것은 어려운 과제이다.
자율 주행 차량에서 실시간으로 정확하게 객체 검출을 위한 다양한 방법들이 연구되고 있고, 자율 주행 차량이 도입되기 위해서는 계속적인 연구가 필요하다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은, 라벨링된 복셀 데이터와 라벨링되지 않은 복셀 데이터를 동시에 사용하면서 학습 효율을 높일 수 있고, 라벨링에 들어가는 비용 및 노력을 감소시키면서도 차량에서 전달되는 복셀 데이터를 기반으로 계속적으로 객체 탐지 모델의 업그레이드를 가능하게 한다.
또한, 본 발명은, 이미지에 대한 복셀 데이터를 생성하고, 복셀 데이터에 대한 비식별화 절차를 통해서 인공 지능 기반 학습시 개인 정보에 대한 보호를 가능하게 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 실시예에 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법은 서버가 차량으로부터 비라벨 복셀 데이터를 수신하는 단계, 상기 서버가 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 서버 객체 탐지 모델에 대한 데이터 기반 업데이트를 수행하는 단계, 상기 서버가 상기 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 손실값을 결정하는 단계와 상기 서버가 상기 손실값을 사용하여 상기 서버 객체 탐지 모델에 대한 손실값 기반 업데이트를 수행하는 단계를 포함할 수 있다.
한편, 상기 데이터 기반 업데이트는 상기 라벨 복셀 데이터, 상기 라벨 복셀 데이터를 플립한 플립 라벨 복셀 데이터, 상기 비라벨 복셀 데이터, 상기 비라벨 복셀 데이터를 플립한 플립 비라벨 복셀 데이터를 기반으로 수행되고, 상기 플립 라벨 복셀 데이터 및 상기 플립 비라벨 복셀 데이터는 차량의 운행 방향을 기준으로 한 플립을 통해 생성될 수 있다.
또한, 상기 손실값은 지도 손실 및 일관성 손실을 포함하고, 상기 지도 손실은 상기 라벨 복셀 데이터에 포함된 객체 정보와 상기 라벨 복셀 데이터의 서버 객체 탐지 모델로 입력시 판단 결과를 기반으로 결정되고, 상기 일관성 손실은 비라벨 판단 결과 기반의 제1 일관성 손실과 라벨 판단 결과 기반의 제2 일관성 손실을 포함하고, 상기 제1 일관성 손실은 상기 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 비라벨 판단 결과와 상기 플립 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 비라벨 판단 결과를 기반으로 결정되고, 상기 제2 일관성 손실은 상기 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 라벨 판단 결과와 상기 플립 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 라벨 판단 결과를 기반으로 결정될 수 있다.
본 발명의 다른 실시예에 따르면, 자율 주행 차량에서 객체 검출을 위한 준지도 학습을 수행하는 서버는 차량으로부터 비라벨 복셀 데이터를 수신하는 통신부와 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 서버 객체 탐지 모델에 대한 데이터 기반 업데이트를 수행하고, 상기 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 손실값을 결정하고, 상기 손실값을 사용하여 상기 서버 객체 탐지 모델에 대한 손실값 기반 업데이트를 수행하도록 구현되는 프로세서를 포함할 수 있다.
한편, 상기 데이터 기반 업데이트는 상기 라벨 복셀 데이터, 상기 라벨 복셀 데이터를 플립한 플립 라벨 복셀 데이터, 상기 비라벨 복셀 데이터, 상기 비라벨 복셀 데이터를 플립한 플립 비라벨 복셀 데이터를 기반으로 수행되고, 상기 플립 라벨 복셀 데이터 및 상기 플립 비라벨 복셀 데이터는 차량의 운행 방향을 기준으로 한 플립을 통해 생성될 수 있다.
또한, 상기 손실값은 지도 손실 및 일관성 손실을 포함하고, 상기 지도 손실은 상기 라벨 복셀 데이터에 포함된 객체 정보와 상기 라벨 복셀 데이터의 서버 객체 탐지 모델로 입력시 판단 결과를 기반으로 결정되고, 상기 일관성 손실은 비라벨 판단 결과 기반의 제1 일관성 손실과 라벨 판단 결과 기반의 제2 일관성 손실을 포함하고, 상기 제1 일관성 손실은 상기 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 비라벨 판단 결과와 상기 플립 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 비라벨 판단 결과를 기반으로 결정되고, 상기 제2 일관성 손실은 상기 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 라벨 판단 결과와 상기 플립 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 라벨 판단 결과를 기반으로 결정될 수 있다.
본 발명에 의하면, 라벨링된 복셀 데이터와 라벨링되지 않은 복셀 데이터를 동시에 사용하면서 학습 효율이 증가되고, 라벨링에 들어가는 비용 및 노력을 감소시키면서도 차량에서 전달되는 복셀 데이터를 기반으로 계속적으로 객체 탐지 모델의 업그레이드가 가능하다.
또한, 본 발명에 의하면, 이미지에 대한 복셀 데이터를 생성하고, 복셀 데이터에 대한 비식별화 절차를 통해서 인공 지능 기반 학습시 개인 정보에 대한 보호가 가능하다.
도 1은 본 발명의 실시예에 따른 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 자율 주행 차량에서 객체 검출을 위한 준지도 학습 시스템을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 플립화를 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 복셀 데이터 및 플립 복셀 데이터를 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 손실 함수를 나타낸 개념도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법을 나타낸 개념도이다.
도 1에서는 서버와 차량으로부터 입력된 데이터를 기반으로 자율 주행 차량에서 객체 탐지를 위한 준지도 학습을 수행하는 방법이 개시된다.
도 1을 참조하면, 서버(150)와 차량(160) 간의 데이터 통신을 기반으로 객체 탐지를 위한 준지도 학습이 개시된다.
서버(150)에서는 라벨링된 복셀 데이터를 기반으로 한 객체 탐지 학습이 수행되어 1차 서버 객체 탐지 모델(110)이 생성될 수 있다. 라벨링된 복셀 데이터는 이미지 상의 객체에 대한 라벨링이 존재하는 복셀 데이터일 수 있다. 서버(150)는 1차 서버 객체 탐지 모델(110)을 차량(또는 에지(edge))(160)로 전송할 수 있다. 서버(150)에서 사용되는 라벨링된 복셀 데이터는 라벨 복셀 데이터라는 용어로 표현될 수 있다. 차량(160)에 전달된 1차 서버 객체 탐지 모델(110)은 1차 차량 객체 탐지 모델(115)이라는 용어로 표현될 수 있다.
차량(160)은 1차 차량 객체 탐지 모델(115)을 기반으로 객체 탐지를 수행하고, 차량(160)에서 촬상된 이미지 데이터는 복셀화화되어 복셀 데이터로서 서버로 전송될 수 있다. 차량(160)에서는 전송되는 복셀 데이터는 별도의 라벨링되어 있지 않고, 라벨링되어 있지 않은 복셀 데이터는 비라벨 복셀 데이터라는 용어로 표현될 수 있다.
서버(150) 상에서 라벨 복셀 데이터와 비라벨 복셀 데이터 각각이 1차 서버 객체 탐지 모델(110)로 전송되고, 1차 서버 객체 탐지 모델(110)은 라벨 복셀 데이터와 비라벨 복셀 데이터를 기반으로 추가적으로 트레이닝되어 업데이트된 2차 서버 객체 탐지 모델(120)로서 생성될 수 있다. 라벨 복셀 데이터와 비라벨 복셀 데이터를 기반으로 한 서버 객체 탐지 모델의 업데이트는 데이터 기반 업데이트라는 용어로 표현될 수 있다.
2차 서버 객체 탐지 모델(120)은 라벨 복셀 데이터와 비라벨 복셀 데이터에 대한 손실 함수 기반으로 산출된 손실값을 기반으로 추가적으로 업데이트되어 3차 서버 객체 탐지 모델(130)로서 생성될 수 있다. 손실값을 기반으로 한 서버 객체 탐지 모델의 업데이트는 손실값 기반 업데이트라는 용어로 표현될 수 있다.
손실 함수는 라벨 복셀 데이터에 대한 지도 손실값(supervised loss)과 라벨 복셀 데이터와 라벨 복셀 데이터를 플립한 플립 라벨 복셀 데이터와 비라벨 복셀 데이터와 비라벨 복셀 데이터를 플립한 플립 비라벨 복셀 데이터를 기반으로 한 일관성 손실값(consistency loss)을 기반으로 손실값을 결정할 수 있다. 결정된 손실값은 2차 서버 객체 탐지 모델(120)로 전달되어 업데이트된 3차 서버 객체 탐지 모델(130)을 생성하기 위해 활용될 수 있다.
이러한 방식으로 계속적으로 차량(160)으로부터 전달된 비라벨 복셀 데이터를 기반으로 한 서버 객체 탐지 모델의 업데이트가 수행되고, 업데이트된 서버 객체 탐지 모델은 다시 차량(160)으로 전달될 수 있다. 차량(160)으로 전달된 3차 서버 객체 탐지 모델(130)은 2차 차량 객체 탐지 모델(125)일 수 있다.
3차 서버 객체 탐지 모델(130)은 계속적인 데이터 기반 업데이트, 손실값 기반 업데이터를 n차 서버 객체 탐지 모델로서 생성될 수 있고, n차 서버 객체 탐지 모델은 차량으로 전달되어 n'차 차량 객체 탐지 모델로서 동작할 수 있다. 보다 구체적으로 n차 서버 객체 탐지 모델에 대한 테스트 데이터를 기반으로 한 평가 결과가 향상되는 경우, n차 서버 객체 탐지 모델은 차량(160)으로 전달되어 n'차 차량 객체 탐지 모델로서 동작할 수 있다.
이러한 방식으로 차량(160)은 계속적으로 보다 업데이트된 객체 탐지 모델을 기반으로 객체 탐지를 수행할 수 있다.
또한, 본 발명에서는 라벨링된 복셀 데이터와 라벨링되지 않은 복셀 데이터를 동시에 사용하면서 학습 효율을 높일 수 있다. 라벨링에 들어가는 비용 및 노력을 감소시키면서도 차량에서 전달되는 복셀 데이터를 기반으로 계속적으로 객체 탐지 모델의 업그레이드가 가능하다.
도 2는 본 발명의 실시예에 따른 자율 주행 차량에서 객체 검출을 위한 준지도 학습 시스템을 나타낸 개념도이다.
도 2에서는 서버와 차량(또는 에지) 상에서 이루어지는 준지도 학습 시스템이 개시된다.
도 2를 참조하면, 서버(200) 및 에지(차량)(210)에서 수행되는 학습 동작이 개시된다.
설명의 편의상 차량(210)에 이미 차량 객체 탐지 모델(220)의 설치된 이후, 차량(210)이 비라벨 복셀 데이터를 전송하는 이후 단계의 학습에 대해 개시한다.
차량(210)은 촬상된 이미지를 복셀화(voxelization)하여 비라벨 복셀 데이터를 생성할 수 있다. 복셀 데이터는 복셀 피처(voxel feature)라는 용어로 표현될 수도 있다. 비라벨 복셀 데이터(250)는 차량(210)에 설칭된 차량 객체 탐지 모델(220)에 입력되어 이미지에 포함된 객체 탐지를 위해 사용될 수 있다. 비라벨 복셀 데이터(250)는 서버로 전송되어 서버 객체 탐지 모델(230)을 업데이트하기 위해 사용될 수 있다.
서버(200)에서는 이미지를 복셀화하되, 객체에 대한 정보(객체 분류, 객체 위치 등)를 라벨링한 라벨 복셀 데이터(270)가 생성될 수 있다. 서버(200)에서 라벨 복셀 데이터(270)를 생성하는 부분은 복셀부라는 용어로 표현될 수 있다.
서버(200)에서 생성된 라벨 복셀 데이터(270)와 차량에 의해 생성된 비라벨 복셀 데이터(250)는 플립(flip)될 수 있다. 라벨 복셀 데이터(270)를 플립하여 플립 라벨 복셀 데이터(260)가 생성되고, 비라벨 복셀 데이터(250)를 플립하여 플립 비라벨 복셀 데이터(260)가 생성될 수 있다. 라벨 복셀 데이터(270)를 플립하여 플립 라벨 복셀 데이터(280)가 생성되고, 비라벨 복셀 데이터(250)를 플립하여 플립 비라벨 복셀 데이터(260)가 생성하는 부분은 플립부라는 용어로 표현될 수 있다.
본 발명에 실시예에 따르면 플립 외에 다른 영상 처리(회전, 대칭, 복셀의 확장 축소) 등이 수행될 수 있다. 플립 라벨 복셀 데이터는 다른 표현으로 영상 처리 라벨 복셀 데이터, 플립 비라벨 복셀 데이터는 영상 처리 비라벨 복셀 데이터라는 용어로 표현될 수도 있고, 이러한 실시예 또한 본 발명의 권리 범위에 포함될 수 있다.
비라벨 복셀 데이터(250), 플립 비라벨 복셀 데이터(260), 라벨 복셀 데이터(270), 플립 라벨 복셀 데이터(280)는 서버 객체 탐지 모델(230)로 입력되어 서버 객체 탐지 모델(230)을 업데이트할 수 있다. 전술한 바와 같이 비라벨 복셀 데이터(250), 플립 비라벨 복셀 데이터(260), 라벨 복셀 데이터(270), 플립 라벨 복셀 데이터(280)를 기반으로 한 업데이트는 데이터 기반 업데이트라는 용어로 표현될 수 있다.
또한, 비라벨 복셀 데이터(250), 플립 비라벨 복셀 데이터(260)를 사용한 한 비라벨 판단 결과 기반의 제1 일관성 손실(consistency loss), 라벨 복셀 데이터(270), 플립 라벨 복셀 데이터(280)를 사용한 라벨 판단 결과 기반의 제2 일관성 손실, 라벨 복셀 데이터(270)에 대한 지도 판단 결과를 기반으로 한 지도 손실(supervised loss)을 기반으로 서버 객체 탐지 모델(230)은 추가적으로 업데이트될 수 있다. 손실값을 기반으로 한 서버 객체 탐지 모델(230)의 업데이트는 손실값 기반 업데이트라는 용어로 표현될 수 있다.
(1) 비라벨 판단 결과 기반의 제1 일관성 손실
비라벨 판단 결과 기반의 제1 일관성 손실은 비라벨 복셀 데이터(250)가 서버 객체 탐지 모델(230)로 입력시의 제1 하위 비라벨 판단 결과와 플립 비라벨 복셀 데이터(260)가 서버 객체 탐지 모델(230)로 입력시의 제2 하위 비라벨 판단 결과가 동일한지 여부를 기반으로 결정될 수 있다.
(1) 라벨 판단 결과 기반의 제2 일관성 손실
라벨 판단 결과 기반의 제2 일관성 손실은 라벨 복셀 데이터(270)가 서버 객체 탐지 모델(230)로 입력시의 제1 하위 라벨 판단 결과와 플립 라벨 복셀 데이터(280)가 서버 객체 탐지 모델(230)로 입력시의 제2 하위 라벨 판단 결과가 동일한지 여부를 기반으로 결정될 수 있다.
(3) 지도 손실
지도 손실은 라벨 복셀 데이터(270)에 포함된 객체 정보와 라벨 복셀 데이터(270)가 서버 객체 탐지 모델(230)로 입력시 판단 결과를 기반으로 결정될 수 있다.
일관성 손실(제1 일관성 손실, 제2 일관성 손실)과 지도 손실에 대한 정보는 서버 객체 탐지 모델(230)로 전달되어 서버 객체 탐지 모델(230)의 손실값 기반 업데이트를 위해 활용될 수 있다.
서버에서 수행되는 동작은 프로세서를 기반으로 수행될 수 있다.
도 3은 본 발명의 실시예에 따른 플립화를 나타낸 개념도이다.
도 3에서는 본 발명의 실시예에 따른 복셀 데이터의 플립화 방법이 개시된다.
도 3을 참조하면, 본 발명에서는 진행 방향을 기준으로 복셀 데이터의 플립이 수행될 수 잇다.
X 방향은 차량의 전진 방향이고, 차량의 전진 방향을 기준으로 플립되어 플립 라벨 복셀 데이터, 플립 비라벨 복셀 데이터가 생성될 수 있다.
복셀 데이터 상에서 오리지날 객체 각도가 Y 축을 기준으로
Figure 112021133828664-pat00001
인 경우, 플립된 객체 각도는 Y 축을 기준으로
Figure 112021133828664-pat00002
'일 수 있다.
Figure 112021133828664-pat00003
Figure 112021133828664-pat00004
'의 합은
Figure 112021133828664-pat00005
이다.
도 4는 본 발명의 실시예에 따른 복셀 데이터 및 플립 복셀 데이터를 나타낸 개념도이다.
도4에서는 복셀 데이터(450) 및 플립 복셀 데이터(460)의 생성 방법이 개시된다.
도 4를 참조하면, 복셀 데이터(450)는 다른 표현으로 복셀 피처라는 용어로 표현될 수 있다.
복셀화 및 복셀 데이터 생성이 수행된다(단계 S400).
라이다(Lidar)로 인지되는 3차원 영역을 균일한 공간으로 나누어 복셀화 시키고, 각 복셀 영역 안에 포함되는 점들을 복셀을 대표하는 특성값(feature)으로 표현하여 복셀 데이터가 생성될 수 있다.
복셀 정보 비식별화가 수행된다(단계 S410).
각 복셀 안에 들어있는 복셀 데이터는 각 점들의 실제 정보가 아닌 해당 복셀과의 관계를 표현하는 상대적인 값을 기반으로 도출하여 비식별화가 수행될 수 있다. 이러한 비식별화를 통해 이미지 상의 객체에 대한 보안이 강화될 수 있다.
복셀 플립이 수행된다(단계 S420).
복셀 데이터의 반전인 플립 절차는 기준축을 중심으로 각 복셀의 위치를 반전시키는 방식으로 수행된다.
복셀 플립 절차를 통해 플립 라벨 복셀 데이터, 플립 라벨 복셀 데이터가 생성될 수 있다.
이러한 복셀 데이터를 사용함으로써 데이터의 압축률을 높이고, 복셀 데이터 비식별화 절차를 통해 이미지 내의 보안 정보, 개인 정보에 대한 보호가 가능하다.
도 5는 본 발명의 실시예에 따른 손실 함수를 나타낸 개념도이다.
도 5에서는 일관성 손실(제1 일관성 손실(510), 제2 일관성 손실(520))(500)과 지도 손실(550)을 기반으로 손실값을 결정하는 방법이 개시된다.
도 5를 참조하면, 손실 함수는 아래의 수학식1과 같다.
<수학식 1>
Figure 112021133828664-pat00006
Lc는 지도 손실(550)에서 객체의 분류(classification)에 대한 손실값이다.
Ll는 지도 손실(550)에서 객체의 위치에 대한 손실값이다.
w(t)는 일관성 손실(500)에 대한 가중치 값이다.
Lcon은 일관성 손실값이다.
일관성 손실값은 객체 분류에 대한 손실값과 객체 위치에 대한 손실값을 포함할 수 있다.
아래의 수학식 2는 일관성 손실(500) 중 객체 위치에 대한 손실값을 나타낸다.
<수학식 2>
Figure 112021133828664-pat00007
즉, 오리지날 위치(cx, cy, cz)와 플립된 위치(cx', cy', cz')의 차이값, 공간의 차이값 및 Y축 기준 각도에 대한 차이값을 기반으로 객체 위치에 대한 손실값이 계산될 수 있다.
객체 분류에 대한 손실값은 MSE(mean square error)를 기반으로 결정될 수 있다.
본 발명에서는 설명의 편의상 플립을 기준으로 설명을 하였으나, 플립 외에 다른 다양한 영상 처리가 수행되어 동일한 알고리즘에 의해 처리될 수 있다.
예를 들어, 플립 외에 회전, 대칭, 복셀의 확장, 축소 등과 같은 영상 처리가 수행되고, 일관성 손실(제1 일관성 손실, 제2 일관성 손실)과 지도 손실이 결정되어, 서버 객체 탐지 모델의 손실값 기반 업데이트를 위해 활용될 수 있다.
서버에서 생성된 라벨 복셀 데이터 차량에 의해 생성된 비라벨 복셀 데이터는 영상 처리될 수 있다. 라벨 복셀 데이터를 영상 처리하여 영상 처리 라벨 복셀 데이터가 생성되고, 비라벨 복셀 데이터를 영상 처리하여 영상 처리 비라벨 복셀 데이터가 생성될 수 있다. 라벨 복셀 데이터를 플립하여 영상 처리 라벨 복셀 데이터가 생성되고, 비라벨 복셀 데이터를 영상 처리하여 플립 비라벨 복셀 데이터가 생성하는 부분은 영상처리부라는 용어로 표현될 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (6)

  1. 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법은,
    서버가 차량으로부터 비라벨 복셀 데이터를 수신하는 단계;
    상기 서버가 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 서버 객체 탐지 모델에 대한 데이터 기반 업데이트를 수행하는 단계;
    상기 서버가 상기 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 손실값을 결정하는 단계; 및
    상기 서버가 상기 손실값을 사용하여 상기 서버 객체 탐지 모델에 대한 손실값 기반 업데이트를 수행하는 단계를 포함하되,
    상기 손실값은 지도 손실 및 일관성 손실을 포함하고,
    상기 지도 손실은 상기 라벨 복셀 데이터에 포함된 객체 정보와 상기 라벨 복셀 데이터의 서버 객체 탐지 모델로 입력시 판단 결과를 기반으로 결정되고,
    상기 일관성 손실은 비라벨 판단 결과 기반의 제1 일관성 손실과 라벨 판단 결과 기반의 제2 일관성 손실을 포함하고,
    상기 제1 일관성 손실은 상기 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 비라벨 판단 결과와 상기 비라벨 복셀 데이터를 영상 처리한 영상 처리 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 비라벨 판단 결과를 기반으로 결정되고,
    상기 제2 일관성 손실은 상기 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 라벨 판단 결과와 상기 라벨 복셀 데이터를 영상 처리한 영상 처리 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 라벨 판단 결과를 기반으로 결정되는 것을 특징으로 하는 준지도 학습 방법.
  2. 제1항에 있어서,
    상기 데이터 기반 업데이트는 상기 라벨 복셀 데이터, 상기 영상 처리 라벨 복셀 데이터, 상기 비라벨 복셀 데이터, 상기 영상 처리 비라벨 복셀 데이터를 기반으로 수행되고,
    상기 영상 처리 라벨 복셀 데이터 및 상기 영상 처리 비라벨 복셀 데이터는 차량의 운행 방향을 기준으로 한 영상 처리를 통해 생성되는 것을 특징으로 하는 준지도 학습 방법.
  3. 삭제
  4. 자율 주행 차량에서 객체 검출을 위한 준지도 학습을 수행하는 서버는,
    차량으로부터 비라벨 복셀 데이터를 수신하는 통신부; 및
    라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 서버 객체 탐지 모델에 대한 데이터 기반 업데이트를 수행하고, 상기 라벨 복셀 데이터 및 상기 비라벨 복셀 데이터를 기반으로 손실값을 결정하고, 상기 손실값을 사용하여 상기 서버 객체 탐지 모델에 대한 손실값 기반 업데이트를 수행하도록 구현되는 프로세서를 포함하고,
    상기 손실값은 지도 손실 및 일관성 손실을 포함하고,
    상기 지도 손실은 상기 라벨 복셀 데이터에 포함된 객체 정보와 상기 라벨 복셀 데이터의 서버 객체 탐지 모델로 입력시 판단 결과를 기반으로 결정되고,
    상기 일관성 손실은 비라벨 판단 결과 기반의 제1 일관성 손실과 라벨 판단 결과 기반의 제2 일관성 손실을 포함하고,
    상기 제1 일관성 손실은 상기 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 비라벨 판단 결과와 상기 비라벨 복셀 데이터를 영상 처리한 영상 처리 비라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 비라벨 판단 결과를 기반으로 결정되고,
    상기 제2 일관성 손실은 상기 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제1 하위 라벨 판단 결과와 상기 라벨 복셀 데이터를 영상 처리한 영상 처리 라벨 복셀 데이터가 상기 서버 객체 탐지 모델로 입력시의 제2 하위 라벨 판단 결과를 기반으로 결정되는 것을 특징으로 하는 서버.
  5. 제4항에 있어서,
    상기 데이터 기반 업데이트는 상기 라벨 복셀 데이터, 상기 영상 처리 라벨 복셀 데이터, 상기 비라벨 복셀 데이터, 상기 영상 처리 비라벨 복셀 데이터를 기반으로 수행되고,
    상기 영상 처리 라벨 복셀 데이터 및 상기 영상 처리 비라벨 복셀 데이터는 차량의 운행 방향을 기준으로 한 영상 처리를 통해 생성되는 것을 특징으로 하는 서버.
  6. 삭제
KR1020210160432A 2021-11-19 2021-11-19 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치 KR102394024B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210160432A KR102394024B1 (ko) 2021-11-19 2021-11-19 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치
US17/659,878 US11495012B1 (en) 2021-11-19 2022-04-20 Semi-supervised learning method for object detection in autonomous vehicle and server for performing semi-supervised learning for object detection in autonomous vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210160432A KR102394024B1 (ko) 2021-11-19 2021-11-19 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치

Publications (1)

Publication Number Publication Date
KR102394024B1 true KR102394024B1 (ko) 2022-05-06

Family

ID=81584693

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210160432A KR102394024B1 (ko) 2021-11-19 2021-11-19 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치

Country Status (2)

Country Link
US (1) US11495012B1 (ko)
KR (1) KR102394024B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033284B (zh) * 2020-12-22 2022-10-25 迪比(重庆)智能科技研究院有限公司 一种基于卷积神经网络的车辆实时超载检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180118596A (ko) * 2015-10-02 2018-10-31 트랙터블 리미티드 데이터세트들의 반-자동 라벨링
KR20210064067A (ko) * 2019-11-22 2021-06-02 삼성전자주식회사 3차원 객체 검출을 위한 시스템 및 방법
KR20210106864A (ko) * 2020-02-20 2021-08-31 삼성전자주식회사 레이더 신호에 기초한 오브젝트 검출 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220180528A1 (en) * 2020-02-10 2022-06-09 Nvidia Corporation Disentanglement of image attributes using a neural network
US20210403036A1 (en) * 2020-06-30 2021-12-30 Lyft, Inc. Systems and methods for encoding and searching scenario information
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
WO2022150978A1 (en) * 2021-01-12 2022-07-21 Nvidia Corporation Neighboring bounding box aggregation for neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180118596A (ko) * 2015-10-02 2018-10-31 트랙터블 리미티드 데이터세트들의 반-자동 라벨링
KR20210064067A (ko) * 2019-11-22 2021-06-02 삼성전자주식회사 3차원 객체 검출을 위한 시스템 및 방법
KR20210106864A (ko) * 2020-02-20 2021-08-31 삼성전자주식회사 레이더 신호에 기초한 오브젝트 검출 방법 및 장치

Also Published As

Publication number Publication date
US11495012B1 (en) 2022-11-08

Similar Documents

Publication Publication Date Title
US9881234B2 (en) Systems and methods for end-to-end object detection
EP3404586A1 (en) Novelty detection using discriminator of generative adversarial network
JP2018097807A (ja) 学習装置
US11853061B2 (en) Autonomous vehicle controlled based upon a lidar data segmentation system
US11113573B1 (en) Method for generating training data to be used for training deep learning network capable of analyzing images and auto labeling device using the same
CN115769229A (zh) 训练和测试通过利用注意力图检测图像上对象的对象检测网络的方法及设备
KR102664916B1 (ko) 익스플레이너블 셀프-포커스드 어텐션을 이용하여 행동 예측을 수행하는 방법 및 장치
KR20230171966A (ko) 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
KR102394024B1 (ko) 자율 주행 차량에서 객체 검출을 위한 준지도 학습 방법 및 이러한 방법을 수행하는 장치
US20210319264A1 (en) Resolving training dataset category ambiguity
JP2019191991A (ja) 点群から対象の向きを推定する対象情報推定装置、プログラム及び方法
CN114511077A (zh) 使用基于伪元素的数据扩增来训练点云处理神经网络
CN116670687A (zh) 用于调整训练后的物体检测模型以适应域偏移的方法和系统
Głowacz et al. Video detection algorithm using an optical flow calculation method
KR102546193B1 (ko) 컬러 정보를 이용한 학습 데이터 분류 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US11657506B2 (en) Systems and methods for autonomous robot navigation
WO2024035512A1 (en) Saliency maps for anchor box-based object detection
CN110879949B (zh) 基于融合神经网络的图像处理及网络的生成方法和装置
Fakharurazi et al. Object Detection in Autonomous Vehicles
Tousi et al. A new approach to estimate depth of cars using a monocular image
Hamieh et al. LiDAR and Camera-Based Convolutional Neural Network Detection for Autonomous Driving
JP7266075B2 (ja) データ選別支援装置、データ選別支援方法及びデータ選別支援プログラム
KR102685693B1 (ko) 딥페이크 비디오 탐지 방법 및 장치, 컴퓨터 프로그램
KR102522258B1 (ko) Yolo 실시간 무인기 검출을 위한 오토인코더 기반 전처리 방법 및 그 오토인코더
KR102546198B1 (ko) 물리적 요인 기반 학습 데이터 분류 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant