KR20180133657A - 기계 학습을 이용한 다중 뷰포인트 차량 인식 장치 - Google Patents

기계 학습을 이용한 다중 뷰포인트 차량 인식 장치 Download PDF

Info

Publication number
KR20180133657A
KR20180133657A KR1020170070763A KR20170070763A KR20180133657A KR 20180133657 A KR20180133657 A KR 20180133657A KR 1020170070763 A KR1020170070763 A KR 1020170070763A KR 20170070763 A KR20170070763 A KR 20170070763A KR 20180133657 A KR20180133657 A KR 20180133657A
Authority
KR
South Korea
Prior art keywords
training
neural network
unit
artificial neural
image
Prior art date
Application number
KR1020170070763A
Other languages
English (en)
Inventor
장재호
박상지
윤석민
신학철
배순민
김종민
유창동
Original Assignee
한화에어로스페이스 주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화에어로스페이스 주식회사, 한국과학기술원 filed Critical 한화에어로스페이스 주식회사
Priority to KR1020170070763A priority Critical patent/KR20180133657A/ko
Publication of KR20180133657A publication Critical patent/KR20180133657A/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 차량 인식 장치에 관한 것으로, 복수의 타겟 이미지를 입력받는 입력부; 복수의 트레이닝용 이미지를 입력받아 인공 신경망을 트레이닝하는 트레이닝부; 상기 트레이닝된 인공 신경망을 이용하여 상기 복수의 타겟 이미지로부터 각각 타겟 피쳐를 추출하는 피쳐 추출부; 조인트 베이지안(Joint Bayesian)을 이용하여 상기 복수의 타겟 피쳐의 유사도(similarity)를 산출하는 유사판단부; 및상기 산출된 유사도를 표시하는 출력부;를 포함하되, 상기 트레이닝부는, 상기 인공 신경망을 통해 상기 복수의 트레이닝용 이미지로부터 추출된 복수의 트레이닝용 피쳐를 이용해 상기 인공 신경망을 트레이닝하는 삼중 쌍 손실함수(loss function) 및 분류 손실함수를 포함하며, 상기 복수의 트레이닝용 피쳐를 이용해 상기 유사판단부를 더 트레이닝함으로써, 다중 뷰포인트의 동일 차량에 대해서도 재인식 성능이 높게 유지된다.

Description

기계 학습을 이용한 다중 뷰포인트 차량 인식 장치 {MULTIPLE VIEW POINT VEHICLE RECOGNITION APPARATUS USING MACHINE LEARNING }
본 발명은 차량 인식 장치에 관한 것으로, 보다 상세하게는 서로 다른 카메라에서 검출된 두 대의 차량이 동일 차량인지 여부를 판단하는 차량 인식 장치에 관한 것이다.
교통상황 모니터링을 용이하게 하기 위해, 특정 차량의 구간통행시간 산출이 요구된다. 이에 따라 동일 차량을 자동으로 검출 및 인식함으로써 추적조사를 할 수 있는 차량의 재인식 기술이 개발되었다.
다만 동일한 차량이라도 상이한 위치 및 각도에서 촬영되어 생성된 복수의이미지에 대해서는, 사람이 고안한 특징추출 방식을 이용해 동일차량 여부를 판단하기 어려움이 있었다. 동일 차량이라도 앞모습과 옆모습은 상이하기 때문이다. 따라서 이러한 한계를 극복하기 위해 인공 신경망을 이용해 특징을 추출하고 인식하는 방식이 널리 사용되었다.
기존의 차량 재인식을 위한 대표 기술은 크게 두 가지로 나뉘는데, 하나는 기계 학습(machine learning)의 일종인 딥러닝(deep learning)을 이용한 거리 학습에 기반한 차량 재인식 기술이며, 다른 하나는 딥러닝을 이용한 분류기 트레이닝 및 조인트 베이지안(Joint Bayesian)을 이용한 차량 재인식 기술이다.
거리 학습에 기반한 차량 재인식 기술은, 입력된 차량 이미지를 심화 컨벌루셔널 신경망(deep Convolutional Neural Network, 이하 CNN)을 통해 차량 특징 벡터(feature vector, 피쳐)로 만듬으로써 시작된다. 산출된 피쳐를 비교함으로써 유사한 같은 차량들(positive set 내의 차량들)의 피쳐를 좌표 공간으로 나타낸 특징 공간 상에서 서로 가깝게 모이도록 CNN을 트레이닝하고, 비유사한 다른 차량들(negative set 내의 차량들)의 피쳐는 특징 공간 상에서 서로 멀리 떨어지도록 CNN을 트레이닝하는 것이, 거리 학습에 기반한 차량 재인식 기술의 핵심이다.
다만 거리 학습을 이용한 차량 재인식 방법은 일반적으로 후술할 조인트 베이지안을 이용한 재인식 방법에 비해 성능이 떨어진다.
딥러닝을 이용한 분류기 트레이닝 및 조인트 베이지안을 이용한 차량 재인식 기술은, 전자와 마찬가지로 입력된 차량 이미지를 심화 컨벌루셔널 신경망(deep Convolutional Neural Network, 이하 CNN)을 통해 피쳐로 만듬으로써 시작된다. 다만 서로 다른 두 카메라에 의해 촬영된 두 장의 차량 이미지를 입력으로 받아, 각각의 피쳐를 추출한다. 조인트 베이지안을 이용해 추출된 두 피쳐의 유사도를 판단한다. 결합 베이지안으로도 불리는 조인트 베이지안 방법에서는 피쳐가 차량의 특징을 나타내는 외재적 특성과 차량이라면 일반적으로 가지고 있는 내재적 특성의 합으로 나타내어질 수 있으며, 외재적 특성과 내재적 특성이 가우시안 분포(Gaussian distribution)를 따른다고 가정하여 결합확률의 비율을 계산하고 유사도로 활용한다. 조인트 베이지안을 이용한 유사도 판단을 통해 동일한 차량인지를 판단할 수 있는 것이다.
그러나 이 방법은 최적의 가우시안 모델을 찾도록 트레이닝하는 것이지, 두 차량의 유사도를 직접적으로 최적화 하지는 않는다. 또한 피쳐를 추출하는 CNN이 차량 재인식에 최적화된 특징을 뽑아낸다고 보장할 수 없다는 문제가 있다.
한편, 기존 딥러닝 등의 지도형 기계 학습(supervised learning)에 있어서 성능이 좋은 신경망이 되도록 신경망을 트레이닝시키기 위해서는 올바른 결과인지 여부를 알려주는 클래스 라벨링이 된 데이터셋이 입력되어야 한다. 그러나 트레이닝을 위한 데이터셋은 매우 많은 양이 필요한 것에 비해 잘 라벨링된 훈련용 데이터셋을 충분히 확보하기 어렵다는 문제가 있었다.
또한 훈련용 데이터셋과 실제로 신경망이 적용되는 데이터셋이 매우 다른 특징을 나타내는 경우, 아무리 고도로 트레이닝된 신경망이라 하더라도 상이한 특징을 가지는 데이터셋을 이용해 트레이닝 되었으므로 좋은 성능을 보일 수 없다는 문제가 있었다. 이러한 상황은 실제로 신경망이 적용되는 데이터셋과 매우 유사한 잘 정돈된 훈련용 데이터셋을 이용하여 인공 신경망을 훈련하더라도 시간이 지남에 따라 신경망이 적용되어야 할 데이터셋의 특징이 점차 변화하는 경우, 마찬가지로 발생하는 문제이다. 따라서 트레이닝에 사용되는 데이터셋을 보충함과 동시에 현재 실제로 신경망이 적용될 데이터와 유사한 분포를 가지도록 데이터셋을 조정해 줄 필요가 있다.
한국 등록특허 제1563569호
본 발명이 해결하고자 하는 과제는, 다중 뷰포인트 이미지로부터 차량 재인식이 가능한 차량 인식 장치를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 차량 인식 장치는, 복수의 타겟 이미지를 입력받는 입력부; 복수의 트레이닝용 이미지를 입력받아 인공 신경망을 트레이닝하는 트레이닝부; 상기 트레이닝된 인공 신경망을 이용하여 상기 복수의 타겟 이미지로부터 각각 타겟 피쳐를 추출하는 피쳐 추출부; 조인트 베이지안(Joint Bayesian)을 이용하여 상기 복수의 타겟 피쳐의 유사도(similarity)를 산출하는 유사판단부; 및 상기 산출된 유사도를 표시하는 출력부;를 포함하되, 상기 트레이닝부는, 상기 인공 신경망을 통해 상기 복수의 트레이닝용 이미지로부터 추출된 복수의 트레이닝용 피쳐를 이용해 상기 인공 신경망을 트레이닝하는 삼중 쌍 손실함수(loss function) 및 분류 손실함수를 포함하며, 상기 복수의 트레이닝용 피쳐를 이용해 상기 유사판단부를 더 트레이닝 할 수 있다.
실시예에 따른 차량 인식 장치에서, 상기 인공 신경망은, 기 설정된 기준에 따른 영상 처리 방법을 사용하는 보조 피쳐 추출기를 더 포함할 수 있다.
실시예에 따른 차량 인식 장치에서, 상기 인공 신경망은 컨볼루셔널 인공 신경망(Convolutional Neural Network)이고, 상기 트레이닝부는, 상기 인공 신경망을 통해 상기 복수의 트레이닝용 이미지로부터 추출된 피쳐를 역전파(backpropagation) 함으로써 상기 인공 신경망을 트레이닝할 수 있다.
실시예에 따른 차량 인식 장치에서, 상기 분류 손실함수는, 소프트맥스(Softmax) 함수일 수 있다.
실시예에 따른 차량 인식 장치에서, 상기 트레이닝부는, 상기 복수의 타겟 이미지를 더 이용하여 도메인 어댑테이션(Domain adaptation) 방식을 통해 상기 인공 신경망을 더 트레이닝할 수 있다.
실시예에 따른 차량 인식 장치에서, 상기 트레이닝부는, 상기 복수의 타겟 피쳐의 분포와 상기 복수의 트레이닝용 피쳐의 분포가 유사해지도록 상기 인공 신경망을 트레이닝할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.
트레이닝을 통해 차량의 특징 추출 및 유사도 판단에 적합하도록 피쳐를 개선해 차량 인식 성능이 향상된다.
실제로 차량 인식 장치가 적용되어야 할 이미지를 데이터셋으로 이용하여 인공 신경망을 트레이닝하므로 차량 인식 성능이 향상되고 시간이 지남에 따라 인식 성능의 저하가 발생하지 않는다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다. 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 차량 인식 장치의 전체 구성을 표현한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 차량 인식 장치의 개략적인 작용을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 차량 인식 장치의 전체 트레이닝 과정을 나타낸 순서도이다.
도 4는 본 발명의 일 실시예에 따른 차량 인식 장치의 피쳐 추출부에 대한트레이닝 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 차량 인식 장치가 삼중 쌍 이미지를 이용해 피쳐 추출부를 트레이닝 하는 과정을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 차량 인식 장치의 삼중 쌍 이미지로부터 얻은 삼중 쌍 트레이닝용 피쳐를 이용해 피쳐 추출부를 트레이닝한 결과를 개념적으로 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 차량 인식 장치가 도메인 어댑테이션을이용해 피쳐 추출부를 트레이닝하는 과정을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 차량 인식 장치가 유사 판단부를 트레이닝하고, 유사 판단부를 이용해 두 이미지로부터 차량의 유사도를 판단하는 과정을 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
또한, 본 명세서에서 기술하는 실시예들은 본 발명의 이상적인 예시도인 단면도 및/또는 개략도들을 참고하여 설명될 것이다. 따라서, 제조 기술 및/또는 허용 오차 등에 의해 예시도의 형태가 변형될 수 있다. 또한 본 발명에 도시된 각 도면에 있어서 각 구성 요소들은 설명의 편의를 고려하여 다소 확대 또는 축소되어 도시된 것일 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 구성요소는 다른 방향으로도 배향될 수 있고, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예의 구성을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 전체 구성을 표현한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 차량 인식 장치(1)는 입력부(11), 연산부(12) 및 출력부(13)로 구성되어있고, 연산부(12)는 다시 피쳐 추출부(121), 유사판단부(123) 및 트레이닝부(122)로 구성된다.
입력부(11)는 외부로부터 이미지를 입력받는 기능을 한다. 예를 들어, 카메라, 캠코더 등의 영상 획득 장치를 통해서, 검출하고자 하는 차량의 외관을 촬영하여 이미지를 획득할 수 있다. 입력부(11)가 영상 획득 장치를 통해서 이미지를 캡쳐하는 경우, 빛이 집광되는 집광부, 집광된 빛을 감지하고 감지된 빛의 신호를 전기 신호로 변환하는 촬상부, 변환된 전기 신호를 디지철 신호로 변환하는 A/D 컨버터를 포함할 수 있으나 영상 획득 장치의 구성은 이에 제한되지 않는다.
여기서 촬상부는 노출 및 감마 조정, 이득조정, 화이트 밸런스, 컬러 매트릭스 등의 기능을 수행하며, 일반적으로 CCD(Charge Coupled Device, 전하결합소자)나 CMOS 이미지 센서 등의 촬상 소자가 포함된다. CCD는 복수의 포토다이오드(Photodiode)에 광이 조사되면 광전효과에 의해 발생한 전자들을 축적시킨 후 전송하는 방식이다. 이 때, 광자의 양에 따라 발생하는 전자량의 변화를 분석하고 정보를 재구성함으로써, 화면을 이루는 이미지 정보가 생성된다. CCD는 화질이 선명하고 노이즈가 적다는 장점이 있으나, 전력소비가 높고 처리속도가 느리다는 단점이 있다.
CMOS 이미지 센서는 CMOS(Complementary Metal Oxide Semiconductor)를 이용하는 이미지 센서로서, 각 셀마다 증폭기가 있어 광에 의해 발생한 전자를 곧바로 전기신호로 증폭시켜 전송하는 방식이다. CMOS 이미지 센서는 가격이 저렴하고 전력소비가 낮으며 처리속도가 빠르나, 노이즈가 많다는 단점이 있다.
또한 입력부(11)는 이미 파일화된 이미지를 입력받을 수 있다. 이 경우 입력부(11)는 키보드, 마우스 등의 입력 장치를 포함할 수 있고, 터치가 가능한 터치 스크린을 포함해 저장장치로부터 저장된 파일화된 이미지를 입력받을 수 있다.
입력부(11)는 차량 재인식을 위해 유사도 판단에 사용되는 복수의 타겟 이미지(도 2의 201, 202)를 입력받을 수 있고, 피쳐 추출부(121)와 유사판단부(123)의 트레이닝에 사용되는 복수의 트레이닝용 이미지를 입력받을 수도 있다.
연산부(12)는 차량 인식 장치(1)의 차량 인식 및 트레이닝에 필요한 전반적인 연산을 수행한다. 예를 들어, 연산부(12)는 입력부(11)로부터 입력받은 이미지로부터 피쳐를 추출하고 차량을 인식하며, 트레이닝용 이미지를 입력받아 피쳐 추출부(121) 및 유사판단부(123)를 트레이닝한다. 또한 디스플레이되는 이미지 상에서 피쳐가 위치하는 영역을 나타내기 위하여, 추출된 피쳐 영역을 포위하는 프레임을 설정할 수 있다.
또한 연산부(12)는 출력부(13)에 연산된 유사도(도 2의 52)를 전달함으로써 차량의 인식 결과를 표시한다. 본 발명의 일 실시예에 따른 연산부(12)로는 CPU(Central Processing Unit), MCU(Micro Controller Unit) 또는 DSP(Digital Signal Processor) 등을 사용하는 것이 바람직하나, 이에 제한되지 않고 다양한 논리 연산 프로세서가 사용될 수 있다.
연산부(12)는 피쳐 추출부(121), 유사판단부(123) 및 트레이닝부(122)를 포함한다.
피쳐 추출부(121)는 입력된 이미지로부터 피쳐를 추출하는 역할을 하는 구성요소이다. 따라서 피쳐 추출부(121) 및 유사판단부(123)의 트레이닝을 위한 트레이닝용 이미지가 입력되는 경우 트레이닝 피쳐를 추출하고, 유사도 판단을 하고자 하는 타겟 이미지가 입력되는 경우 타겟 피쳐를 추출한다. 추출된 피쳐는 유사판단부(123)로 전달된다.
피쳐 추출부(121)는 인공 신경망(Artificial Neural Network, 도 4의 301)을 피쳐의 추출을 위해 사용한다. 그 중에서도 본 발명에서는 컨볼루셔널 신경망(CNN)을 예시로 하여 설명하나 다른 변형이 가능하다. 인공 신경망(301)은 이미지 파일을 벡터화 한 입력층을 형성하고, 입력층에 대해 다양한 연산을 가하여 다음 층의 벡터에 대응시키는 방식으로 이미지를 변환하고, 이를 반복하여 피쳐가 추출되도록 할 수 있다. 이러한 방식으로 층과 층 사이를 연결시켜 만들어지므로, 신경의 작용을 모사하였다 하여 인공 신경망(301)이라 불리운다.
유사판단부(123)는 피쳐 추출부(121)로부터 전달받은 각기 다른 이미지(233)로부터 추출된 피쳐를 비교하여 유사도를 산출한다. 유사판단부(123)는 조인트 베이지안을 사용하여, 두 피쳐가 동일한 차량의 피쳐라고 가정했을 경우의 결합확률(joint probability)과, 두 피쳐가 상이한 차량의 피쳐라고 가정했을 경우의 결합확률을 계산한 뒤, 두 결합확률의 비율을 계산하여 이를 입력된 두 이미지의 유사도(similarity)로 산출한다. 유사도는 입력된 두 이미지가 얼마나 유사한지를 나타내는 수치이다. 산출된 유사도는 출력부(13)로 전달된다.
트레이닝부(122)는 피쳐 추출부(121)가 인공 신경망(301)을 통해 추출한 피쳐를 기초로 하여 피쳐 추출부(121)가 포함하는 인공 신경망(301)을 트레이닝한다. 트레이닝부(122)는 피쳐 추출부(121)의 연산 결과물을 기초로 본래 원했던 결과값과 비교해 그 차이(error)를 가지고 피쳐 추출부(121)를 트레이닝하는 것이므로, 피드포워드 네트워크(feedforward network)의 결과물을 통해 역으로 트레이닝하는 역전파(backpropagation)를 사용한다. 트레이닝부(122)가 인공 신경망(301)을 트레이닝하기 위해 사용하는 추출된 피쳐는 후술할 트레이닝용 이미지로부터 추출한 피쳐일 수 있고, 피쳐 추출부(121)가 차량 인식 및 유사도 판단을 위해 입력부(11)로 입력된 이미지에 대해 추출한 피쳐일 수도 있다. 트레이닝부(122)가 인공 신경망(301)을 트레이닝하는 구체적인 방식에 대해서는 도 4 내지 도 6에 대한 설명에서 자세히 후술한다.
출력부(13)는 산출된 유사도를 유사판단부(123)로부터 전달받아 표시한다. 출력부(13)는 액정, 모니터, 프로젝터, TV 등의 디스플레이 장치(도 2의 131)를 포함하여 유사도를 디스플레이 할 수 있으나, 프린터 등의 장치를 통해서 화면이 아닌 매체에 유사도를 표시할 수도 있다. 출력부(13)가 전달받아 표시하는 정보는 단순히 유사도에 그치지 않고 입력되어 비교 대상이 된 두 이미지, 두 이미지의 피쳐가 위치하는 영역에 표시된 폴리곤(polygon), 차량 인식을 통해 파악한 차량에 대한 정보 등이 포함될 수 있다.
본 발명의 얼굴 인식 장치는 이 밖에도 저장부(미도시)를 더 포함해 연산된 유사도 및 입력된 이미지를 매칭하여 저장할 수도 있다. 저장부는 입력부(11)를 통해 입력받은 이미지 또는, 연산부(12)에서 인식된 차량에 대한 정보 및 피쳐가 저장될 수 있다. 또한 차량을 인식하고 대응되는 차량이 무엇인지를 판단하기 위해 제공되는 레퍼런스 이미지, 레퍼런스 이미지의 피쳐 및 레퍼런스 이미지에 대응되는 정보가 저장될 수 있으며, 피쳐 추출부(121)의 트레이닝에 사용되는 삼중 쌍 트레이닝용 이미지, 유사판단부(123)의 트레이닝에 사용되는 유사판단부 트레이닝용 이미지가 저장될 수 있다. 다만 저장부에 저장될 수 있는 데이터의 종류는 이에 제한되지 않는다.
저장부는 부피가 작고 외부의 충격에 강한 플래시 메모리(Flash Memory)인 것이 바람직하나, 이에 제한되지 않고 HDD(Hard Disk Drive), SSD(Solid State Drive), SD(Secure Digital) 카드 등 다양한 저장 장치를 포함할 수 있다.
이하, 도 2를 참조하여 차량 인식 장치(1)의 입력 데이터와 출력 데이터에 대해서 알아본다.
도 2는 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 개략적인 작용을 나타낸 도면이다.
도 2를 참조하면, 차량의 이미지인 두 개의 타겟 이미지(201, 202)가 입력부(11)를 통해서 촬상 혹은 이미 만들어진 파일의 형태로 입력되게 된다. 두 개의 타겟 이미지(201, 202)는 각기 다른 위치 또는 각도에서 촬영된 차량의 이미지로, 본 발명의 차량 인식 장치(1)를 이용해 유사도(52)를 판단하고자 하는 대상 이미지이다.
입력부(11)는 입력된 타겟 이미지를 연산부(12)로 전달한다. 연산부(12)는 피쳐 추출부(121)가 포함하는 인공 신경망(301)을 통해 해당 타겟 이미지(201, 202)로부터 피쳐를 추출하고, 추출된 피쳐를 조인트 베이지안을 이용해 연산함으로써 유사도를 산출한다. 연산부(12)는 유사도(52)를 출력부(13)로 전달하고, 출력부(13)는 디스플레이 장치(131) 등을 이용해 유사도(52)를 디스플레이해서 사용자가 입력된 타겟 이미지(201, 202)의 유사여부를 판단하도록 한다. 또한 연산부(12)가 레퍼런스 이미지 또는 트레이닝용 이미지와의 비교를 통해 입력된 타겟 이미지(201, 202)에 포함된 차량을 인식하고 그 결과를 출력부(13)로 전달한 경우, 출력부(13)는 전달받은 인식 결과를 더 표시할 수 있다.
한편, 연산부(12)는 추출된 피쳐로부터 피쳐 추출 과정인 인공 신경망(301)을 트레이닝한다. 따라서 인공 신경망(301)은 다음 타겟 이미지(201, 202)가 입력될 때 보다 나은 성능으로 피쳐를 추출할 수 있도록 트레이닝을 통해 개선된다. 이러한 트레이닝 과정을 도 3을 통해 설명한다.
도 3은 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 전체 트레이닝 과정을 나타낸 순서도이다.
도 3을 참조하면, 트레이닝용 이미지가 입력된다(S100). 트레이닝용 이미지는 입력부(11)를 통해 입력될 수도 있고, 저장부에 기 저장되어 있다가 제공될 수도 있다. 트레이닝용 이미지는 본 발명의 인공 신경망(301)과 유사판단부(123)의 교사적(supervised) 트레이닝에 쓰일 수 있도록 라벨링(labeling)되어 올바른 인식 결과가 무엇인지를 알 수 있는 이미지이다.
트레이닝부(122)로 입력된 트레이닝용 이미지는 인공 신경망(301)을 통과하고, 그 결과로 트레이닝용 피쳐가 추출된다(S200). 피쳐 추출 과정은 입력층(input layer)에서 트레이닝용 이미지를 인공 신경망(301)의 입력으로 제공하고, 인공 신경망(301)의 출력인 피쳐가 출력층(output layer)으로 제공되도록 연결하여 구성된다.
입력층은 이미지를 데이터의 형태로 받아들인다. 이미지 데이터는 이미지의 너비와 높이 및 색상 정보를 담고 있으므로 3차원 행렬로 나타낼 수 있고, 복수의 이미지를 사용하게 된다면 전체 이미지 데이터는 4차원 텐서(tensor) 데이터의 형태로 입력될 수 있다. 색상 정보는 RGB(Red, Green, Blue), CMYK(Cyan, Magenta, Yellow, blacK) 등으로 표현될 수 있으나 이에 제한되지 않으며, 이미지 데이터를 구성하는 방식도 상술한 내용에 한정되지 않는다.
본 발명의 일 실시예에 따른 차량 인식 장치(1)의 인공 신경망(301)은 특히 컨볼루셔널 신경망일 수 있으므로, 주어진 크기의 커널(kernel)과 이미지 데이터의 행렬곱을 구해 결과값을 연산하는 각종 컨볼루션 층, 주어진 커널 영역 내 최대값을 뽑아내는 맥스풀링(max pooling) 또는 다운 샘플링(down sampling) 층, 에버리지 풀링 층 등을 적층하여 구성될 수 있다.
인공 신경망(301)은 인공 신경망(301)을 구성하는 복수의 노드 또는 층 사이에서 배치 정규화(batch normalization) 연산을 더 수행할 수도 있다.
추출된 트레이닝용 피쳐는 트레이닝부(122)에 전달되고, 트레이닝부(122)는 추출된 트레이닝용 피쳐를 손실함수에 입력시킨 결과로부터 역전파를 통해 인공 신경망(301)을 트레이닝한다(S300).
트레이닝부(122)는, 추출된 트레이닝용 피쳐를 이용하여 유사판단부(123)의 조인트 베이지안의 파라미터를 트레이닝한다(S400). 그러나 추출된 트레이닝용 피쳐는 트레이닝된 인공 신경망(302)에 트레이닝용 이미지를 통과시켜 새로 얻어진 트레이닝용 피쳐일 수도 있다.
도 3에 대한 설명에서, 트레이닝용 이미지가 입력되어 트레이닝용 피쳐가 추출되고 이를 이용해 인공 신경망(301)과 조인트 베이지안을 트레이닝하는 것으로 설명하였으나, 타겟 이미지 및 타겟 피쳐 역시 트레이닝에 사용될 수 있다. 타겟 이미지와 타겟 피쳐를 이용하여 도메인 어댑테이션(Domain adaptation) 방식으로 트레이닝하는 과정에 대해서는 도 4 및 도 5에 대한 설명에서 트레이닝용 이미지를 이용해 트레이닝 하는 내용과 같이 자세히 설명한다.
도 4는 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 피쳐 추출부(121)에 대한트레이닝 과정을 나타낸 도면이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 차량 인식 장치(1)는 트레이닝용 이미지 데이터셋(23, 24)과 타겟 이미지 데이터셋(20)을 입력받을 수 있다. 트레이닝을 위해서는 다수의 데이터가 필요하므로, 데이터셋의 형태로 입력받는 것이다.
트레이닝용 이미지는 상술한 바와 같이 라벨링되어 올바른 인식 결과가 무엇인지를 알 수 있는 이미지이다. 따라서 트레이닝용 이미지가 인공 신경망(301) 및 유사판단부(123)를 거쳐 얻어진 결과와 라벨링 된 내용을 비교함으로써 오차를 판단할 수 있고, 본 발명의 연산부(12)가 올바른 결과를 낼 수 있도록 오차를 줄이는 방향으로 트레이닝이 가능한 것이다.
트레이닝용 이미지는 다시 차량 분류를 위한 삼중 쌍 트레이닝용 이미지와 유사판단부 트레이닝용 이미지로 나뉠 수 있다. 삼중 쌍(triplet) 트레이닝용 이미지는 차량 분류(vehicle classification)를 위해 사용되는 트레이닝 이미지로, 세 개의 이미지가 하나의 삼중 쌍을 이룬다. 삼중 쌍 이미지에 대한 자세한 설명은 도 5에 대한 설명에서 후술한다.
유사판단부 트레이닝용 이미지는 유사판단부(123)의 조인트 베이지안을 이용한 두 이미지의 유사판단의 성능을 향상시키기 위한 이미지로, 한 쌍(pair)을 이루는 것이 바람직하다.
트레이닝용 이미지와 타겟 이미지는 인공 신경망(301)을 통과하고, 통과한 결과로서 피쳐(311, 312, 313)가 얻어진다. 인공 신경망(301)을 통해 피쳐(311, 312, 313)가 얻어지는 과정은 도 3에 대한 설명에서 상술한 내용과 동일하다.
트레이닝용 이미지와 타겟 이미지는 각각 동일한 가중치(weight)를 가지는 인공 신경망(301)을 별도로 통과할 수 있는데, 서로 가중치를 공유하는 방식으로 동일성을 유지할 수 있다.
얻어진 트레이닝용 피쳐 중 삼중 쌍 트레이닝 피쳐(311)는 삼중 쌍 손실함수(41) 및 추출된 피쳐를 레퍼런스 이미지의 피쳐와 비교하여 어떠한 차량인지를 판단하는 차량 분류기(32)(vehicle classifier)로 전달될 수 있다. 삼중 쌍 트레이닝용 피쳐(311)는 차량 분류기(32)의 변환을 거쳐 완전연결층(fully connected layer)을 통과하여 차량 확률 벡터(35)가 되고, 차량 확률 벡터(35)는 분류 손실함수(42)로 전달된다.
손실함수(loss function)는 얻고자 하는 결과와 연산 결과의 차이를 손실 값(loss)으로 정의하여 상기 손실 값을 계산하는 함수이다. 현재 손실함수로 전달된 피쳐 또는 벡터는 라벨링 된 삼중 쌍 트레이닝용 이미지로부터 온 것이다. 따라서 얻고자 하는 올바른 결과와 실제 연산 결과를 모두 알 수 있으므로 연산 결과와의 올바른 결과의 차이인 오차(또는 손실 값)를 구할 수 있는 것이다.
삼중 쌍 손실함수(41)는 삼중 쌍 트레이닝용 피쳐에 대한 유클리드(Euclidean) 공간 내의 거리를 파라미터로 가지는 손실함수로, 거리 학습을 이용하여 입력된 이미지들이 서로 유사한 정도에 따라 서로 멀어지거나 가까워지도록 한다. 삼중 쌍 손실함수(41)를 이용한 거리 학습에 대해서는 도 6에 대한 설명에서 자세히 설명한다.
분류 손실함수(42)는 추출된 삼중 쌍 트레이닝용 피쳐(311)를 이용해 차종을 분류(classification)하고, 이를 통해 추출된 삼중 쌍 트레이닝용 피쳐(311)가 비롯된 차량과 실제 차량의 차이를 그 값으로 가진다. 분류 손실함수(42)로는 소프트맥스(Softmax) 함수가 사용되는 것이 바람직하나, 시그모이드(Sigmoid) 함수 등이 사용될 수도 있다.
각 손실함수로부터 얻은 값을 최소화 하는 방향으로 트레이닝부(122)는 인공 신경망(301)을 트레이닝한다. 트레이닝을 위해서, 본 발명의 트레이닝부(122)는 역전파를 사용한다. 역전파는 함수의 지역 최소값(local minima)을 찾는 함수 최적화 방법인 경사하강법(gradient descent)을 이용하기 위해 손실함수의 미분값을 구하여 이전의 네트워크 층으로 전달, 하위 네트워크 층으로 진행하면서 피드포워드(feedforward) 네트워크의 파라미터를 수정하도록 하는 방법이다. 따라서 역전파를 수행한 결과를 트레이닝부(122)가 인공 신경망(301)의 하위 층으로 전달해 나감으로써 인공 신경망(301)의 파라미터인 가중치가 수정되는 방식으로 트레이닝이 이루어진다. 메모리 문제로 모든 데이터를 일시에 이용하여 계산할 수 없는 문제가 있으므로, 트레이닝부(122)가 미니배치 단위마다 역전파 연산을 수행하도록 해서 계산횟수를 줄일 수도 있다.
본 발명의 일 실시예에 따른 차량 인식 장치(1)의 인공 신경망(301)에 대한 트레이닝 과정에서, 삼중 쌍 손실함수(41)와 분류 손실함수(42)가 모두 사용되는 조인트 트레이닝(joint training)이 이루어진다. 따라서 역전파를 통한 트레이닝이 이루어질 때 각자 일정한 가중치를 가지고 손실함수 값이 반영되며, 바람직하게는 분류 손실함수(42)가 삼중 쌍 손실함수(41)보다 두 배의 영향을 미칠 수 있도록 가중치를 구성한다.
조인트 트레이닝이 이루어짐으로써 거리학습을 통한 유사 차량간의 유사도 판단이 용이해짐과 동시에 어떠한 차량의 피쳐(311)인지를 변별력 있게 구분하는 성능의 향상을 얻을 수 있다. 또한 사람이 정한 기준이 아닌 인공 신경망(301)을 이용한 피쳐(311) 추출이 이루어지며 거리학습과 차량 분류가 같이 이루어지므로, 같은 차량의 다른 각도에서의 모습을 캡쳐한 이미지라도 잘 인식할 수 있는, 다중 뷰포인트 상황에서도 용이하게 인식이 가능한 차량 인식 성능을 얻을 수 있다. 이와 같이 삼중 쌍 트레이닝용 이미지를 이용한 삼중 쌍 트레이닝용 피쳐(311) 추출 및 트레이닝 과정(30)에 대해서는 도 5 및 도 6에서 보다 구체적으로 도시하였으므로, 도 5 및 도 6에 대한 설명에서 자세히 후술한다.
인공 신경망(301)을 통하여 추출된 피쳐(311, 312, 313)는 도메인 분류기(33, Domain classifier)에 제공될 수 있다. 도메인 분류기(33)는 입력된 피쳐가 어떤 이미지로부터 추출되었는지를 구분하여 그 결과값을 도메인 확률 벡터(34)(Domain probability vector)로 출력하고, 도메인 손실 함수로 전달하는 구성요소로, 도 7에서 그 작용에 대해서 자세히 설명한다.
도메인 손실 함수가 존재하므로, 마찬가지로 도메인 손실 함수의 값을 이용하여 역전파를 통해서 본 발명의 인공 신경망(301)을 트레이닝 할 수 있다.
도 5 및 도 6을 참조하여 삼중 쌍 트레이닝용 이미지를 이용한 피쳐(311, 312, 313) 추출 및 트레이닝 과정(30)에 대해서 구체적으로 설명한다.
도 5는 본 발명의 일 실시예에 따른 차량 인식 장치(1)가 삼중 쌍 이미지를 이용해 피쳐 추출부(121)를 트레이닝 하는 과정을 나타낸 도면이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 트레이닝에 사용되는 삼중 쌍 트레이닝 이미지가 앵커(anchor) 이미지(231), 같은 이미지(232, positive image), 다른 이미지(233, negative image)로 구성됨을 확인할 수 있다.
앵커 이미지(231)는 삼중 쌍 트레이닝용 이미지의 기준이 되는 이미지로, 같은 이미지(232)와 동일한 차량의 이미지로 구성된다. 반면 다른 이미지(233)는, 앵커 이미지(231) 및 같은 이미지(232)와 상이한 차량의 이미지로 구성된다.
삼중 쌍 트레이닝 이미지는 각자 인공 신경망(301)이 포함하는 신경망 피쳐 추출기(3011)를 통과하여 제1 1차 피쳐(3114)를 결과로 얻을 수 있다. 그러나 인공 신경망(301)은 기 설정된 영상 처리 방법, 즉 정해진 알고리즘(Hand-crafted feature)을 이용하여 피쳐를 추출하는 보조 피쳐 추출기(3012)를 더 포함하여 삼중 쌍 트레이닝 이미지로부터 제2 1차 피쳐(3115)를 결과로 얻을 수 있다. 제2 1차 피쳐(3115)는 색상과 질감에 관련된 특징일 수 있으나 이에 제한되지 않는다. 상기 기 설정된 영상 처리 방법 또는 정해진 알고리즘이란, SIFT, HOG, Haar, Ferns, LBP, MCT 등일 수 있으나 이에 제한되지 않는다.
제1 1차 피쳐(3114) 및 제2 1차 피쳐(3115)는 일렬로 합쳐지고(concatenation), 완전연결층에 통과시켜 하나의 삼중 쌍 트레이닝용 피쳐(3111, 3112, 3113)가 된다. 삼중 쌍 이미지는 총 3개의 이미지를 포함하므로, 삼중 쌍 트레이닝용 피쳐(3111, 3112, 3113)가 3개 추출되는 것이다.
추출된 삼중 쌍 트레이닝용 피쳐(3111, 3112, 3113)는 도 4에 대한 설명에서 상술한 바와 같이 삼중 쌍 손실함수(41)와 차량 식별기(32)에 전달된다.
도 6은 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 삼중 쌍 트레이닝용 피쳐를 이용해 피쳐 추출부(121)를 트레이닝한 결과를 개념적으로 나타낸 도면이다.
삼중 쌍 트레이닝용 피쳐(3111, 3112, 3113)는 각각 앵커 이미지(231)로부터 추출한 피쳐(3111), 같은 이미지(232)로부터 추출한 피쳐(3112), 다른 이미지(233)로부터 추출한 피쳐(3113)로 구성된다. 도 6은 이러한 피쳐(3111, 3112, 3113)를 개념적으로 유클리드 평면상에 나타낸 것으로, 각 피쳐(3111, 3112, 3113)간의 거리를 계산할 수 있다.
계산된 피쳐(3111, 3112, 3113)간의 거리 중, 앵커 이미지(231)로부터 추출한 피쳐(3111)와 같은 이미지(232)로부터 추출한 피쳐(3112)의 거리는 가까워지도록, 앵커 이미지(231)로부터 추출한 피쳐(3111)와 다른 이미지(233)로부터 추출한 피쳐(3113)의 거리는 멀어지도록 트레이닝부(122)가 삼중 쌍 손실 함수의 값으로부터 역전사를 통한 트레이닝을 수행한다.
도 7은 본 발명의 일 실시예에 따른 차량 인식 장치(1)가 도메인 어댑테이션을 이용해 피쳐 추출부(121)를 트레이닝하는 과정을 나타낸 도면이다.
도 7을 참조하면, 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 인공 신경망(301)을 트레이닝 하는 과정에는 도메인 분류기(33)로 피쳐(311, 312, 313)를 전송하는 과정이 포함되어 있다.
인공 신경망(301)을 통하여 피쳐(311, 312, 313)가 추출되는 이미지 데이터셋(20, 23, 24)의 종류는 살펴본 내용과 같이 트레이닝용 이미지와 타겟 이미지를 가리지 않는다. 다만 추출된 피쳐(311, 312, 313)가 어떠한 종류의 이미지 데이터셋(20, 23, 24)으로부터 추출된 것인지를 판단할 수 있는 도메인 분류기(33)가 존재하고, 손실함수(41, 42) 외에도 도메인 분류기(33)가 피쳐(311, 312, 313)를 더 입력받음으로써, 피쳐(311, 312, 313)로부터 판단한 결과를 도메인 확률 벡터(34)로 출력하여 도메인 손실함수(43)로 전달한다. 도메인 손실함수(43)는 소프트맥스 손실함수일 수 있으나, 이에 제한되지 않는다.
도메인 손실함수(43)가 존재하므로, 트레이닝부(122)는 도메인 손실함수(43)의 값을 이용하여 역전파를 통해 인공 신경망(301)을 트레이닝할 수 있다. 그러나 도메인 손실함수(43)로부터 트레이닝을 할 때, 그 목적은 도메인 분류기(33)에 입력된 피쳐가 어떤 종류의 이미지 데이터셋(20, 23, 24)으로부터 추출된 것인지를 도메인 분류기(33)가 잘 구분하지 못하도록 하는 방향이 된다. 즉, 전체 손실 값은 삼중 쌍 손실함수(41)와 분류 손실함수(42)의 손실 값에서 도메인 손실함수(43)의 손실 값을 일정 계수(λ)와 곱한 값을 감산한 값으로 정의될 수 있고, 트레이닝부(122)는 전체 손실 값을 최소화 하는 방향으로 역전파를 수행하여 인공 신경망(301)을 트레이닝 한다. 도메인 손실함수(43)의 손실 값에 대한 음의 계수(-λ)를 곱해주는 계산이 이루어지는 것이므로, 이러한 계산을 수행하는 그라디언트 역전층(Gradient reversal layer, 331)이 도메인 분류기(33) 이전에 존재한다.
이러한 트레이닝을 통해 도메인 분류기(33)는 점차 입력되는 피쳐(311, 312, 313)가 트레이닝용 이미지로부터 추출된 피쳐(311, 312)인지, 타겟 이미지로부터 추출된 피쳐(313)인지를 구분할 수 없게 되고, 타겟 피쳐(313)와 트레이닝용 피쳐(311, 312)의 분포가 유사해져 보다 성능이 좋은 타겟 피쳐(313)를 추출할 수 있는 인공 신경망(301)으로 트레이닝 된다. 또한 타겟 이미지 데이터셋(20)을 트레이닝용 데이터로 사용한 것이므로, 새로운 환경에서의 트레이닝용 데이터의 수를 늘려 더 좋은 성능의 인공 신경망(301)을 만들 수 있으며, 비교사적(unsupervised) 트레이닝이 일정 부분가능해진다.
이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 차량 인식 장치(1)의 유사판단부(123)를 트레이닝하는 과정에 대해 살펴본다.
도 8은 본 발명의 일 실시예에 따른 차량 인식 장치(1)가 유사판단부(123)를 트레이닝하고, 유사판단부(123)를 이용해 두 이미지로부터 차량의 유사도를 판단하는 과정을 나타낸 도면이다.
도 8을 참조하면, 인공 신경망(301)을 통해 유사판단부 트레이닝용 이미지데이터셋(24)으로부터 유사판단부 트레이닝용 피쳐(314)를 추출할 수 있음을 알 수 있다. 유사판단부 트레이닝용 피쳐(314)가 축적(51)되면, 트레이닝부(122)는 이를 유사판단부(123)의 조인트 베이지안(50)의 파라미터를 트레이닝하는데 사용할 수 있다. 유사판단부 트레이닝용 이미지 데이터셋(24)은 라벨링 되어있을 것이므로, 입력된 이미지의 유사여부를 이미 알고 있는 상태이다. 따라서 조인트 베이지안(50)이 발생시키는 오차가 최소화 되도록하는 조인트 베이지안(50)의 파라미터를 찾는 교사적(supervised) 방식으로 트레이닝이 이루어진다.
조인트 베이지안(50)에 대한 트레이닝이 이루어지고, 도 4에 대한 설명과 같이 인공 신경망(301)에 대해서도 트레이닝이 이루어지면, 트레이닝된 인공 신경망(302)을 포함하는 피쳐 추출부(121)에 비교하고자 하는 복수의 타겟 이미지(201, 202)를 타겟 이미지 데이터셋(20)으로부터 입력하여 복수의 타겟 피쳐(315, 316)를 추출한다. 추출된 복수의 타겟 피쳐(315, 316)를, 유사판단부(123)에서 트레이닝된 조인트 베이지안(50)을 이용해 유사도(52)로 산출하게 된다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
비록 본 발명이 상기 언급된 바람직한 실시예와 관련하여 설명되었지만, 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 따라서 첨부된 특허청구의 범위에는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.
1 : 차량 인식 장치 11 : 입력부
12 : 연산부 13 : 출력부
20 : 타겟 이미지 데이터셋
23 : 삼중 쌍 트레이닝용 이미지 데이터셋
24 : 유사판단부 트레이닝용 이미지 데이터셋
32 : 차량 분류기 33 : 도메인 분류기
34 : 도메인 확률 벡터 35 : 차량 확률 벡터
41 : 삼중 쌍 손실함수 42 : 분류 손실함수
43 : 도메인 손실함수 50 : 조인트 베이지안
52 : 유사도 121 : 피쳐 추출부
122 : 트레이닝부 123 : 유사판단부
131 : 디스플레이 장치 201, 202 : 타겟 이미지
231 : 앵커 이미지 232 : 같은 이미지
233 : 다른 이미지 301 : 인공 신경망
302 : 트레이닝된 인공 신경망 311~316 : 피쳐
3011 : 신경망 피쳐 추출기 3012 : 보조 피쳐 추출기
3114 : 제1 1차 피쳐 3115 : 제2 1차 피쳐

Claims (6)

  1. 복수의 타겟 이미지를 입력받는 입력부;
    복수의 트레이닝용 이미지를 입력받아 인공 신경망을 트레이닝하는 트레이닝부;
    상기 트레이닝된 인공 신경망을 이용하여 상기 복수의 타겟 이미지로부터 각각 타겟 피쳐를 추출하는 피쳐 추출부;
    조인트 베이지안(Joint Bayesian)을 이용하여 상기 복수의 타겟 피쳐의 유사도(similarity)를 산출하는 유사판단부; 및
    상기 산출된 유사도를 표시하는 출력부;를 포함하되,
    상기 트레이닝부는, 상기 인공 신경망을 통해 상기 복수의 트레이닝용 이미지로부터 추출된 복수의 트레이닝용 피쳐를 이용해 상기 인공 신경망을 트레이닝하는 삼중 쌍 손실함수(loss function) 및 분류 손실함수를 포함하며, 상기 복수의 트레이닝용 피쳐를 이용해 상기 유사판단부를 더 트레이닝하는, 차량 인식 장치.
  2. 제1 항에 있어서,
    상기 인공 신경망은, 기 설정된 기준에 따른 영상 처리 방법을 사용하는 보조 피쳐 추출기를 더 포함하는, 차량 인식 장치.
  3. 제1 항에 있어서,
    상기 인공 신경망은 컨볼루셔널 인공 신경망(Convolutional Neural Network)이고,
    상기 트레이닝부는, 상기 인공 신경망을 통해 상기 복수의 트레이닝용 이미지로부터 추출된 피쳐를 역전파(backpropagation) 함으로써 상기 인공 신경망을 트레이닝하는 차량 인식 장치.
  4. 제1 항에 있어서,
    상기 분류 손실함수는, 소프트맥스(Softmax) 함수인, 차량 인식 장치.
  5. 제1 항에 있어서,
    상기 트레이닝부는, 상기 복수의 타겟 이미지를 더 이용하여 도메인 어댑테이션(Domain adaptation) 방식을 통해 상기 인공 신경망을 더 트레이닝하는 차량 인식 장치.
  6. 제5 항에 있어서,
    상기 트레이닝부는, 상기 복수의 타겟 피쳐의 분포와 상기 복수의 트레이닝용 피쳐의 분포가 유사해지도록 상기 인공 신경망을 트레이닝하는 차량 인식 장치.
KR1020170070763A 2017-06-07 2017-06-07 기계 학습을 이용한 다중 뷰포인트 차량 인식 장치 KR20180133657A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170070763A KR20180133657A (ko) 2017-06-07 2017-06-07 기계 학습을 이용한 다중 뷰포인트 차량 인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170070763A KR20180133657A (ko) 2017-06-07 2017-06-07 기계 학습을 이용한 다중 뷰포인트 차량 인식 장치

Publications (1)

Publication Number Publication Date
KR20180133657A true KR20180133657A (ko) 2018-12-17

Family

ID=65007685

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170070763A KR20180133657A (ko) 2017-06-07 2017-06-07 기계 학습을 이용한 다중 뷰포인트 차량 인식 장치

Country Status (1)

Country Link
KR (1) KR20180133657A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569701A (zh) * 2018-12-29 2019-12-13 阿里巴巴集团控股有限公司 计算机执行的车辆定损方法及装置
WO2020149576A1 (ko) * 2019-01-17 2020-07-23 주식회사 엠제이비전테크 인공지능 기반 차량 검색 시스템
CN111598004A (zh) * 2020-05-18 2020-08-28 北京星闪世图科技有限公司 一种渐进增强自学习的无监督跨领域行人再识别方法
CN111967290A (zh) * 2019-05-20 2020-11-20 阿里巴巴集团控股有限公司 物体识别方法、装置及车辆
CN112733594A (zh) * 2020-12-01 2021-04-30 贵州电网有限责任公司 一种基于可变形卷积网络的机房人物重识别方法
KR20210050413A (ko) * 2019-10-28 2021-05-07 주식회사 마키나락스 비정상 데이터 생성 방법
CN115880661A (zh) * 2023-02-01 2023-03-31 天翼云科技有限公司 一种车辆匹配的方法及装置、电子设备、存储介质
US11625574B2 (en) 2019-10-28 2023-04-11 MakinaRocks Co., Ltd. Method for generating abnormal data
WO2023191542A1 (ko) * 2022-03-30 2023-10-05 라이트비전 주식회사 정체현상 없이 차량을 정확하게 식별하거나 식별자를 이용하는 주차 관리 시스템

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569701A (zh) * 2018-12-29 2019-12-13 阿里巴巴集团控股有限公司 计算机执行的车辆定损方法及装置
CN110569701B (zh) * 2018-12-29 2020-08-07 阿里巴巴集团控股有限公司 计算机执行的车辆定损方法及装置
WO2020149576A1 (ko) * 2019-01-17 2020-07-23 주식회사 엠제이비전테크 인공지능 기반 차량 검색 시스템
CN111967290A (zh) * 2019-05-20 2020-11-20 阿里巴巴集团控股有限公司 物体识别方法、装置及车辆
KR20210050413A (ko) * 2019-10-28 2021-05-07 주식회사 마키나락스 비정상 데이터 생성 방법
US11625574B2 (en) 2019-10-28 2023-04-11 MakinaRocks Co., Ltd. Method for generating abnormal data
CN111598004A (zh) * 2020-05-18 2020-08-28 北京星闪世图科技有限公司 一种渐进增强自学习的无监督跨领域行人再识别方法
CN111598004B (zh) * 2020-05-18 2023-12-08 江苏星闪世图科技(集团)有限公司 一种渐进增强自学习的无监督跨领域行人再识别方法
CN112733594A (zh) * 2020-12-01 2021-04-30 贵州电网有限责任公司 一种基于可变形卷积网络的机房人物重识别方法
WO2023191542A1 (ko) * 2022-03-30 2023-10-05 라이트비전 주식회사 정체현상 없이 차량을 정확하게 식별하거나 식별자를 이용하는 주차 관리 시스템
CN115880661A (zh) * 2023-02-01 2023-03-31 天翼云科技有限公司 一种车辆匹配的方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
KR20180133657A (ko) 기계 학습을 이용한 다중 뷰포인트 차량 인식 장치
CN109684924B (zh) 人脸活体检测方法及设备
US10002313B2 (en) Deeply learned convolutional neural networks (CNNS) for object localization and classification
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
Miao et al. ST-CNN: Spatial-Temporal Convolutional Neural Network for crowd counting in videos
US20230274577A1 (en) Device and method with image matching
WO2020125623A1 (zh) 活体检测方法、装置、存储介质及电子设备
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
JP7286010B2 (ja) 人体属性の認識方法、装置、電子機器及びコンピュータプログラム
US20070031032A1 (en) Method and apparatus for performing conversion of skin color into preference color by applying face detection and skin area detection
CN112052831B (zh) 人脸检测的方法、装置和计算机存储介质
CN109377555B (zh) 自主水下机器人前景视场三维重建目标特征提取识别方法
KR20180062647A (ko) 눈 검출 방법 및 장치
JP2004086891A (ja) デジタル画像におけるオブジェクト検出方法
KR20180037436A (ko) 다중 크기 컨볼루션 블록 층을 이용한 얼굴 인식 장치
KR101907883B1 (ko) 객체 검출 및 분류 방법
CN111611934A (zh) 一种人脸检测模型生成和人脸检测方法、装置及设备
Muñoz-Salinas et al. Multi-camera head pose estimation
JP7024736B2 (ja) 画像処理装置、および画像処理方法、並びにプログラム
US11334759B2 (en) Information processing apparatus, information processing method, and medium
CN114586072A (zh) 特征检测器和描述符
Gürel Development of a face recognition system
CN116486431A (zh) 基于目标感知融合策略的rgb-t多光谱行人检测方法
KR20230099369A (ko) 객체의 위치 추정을 위한 가려짐 판별과 객체 좌표 보정
CN114387535A (zh) 一种多模式识别系统及盲人眼镜

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application