KR20200056339A - 타겟 인식 방법 및 장치 - Google Patents

타겟 인식 방법 및 장치 Download PDF

Info

Publication number
KR20200056339A
KR20200056339A KR1020190145736A KR20190145736A KR20200056339A KR 20200056339 A KR20200056339 A KR 20200056339A KR 1020190145736 A KR1020190145736 A KR 1020190145736A KR 20190145736 A KR20190145736 A KR 20190145736A KR 20200056339 A KR20200056339 A KR 20200056339A
Authority
KR
South Korea
Prior art keywords
probability
target
image
pose angle
processor
Prior art date
Application number
KR1020190145736A
Other languages
English (en)
Other versions
KR102345760B1 (ko
Inventor
김문철
오지형
염광영
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20200056339A publication Critical patent/KR20200056339A/ko
Application granted granted Critical
Publication of KR102345760B1 publication Critical patent/KR102345760B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

타겟 인식 방법 및 장치가 개시된다. 일 실시예에 따른 타겟 인식 방법은, 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정하는 단계와, 제2 서브 네트워크를 통해 상기 타겟의 클래스에 연관된 클래스 조건부 확률을 추정하는 단계와, 상기 포즈 각도 확률 및 상기 클래스 조건부 확률에 기초하여 상기 타겟을 인식하는 단계를 포함한다.

Description

타겟 인식 방법 및 장치{TARGET RECOGNIZING METHOD AND APPARATUS}
아래 실시예들은 타겟 인식 방법 및 장치에 관한 것이다.
SAR(Synthetic Aperture Radar)은 감시 시스템(surveillance systems)에 널리 사용된다. 광학 원격 감지(ptical remote sensing)와 달리, SAR 이미지는 강력한 침투 특성(penetrating property)을 갖기 때문에 주야(day and night)의 모든 기상 조건에서 획득할 수 있다.
그러나, SAR 이미지는 종종 획득 과정(acquisition process)에서 전자파의 후방 산란(backscattering of electromagnetic wave)으로 인해 심한 스펙클 노이즈(speckle noise)가 발생한다. SAR 이미지에서 가혹한 스펙클 노이즈로 인해 SAR 이미지의 의미론적 의미(semantic meaning)를 직관적으로 이해하기가 어려운 경우가 많다.
SAR 이미지의 자동 타겟 인식은 SAR 이미지에서 타겟을 찾고 인식하는 데 사용된다. SAR ATR 문제는 종종 감지(detection), 식별(discrimination) 및 인식(recognition)의 세 가지 처리 단계로 구성된다.
검출 단계는 타겟 후보가 종종 발견되는 관심 영역(ROI)을 추출한다. 감지 단계를 위해, CFAR(constant false alarm rate) 검출기가 널리 사용된다. 주어진 ROI(Regions of Interest)에 대해, 식별 단계는 추출된 ROI에서 클러터(clutter)와 같은 비 타겟 영역들(non-target regions)을 제거한다.
식별 단계 후에, 인식 단계에서, ROI의 나머지 타겟 후보들(remaining target candidates)이 인식되고, 인식된 나머지 타겟 후보들을 사전 정의된 타겟 카테고리에 배치된다.
SAR ATR의 핵심 알고리즘은 인식 단계이다. 최근에, SAR 타겟의 인식을 위해 CNN이 사용되고 있으며, 유망한 결과를 보여준다.
종래의 연구에서, 타겟의 포즈 추정은 추정된 포즈 정보가 인식 성능을 향상시키기 위해 사용될 수 있는 타겟 인식 알고리즘에 대한 전처리 단계로서 취급되어왔다. 그러나, CNN에 기초한 최근의 연구는 SAR 이미지의 강도 정보만을 이용하고 타겟 인식을 위한 포즈 각도 정보를 고려하지 않았다.
실시예들은 이미지로부터 타겟을 인식하는 기술을 제공할 수 있다.
일 실시예에 따른 타겟 인식 방법은, 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정하는 단계와, 제2 서브 네트워크를 통해 상기 타겟의 클래스에 연관된 클래스 조건부 확률을 추정하는 단계와, 상기 포즈 각도 확률 및 상기 클래스 조건부 확률에 기초하여 상기 타겟을 인식하는 단계를 포함한다.
상기 포즈 각도 확률을 추정하는 단계는, 상기 포즈 각도를 양자화(quantize)하는 단계와, 상기 이미지에 대한 양자화된 포즈 각도의 확률을 추정함으로써 상기 포즈 각도 확률을 추정하는 단계를 포함할 수 있다.
상기 양자화하는 단계는, 0도부터 180도 사이의 포즈 각도를 미리 결정된 간격(interval)으로 균등하게 양자화하는 단계를 포함할 수 있다.
상기 클래스 조건부 확률을 추정하는 단계는, 상기 이미지에 컨볼루션 연산을 수행하여 특징 벡터를 생성하는 단계와, 상기 포즈 각도의 인덱스에 대응하는 원 핫 벡터를 생성하는 단계와, 상기 특징 벡터 및 상기 원 핫 벡터(one hot vector)에 기초하여 클래스 조건부 확률을 추정하는 단계를 포함할 수 있다.
상기 특징 벡터 및 상기 원 핫 벡터에 기초하여 포즈 각도 클래스 조건부 확률을 추정하는 단계는, 상기 특징 벡터와 상기 원 핫 벡터를 연결(concatenate)하여 입력 벡터를 생성하는 단계와, 상기 입력 벡터에 기초하여 상기 클래스 조건부 확률을 추정하는 단계를 포함할 수 있다.
상기 타겟 인식 방법은, 상기 제1 서브 네트워크 및 상기 제2 서브 네트워크를 학습시키기 위한 학습 데이터를 증강(augmentation)하는 단계를 더 포함할 수 있다.
상기 증강시키는 단계는, 상기 이미지를 회전시켜 복수의 회전 이미지를 생성하는 단계와, 상기 복수의 회전 이미지를 합성하여 포즈 합성 이미지를 생성하는 단계와, 상기 이미지를 임의로 크롭(crop)하는 단계와, 상기 이미지에 노이즈를 더하여 노이즈 합성 이미지를 생성하는 단계를 포함할 수 있다.
상기 인식하는 단계는, 상기 포즈 각도 확률과 상기 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 상기 타겟을 인식하는 단계를 포함할 수 있다.
상기 포즈 각도 확률과 상기 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 상기 타겟을 인식하는 단계는, 상기 타겟 확률에 기초한 손실 함수 및 상기 포즈 각도의 인덱스에 기초한 손실 함수에 기초하여 상기 타겟을 인식하는 단계를 포함할 수 있다.
상기 포즈 각도 확률은 상기 이미지에 대한 상기 포즈 각도의 조건부 확률을 포함하고, 상기 클래스 조건부 확률은 상기 포즈 각도 및 상기 이미지에 대한 상기 클래스의 조건부 확률을 포함할 수 있다.
일 실시예에 따른 타겟 인식 장치는, 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정하고, 제2 서브 네트워크를 통해 상기 타겟의 클래스에 연관된 클래스 조건부 확률을 추정하고, 상기 포즈 각도 확률 및 상기 클래스 조건부 확률에 기초하여 상기 타겟을 인식하는 프로세서와, 상기 프로세서에 의해 실행되는 인스트럭션을 저장하는 메모리를 포함한다.
상기 프로세서는, 상기 포즈 각도를 양자화(quantize)하고, 상기 이미지에 대한 양자화된 포즈 각도의 확률을 추정함으로써 상기 포즈 각도 확률을 추정할 수 있다.
상기 프로세서는, 0도부터 180도 사이의 포즈 각도를 미리 결정된 간격으로 균등하게 양자화할 수 있다.
상기 프로세서는, 상기 이미지에 컨볼루션 연산을 수행하여 특징 벡터를 생성하고, 상기 포즈 각도의 인덱스에 대응하는 원 핫 벡터를 생성하고, 상기 특징 벡터 및 상기 원 핫 벡터(one hot vector)에 기초하여 클래스 조건부 확률을 추정할 수 있다.
상기 프로세서는, 상기 특징 벡터와 상기 원 핫 벡터를 연결(concatenate)하여 입력 벡터를 생성하고, 상기 입력 벡터에 기초하여 상기 클래스 조건부 확률을 추정할 수 있다.
상기 프로세서는 상기 제1 서브 네트워크 및 상기 제2 서브 네트워크를 학습시키기 위한 학습 데이터를 증강(augmentation)할 수 있다.
상기 프로세서는, 상기 이미지를 회전시켜 복수의 회전 이미지를 생성하고, 상기 복수의 회전 이미지를 합성하여 포즈 합성 이미지를 생성하고, 상기 이미지를 임의로 크롭(crop)하고, 상기 이미지에 노이즈를 더하여 노이즈 합성 이미지를 생성할 수 있다.
상기 프로세서는, 상기 포즈 각도 확률과 상기 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 상기 타겟을 인식할 수 있다.
상기 프로세서는, 상기 타겟 확률에 기초한 손실 함수 및 상기 포즈 각도의 인덱스에 기초한 손실 함수에 기초하여 상기 타겟을 인식할 수 있다.
상기 포즈 각도 확률은 상기 이미지에 대한 상기 포즈 각도의 조건부 확률을 포함하고, 상기 클래스 조건부 확률은 상기 포즈 각도 및 상기 이미지에 대한 상기 클래스의 조건부 확률을 포함할 수 있다.
도 1은 일 실시예에 따른 타겟 인식 장치의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 타겟 인식 장치가 사용하는 네트워크 구조를 나타낸다.
도 3은 포즈 각도가 레이블링된 이미지의 예를 나타낸다.
도 4a는 데이터 증강을 위해 회전하기 전의 이미지의 예를 나타낸다.
도 4b는 데이터 증강을 위해 도 4a의 이미지를 회전시킨 이미지의 예를 나타낸다.
도 5a는 데이터 증강을 위해 포즈 합성을 수행하기 전의 이미지의 일 예를 나타낸다.
도 5b는 데이터 증강을 위해 포즈 합성을 수행하기 전의 이미지의 다른 예를 나타낸다.
도 5c는 데이터 증강을 위해 도 5a 와 도 5b의 이미지를 포즈 합성한 이미지의 예를 나타낸다.
도 6a는 데이터 증강을 크롭하기 전의 이미지의 예를 나타낸다.
도 6b는 데이터 증강을 위해 도 6a의 이미지를 크롭한 이미지의 예를 나타낸다.
도 7a는 데이터 증강을 위해 노이즈 합성을 수행하기 전의 이미지를 나타낸다.
도 7b는 데이터 증강을 위해 추정된 참(true) 이미지의 예를 나타낸다.
도 7c는 데이터 증강을 위해 도 7a와 도 7b를 이용하여 노이즈 합성된 이미지의 예를 나타낸다.
도 8은 도 1의 타겟 인식 장치의 동작의 순서도를 나타낸다.
도 9a는 도 2의 네트워크를 학습시키기 위해 사용된 이미지의 일 예를 나타낸다.
도 9b는 도 2의 네트워크를 학습시키기 위해 사용된 이미지의 다른 예를 나타낸다.
도 9c는 도 2의 네트워크를 학습시키기 위해 사용된 이미지의 또 다른 예를 나타낸다.
도 9d는 도 2의 네트워크를 학습시키기 위해 사용된 이미지의 또 다른 예를 나타낸다.
도 10은 포즈 각도 입력이 없는 베이스라인 네트워크의 구조를 나타낸다.
도 11은 실시예에 따른 타겟 인식률을 나타낸다.
도 12는 추정된 포즈 각도 확률에 기초한 포즈 각도 추정의 예를 나타낸다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
제1 또는 제2등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해서 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 실시예의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 실시예에 따른 타겟 인식 장치의 개략적인 블록도를 나타낸다.
도 1을 참조하면, 타겟 인식 장치(10)는 이미지를 수신하고, 이미지로부터 타겟을 인식할 수 있다.
이미지는 빛의 굴절이나 반사 등에 의하여 이루어진 물체의 상을 포함하는 것으로, 선이나 색채를 이용하여 사물의 형상을 나타낸 것을 의미할 수 있다. 이미지는 복수의 픽셀을 포함하여 컴퓨터가 처리할 수 있는 형태로 된 정보로 이루어질 수 있다. 예를 들어, 이미지는 SAR(Synthetic Aperture Radar) 이미지를 포함할 수 있다.
타겟은 이미지에 포함된 임의의 형체를 가진 물체를 포함할 수 있다.
타겟 인식 장치(10)는 이미지를 뉴럴 네트워크를 통해 분석함으로써 이미지에 포함된 타겟을 인식할 수 있다. 예를 들어, 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network(CNN))을 포함할 수 있다.
타겟 인식 장치(10)는 복수의 서브 네트워크로 구성된 뉴럴 네트워크를 이용하여 타겟을 인식할 수 있다. 복수의 서브 네트워크는 타겟의 포즈 각도와 클래스에 관련된 조건부 확률을 추정함으로써 타겟에 대한 인식률을 높일 수 있다.
타겟 인식 장치(10)는 이미지에 포함된 타겟의 포즈 각도를 이용하여 타겟의 클래스 확률을 추정할 수 있다. 구체적으로, 타겟 인식 장치(10)는 이미지에 포함된 타겟의 조건부 확률을 포즈 각도에 대하여 마지널라이즈(marginalize)하는 서브 네트워크를 이용하여 타겟을 인식할 수 있다.
복수의 서브 네트워크는 각각 클래스 조건부 확률(class conditional probability)과 포즈 각도 확률((pose angle probability))을 추정할 수 있다. 복수의 서브 네트워크는 엔드-투-엔드 방식으로 공동으로 학습될 수 있다.
복수의 서브 네트워크에 대해서는 도 2를 참조하여 자세하게 설명한다.
타겟 인식 장치(10)는 복수의 서브 네트워크를 통해 포즈 각도 정보를 내부적으로 추론하고, 이를 타겟 인식에 활용하여 타겟 인식의 성능을 향상시킬 수 있다.
타겟 인식 장치(10)는 프로세서(100) 및 메모리(200)를 포함한다.
프로세서(100)는 메모리(200)에 저장된 데이터를 처리할 수 있다. 프로세서(100)는 메모리(200)에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(100)에 의해 유발된 인스트럭션(instruction)들을 실행할 수 있다.
"프로세서(100)"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.
예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(100)는 복수의 서브 네트워크를 포함하는 뉴럴 네트워크를 학습시킬 수 있다. 예를 들어, 복수의 서브 네트워크는 제1 네트워크 및 제2 네트워크를 포함할 수 있다. 프로세서(100)는 학습된 뉴럴 네트워크를 이용하여 이미지로부터 타겟을 인식할 수 있다.
프로세서(100)는 뉴럴 네트워크를 학습시키기 위한 학습 데이터를 생성할 수 있다. 프로세서(100)는 이미지를 처리하여 학습 데이터를 증강(augmentation)시킴으로써 학습 데이터를 생성할 수 있다.
예를 들어, 프로세서(100)는 제1 서브 네트워크 및 상기 제2 서브 네트워크를 학습시키기 위한 학습 데이터를 증강(augmentation)할 수 있다. 학습 데이터의 증강은 다음의 4 가지 방법 중 적어도 하나를 포함할 수 있다.
첫 번째로, 프로세서(100)는 이미지를 회전시켜 복수의 회전 이미지를 생성할 수 있다. 두 번째로, 프로세서(100)는 복수의 회전 이미지를 합성하여 포즈 합성 이미지를 생성할 수 있다. 세 번째로, 프로세서(100)는 이미지를 임의로 크롭(crop)할 수 있다. 네 번째로, 프로세서(100)는 이미지에 노이즈를 더하여 노이즈 합성 이미지를 생성할 수 있다.
프로세서(100)는 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정할 수 있다.
프로세서(100)는 포즈 각도를 양자화(quantize)할 수 있다. 예를 들어, 프로세서(100)는 0도부터 180도 사이의 각도를 미리 결정된 간격(interval)으로 균등하게 양자화할 수 있다.
프로세서(100)는 이미지에 대한 양자화된 포즈 각도의 확률을 추정함으로써 포즈 각도 확률을 추정할 수 있다.
프로세서(100)는 제2 서브 네트워크를 통해 타겟의 클래스에 연관된 클래스 조건부 확률을 추정할 수 있다.
포즈 각도 확률은 이미지에 대한 포즈 각도의 조건부 확률을 포함하고, 클래스 조건부 확률은 포즈 각도 및 이미지에 대한 클래스의 조건부 확률을 포함할 수 있다. 포즈 각도 및 클래스 조건부 확률은 도 2를 참조하여 상세하게 설명한다.
프로세서(100)는 이미지에 컨볼루션 연산을 수행하여 특징 벡터를 생성할 수 있다. 프로세서(100)는 포즈 각도의 인덱스에 대응하는 원 핫 벡터를 생성할 수 있다.
프로세서(100)는 특징 벡터 및 원 핫 벡터(one hot vector)에 기초하여 클래스 조건부 확률을 추정할 수 있다. 구체적으로, 프로세서(100)는 특징 벡터와 원 핫 벡터를 연결(concatenate)하여 입력 벡터를 생성할 수 있다. 프로세서(100)는 입력 벡터에 기초하여 클래스 조건부 확률을 추정할 수 있다.
프로세서(100)는 포즈 각도 확률 및 클래스 조건부 확률에 기초하여 타겟을 인식할 수 있다. 프로세서(100)는 포즈 각도 확률과 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 타겟을 인식할 수 있다.
구체적으로, 프로세서(100)는 타겟 확률에 기초한 손실 함수 및 포즈 각도의 인덱스에 기초한 손실 함수에 기초하여 타겟을 인식할 수 있다.
메모리(200)는 프로세서(100)에 의해 실행되는 인스트럭션들(또는 프로그램)을 저장할 수 있다. 예를 들어, 인스트럭션들은 프로세서(100)의 동작 및/또는 프로세서(100)의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.
메모리(200)는 휘발성 메모리 장치 또는 불휘발성 메모리 장치로 구현될 수 있다.
휘발성 메모리 장치는 DRAM(dynamic random access memory), SRAM(static random access memory), T-RAM(thyristor RAM), Z-RAM(zero capacitor RAM), 또는 TTRAM(Twin Transistor RAM)으로 구현될 수 있다.
불휘발성 메모리 장치는 EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시(flash) 메모리, MRAM(Magnetic RAM), 스핀전달토크 MRAM(Spin-Transfer Torque(STT)-MRAM), Conductive Bridging RAM(CBRAM), FeRAM(Ferroelectric RAM), PRAM(Phase change RAM), 저항 메모리(Resistive RAM(RRAM)), 나노 튜브 RRAM(Nanotube RRAM), 폴리머 RAM(Polymer RAM(PoRAM)), 나노 부유 게이트 메모리(Nano Floating Gate Memory(NFGM)), 홀로그래픽 메모리(holographic memory), 분자 전자 메모리 소자(Molecular Eelectronic Memory Device), 또는 절연 저항 변화 메모리(Insulator Resistance Change Memory)로 구현될 수 있다.
이하에서, 도 2 및 도 3을 참조하여, 타겟 인식 장치(10)의 전반적인 동작을 설명한다.
도 2는 도 1에 도시된 타겟 인식 장치가 사용하는 네트워크 구조를 나타내고, 도 3은 포즈 각도가 레이블링된 이미지의 예를 나타낸다.
도 2 및 도 3을 참조하면, 프로세서(100)는 복수의 서브 네트워크를 이용하여 타겟의 포즈 각도와 클래스에 관련된 확률을 추정함으로써 타겟을 인식할 수 있다.
이하에서, 복수의 서브 네트워크가 제1 서브 네트워크(110) 및 제2 서브 네트워크(130)를 포함하여 타겟을 인식하는 과정에 대하여 설명한다.
제1 서브 네트워크(110)는 포즈 각도 확률을 추정할 수 있다. 편의상, 제1 서브 네트워크는 PP sub-net으로 명명될 수 있고, 제2 서브 네트워크(130)는 클래스 조건부 확률을 추정할 수 있다. 편의상 제2 서브 네트워크는 CP sub-net으로 명명될 수 있다.
제1 서브 네트워크(110) 및 제2 서브 네트워크(130)는 컨볼루션 뉴럴 네트워크에 기반하여 구현될 수 있다. 이하에서 제1 서브 네트워크(110) 및 제2 서브 네트워크(130)의 구조 및 이들이 사용하는 연산에 대하여 설명한다.
프로세서(100)는 컨볼루션 뉴럴 네트워크를 이용함으로써 MLP(Multi-Layer Perceptron)와 달리 가중치와 지역 연결(local connectivity)을 공유함으로써 지역 특징들을 효과적으로 추출할 수 있다.
프로세서(100)가 사용하는 컨볼루션 레이어는 맥스 풀링(max-pooling) 레이어, FC(Fully-Connected) 레이어 및 소프트맥스(softmax) 레이어를 포함할 수 잇다.
컨볼루션 레이어는 입력 특징(input feature)들과 가중치(weight)들의 컨볼루션을 계산할 수 있다. 컨볼루션 레이어의 계산은 수학식 1과 같이 나타낼 수 있다.
Figure pat00001
여기서, W, b, x, 및 y는 각각 컨볼루션 필터의 가중치들, 바이어스, 입력 및 출력을 의미할 수 있다. 또한, k, c, i, j, m 및 n은 각각 출력 채널들, 입력 채널들, 수평 방향으로 입력, 수직 방향으로 입력, 수평 방향으로 가중치들 및 수직 방향으로 가중치들을 의미할 수 있다.
수학식 1의 매핑 함수
Figure pat00002
는 비선형 활성화 함수일 수 있다. 예를 들어, 프로세서(100)는 각 컨볼루션 레이어와 각 FC 레이어 뒤에 ReLU(Rectified Linear Unit) 활성화 함수를 사용한다. ReLU 활성화 함수는 수학식 2와 같이 나타낼 수 있다.
Figure pat00003
FC 레이어들은 MLP와 유사하고 분류기(classifier)의 역할을 하는 CNN의 출력 레이어에 가까운 뒷 단의 레이어들(latter layers)로 종종 사용된다. FC 레이어의 연산은 수학식 3과 같이 나타낼 수 있다.
Figure pat00004
여기서 W, b, x 및 y는 각각 필터 가중치들, 바이어스, 입력 및 출력을 의미할 수 있다. FC 레이어는 수학식 1에서 i와 j가 1 일 때 컨볼루션 레이어로 해석될 수도 있다.
즉, FC 레이어는 단순한 1x1 컨볼루션 레이어와 동일한 연산을 수행할 수 있다. CNN 가중치들의 훈련을 정형화(regularize)하는데 있어, 가중치의 과적합(overfitting)을 피하기 위해 드랍아웃 기법(dropout technique)이 FC 레이어에 사용될 수 있다.
프로세서(100)가 CNN을 학습(또는, 훈련)시키면, 일부 특징맵들이 사전 결정된 확률로 무작위로 비활성화될 수 있다. 프로세서(100)는 드랍아웃 기법을 사용한 학습 과정에서, CNN을 통해 더 적은 수의 필터 파라미터들을 조정할 수 있어, 과적합 문제를 완화하고 인식 성능을 향상시킬 수 있다.
CNN의 맥스 풀링 레이어는 노이즈에 강하고 변환(translation)에 의해 변경되지 않는 두드러진 특징을 추출할 수 있다. 맥스 풀링 레이어는 모든 특징 맵들의 로컬 영역 내 최대 값을 추출하므로, 특징 맵들을 공간적으로 줄일 수 있다. 맥스 풀링 레이어의 연산은 수학식 4와 같이 나타낼 수 있다.
Figure pat00005
여기서, P와 s는 각각 풀링 윈도우 사이즈(PxP)와 스트라이드 사이즈(stride size)를 의미할 수 있다.
CNN의 소프트맥스 레이어는 마지막 FC 레이어의 특징 값들을 최종 출력 값들로 변환하는데 사용될 수 있다. 소프트맥스 레이어는 특징 값들을 출력 레이어의 최종 값들로 정규화(normalize)할 수 있다.
소프트맥스 레이어의 연산은 수학식 5와 같이 나타낼 수 있다.
Figure pat00006
수학식 5에서, 모든 출력 노드들에 대한 yk의 합이 1이므로, 소프트맥스 레이어의 출력yk는 k 번째 클래스의 사후 확률(posterior probability)로 간주될 수 있다.
분류기(classfier)로서의 CNN의 손실 함수(loss function)의 경우, 프로세서(100)는 CNN의 실제 클래스 분포(true class distribution)와 출력 분포(output distribution) 사이의 차이를 계산하기 위해 교차 엔트로피(cross-entropy)를 사용할 수 있다. 교차 엔트로피는 수학식 6과 같이 계산될 수 있다.
Figure pat00007
여기서, Pc와 xc는 각각 출력 레이어에서 노드 c의 실제 확률(true probability)과 출력 값(output value)을 나타낼 수 있다.
이하에서, 프로세서(100)가 도 2에 도시된 뉴럴 네트워크를 이용하여 타겟을 인식하는 과정에 대하여 설명한다.
포즈 각도는 타겟 인식에 대한 중요한 정보를 포함하는 타겟 강도 산란(target intensity scattering)의 특성에 큰 영향을 미치는 중요한 특징이 될 수 있다.
종래 일부 연구는 타겟 인식 문제에 대하여 포즈 각도를 통합했지만, 최근의 딥 러닝 기반 접근법은 타겟 인식을 위해 이미지의 강도 값을 사용했다.
프로세서(100)는 뉴럴 네트워크를 통해 포즈 각도 정보를 타겟 인식에 통합할 수 있다.
포즈 각도가 타겟 인식을 위한 잠재적인 특징이기 때문에 프로세서(100)는 수학식 7과 같이 포즈 각도를 타겟 인식과정에 포함시킬 수 있다.
Figure pat00008
여기서, X, Y 및 θ는 각각 입력 SAR 이미지, 실제 타겟 클래스(true target class) 및 포즈 각도를 나타내는 임의의 변수를 의미할 수 있다. 수학식 7의 마지널리제이션(marginalization)은 휴리스틱 가정(heuristic assumption)이 필요하지 않을 수 있다.
프로세서(100)는 타겟 인식을 위해 수학식 7 베이즈 규칙(Bayes rule)에 기초하여 타겟 클래스 확률을 학습하는 CNN 기반 타겟 인식 네트워크를 이용할 수 있다.
프로세서(100)는 상술하 것과 같이 복수의 서브 네트워크를 이용하여 타겟을 인식할 수 있다. 수학식7에 따르면 복수의 서브 네트워크는 제1 서브 네트워크(110) 및 제2 서브 네트워크(130)를 포함할 수 있다.
제1 서브 네트워크(110)는 입력 이미지의 포즈 각도 확률을 추정하도록 학습될 수 있다. 제2 서브 네트워크(130)는 모든 포즈 각도에 대한 입력 이미지의 클래스 조건부 확률을 추정하도록 학습될 수 있다.
이하에서, 각 서브 네트워크들의 동작을 상세하게 설명한다.
제1 서브 네트워크(110)는 각 이미지를 입력으로 취한 다음 0°에서 180° 사이의 이산 포즈 각도들(discretized pose angles)에 대한 확률을 추정할 수 있다. 프로세서(100)는 타겟에 대한 포즈 각도들을 0°에서 180° 사이에서 균일하게 양자화된 간격(uniformly quantized interval)으로
Figure pat00009
개의 이산 각도로 양자화할 수 있다.
이 때, 포즈 각도의 간격은
Figure pat00010
에 대해
Figure pat00011
로 표시된다. 그러므로, i 번째 포즈 각도 간격에서 양자화된 포즈 각도는
Figure pat00012
로 나타낼 수 있다.
프로세서(100)는 각 양자화된 포즈 각도
Figure pat00013
Figure pat00014
카테고리들의
Figure pat00015
로 표시된 i 번째 포즈 각도 클래스(레이블)로 지정할 수 있다.
도 3은 포즈 각도 값을 포즈 각도 클래스에 레이블링한 예를 나타낼 수 있다.
프로세서(100)는 제1 서브 네트워크(110)를 수학식 7의
Figure pat00016
에 대응하는 포즈 각도 레이블의 실제 확률을 추론하도록 학습시킬 수 있다.
제2 서브 네트워크(130)는 이미지와 포즈 각도 인덱스에 따라 조정된 타겟 클래스 확률을 추정할 수 있다. C- 클래스 분류 문제에 대하여 프로세서(100)는 각 타겟 이미지에 타겟 유형(target type)에 따라 클래스 인덱스를 지정할 수 있다.
예를 들어, 프로세서(100)는 BMP-2 타겟에 첫 번째 클래스를 지정하고, BTR70 타겟에 두 번째 클래스를 할당할 수 있다. 그 후, 프로세서(100)는 제2 서브 네트워크(130)가 각 포즈 각도 인덱스에 대하여 입력 이미지의 모든 타겟 클래스 확률을 추정하도록 학습시킬 수 있다.
포즈 각도 정보는 입력 이미지의 전역 특성(global characteristic)을 나타낼 수 있는 상위 레벨 특징(high-level feature) 중 하나일 수 있다.
타겟 인식에서 포즈 각도 정보를 효율적으로 활용하기 위해, 프로세서(100)는 각 입력 이미지를 제2 서브 네트워크(130)는 도 2와 같이 5 개의 연속적인(consequent) 컨볼루션 레이어에 통과시켜 상위 레벨 50 차원(dimensional) 특징 벡터를 획득할 수 있다.
프로세서(100)는 포즈 각도의 인덱스에 대응하는 원 핫 벡터(one hot vector)를 생성할 수 있다. 프로세서(100)는 포즈 각도의 인덱스를 변환하여
Figure pat00017
개의 원 핫 벡터를 생성할 수 있다.
프로세서(100)는 생성환원 핫 벡터를 50 차원의 특징 벡터에 연결(concatenate)시킬 수 있다. 프로세서(100)는 연결된 (50 +
Figure pat00018
) 차원 벡터를 도 2에 도시된 내부 루프 서브 네트워크에 공급할 수 있다.
내부 루프 서브-넷은 도 2에 도시된 3 개의 연속된 FC 레이어를 통해 모든 포즈 각도 인덱스(i = 0, ···,
Figure pat00019
-1)에 대한 입력 이미지의 클래스 조건부 확률
Figure pat00020
을 추론할 수 있다.
즉, 내부 루프 서브넷은 포즈 각도의 인덱스인 i = 0, ···,
Figure pat00021
-1에 대해
Figure pat00022
를 반복적으로 총
Figure pat00023
추론할 수 있다.
제2 서브 네트워크(130)는 각 성분(element)이 열 벡터(column vector)의 형태를 갖는 행 벡터(row vector)
Figure pat00024
로 표현되는
Figure pat00025
개의 클래스 조건부 확률 벡터를 생성할 수 있다. 즉,
Figure pat00026
Figure pat00027
행렬이 될 수 있다.
도 2의 행렬-벡터 곱셈기는 수학식 7에서 포즈 각도 변수에 대한 클래스 조건부 확률을 마지널라이징(marginalizing)할 수 있다.
행렬-벡터 곱셈기는 제1 서브 네트워크(110)와 제2 서브 네트워크(130)의 출력을 입력 받아, 이 두 입력에 대해 행렬 벡터 곱셈을 수행하여 수학식 7에 따른 모든 타겟 클래스에 대한 입력 이미지의 확률을 추론할 수 있다.
수학식 7의 마지널리제이션은 c 번째 실제 타겟 클래스 yc에 대한 입력 이미지 X에 대해 수학식 8과 같이 표현될 수 있다.
Figure pat00028
모든 C 개의 클래스들에 대한 수학식 8에서 클래스 조건부 확률
Figure pat00029
은 수학식 9와 같이 열 벡터 형식으로 표현될 수 있다.
Figure pat00030
마지막으로, 앞에서 언급했듯이, 모든 C 클래스에 대한 사후 확률(posterior probability)
Figure pat00031
은 수학식 10과 같이 행렬-벡터 곱셈(matrix-vector multiplication)으로 표현될 수 있다.
Figure pat00032
여기서,
Figure pat00033
와 같이 표현될 수 있고,
Figure pat00034
은 수학식 11과 같이 정의될 수 있다.
Figure pat00035
수학식 10에서 행렬-벡터 곱셈 형태는 미분 가능(differentiable)하며, 프로세서(100)는 수학식 10의 행렬-벡터 곱셈의 역 전파(backpropagation)를 통해 뉴럴 네트워크를 학습시킬 수 있다.
이를 통해, 프로세서(100)는 뉴럴 네트워크가 수학식 10의 두 확률인
Figure pat00036
Figure pat00037
에 기초하여 사후 확률(posterior probability)
Figure pat00038
을 마지널라이즈 할 수 있다.
학습을 위해, 프로세서(100)는 도 2의 뉴럴 네트워크에서 포즈 각도 확률과 실제 타겟 클래스 확률을 추정하기 위해 손실 함수(loss junction)로서 2 개의 교차 엔트로피를 통합할 수 있다. 두 개의 교차 엔트로피 손실 함수는 수학식 12와 같이 정의될 수 있다.
Figure pat00039
여기서 L1은 교차 엔트로피 함수를 나타내고, Pc는 c 번째 실제 타겟 클래스 확률을 나타내고,
Figure pat00040
는 수학식 8에 기초하여 계산되는 추정된 타겟 확률에 대응될 수 있다.
수학식 12의 L2는 또 다른 교차 엔트로피 함수이고, 여기서 Pi는 i 번째 실제 포즈 인덱스 확률(i-th true pose index probability)을 나타내고,
Figure pat00041
는 i 번째 실제 포즈 인덱스 확률에 대응하는 추정된 포즈 인덱스 확률(estimated pose index probability)을 나타낼 수 있다.
제2 서브 네트워크(130)는 L1에 의해서만 영향을 받는 반면, 제1 서브 네트워크(110)는 L1 및 L2를 모두 최소화도록 학습될 수 있다. 따라서, 제1 서브 네트워크(110)를 위한 결합 손실(combined loss) Lpe가 수학식 13과 같이 정의될 수 있다.
Figure pat00042
여기서, α 및 β는 α+β=1을 만족하는 가중치 값들(weighting values)로 실험적으로 결정될 수 있다. 예를 들어, α 및 β는 각각 0.3, 0.7일 수 있다.
이하에서는, 프로세서(100)가 뉴럴 네트워크를 학습시키는 과정에 대해서 설명한다.
프로세서(100)는 두 개의 서브 네트워크들의 필터 파라미터들에 대한 L1 및 L2의 도함수들(derivatives)을 이용한 역전파에 기초하여 뉴럴 네트워크를 학습시킬 수 있다.
모든 학습 샘플들은 각각의 크기가
Figure pat00043
인 미니-배치들의 그룹(group of mini-batches)으로 나뉠 수 있다.
Figure pat00044
Figure pat00045
가 각각 제1 서브 네트워크(110)와 제2 서브 네트워크(130)의 필터 파라미터인 경우, 수학식 8은 수학식 14와 같이 새롭게 나타낼 수 있다.
Figure pat00046
여기서,
Figure pat00047
는 l-번째 학습 미니-배치에서의 j-번째 이미지 샘플을 의미할 수 있다. 이 경우, 수학식 12의 L1과 L2의 두 손실은 수학식 15 및 수학식 16과 같이 새롭게 나타낼 수 있다.
Figure pat00048
Figure pat00049
수학식 15 및 수학식 16에서 확인할 수 있듯이, L2
Figure pat00050
만의 함수일 뿐이고, L1
Figure pat00051
Figure pat00052
모두에 의존할 수 있다. 따라서, L1 및 L2
Figure pat00053
Figure pat00054
에 대하여 수학식 17 내지 19와 같이 미분될 수 있다.
Figure pat00055
Figure pat00056
Figure pat00057
프로세서(100)는 학습을 수행하는 동안, 수학식 17-19의 도함수들(derivatives)에 기초하여, 제1 서브 네트워크(110) 및 제2 서브 네트워크(130)의 필터 파라미터
Figure pat00058
Figure pat00059
를 역전파를 통해 업데이트할 수 있다.
이하에서, 도 4a 내지 도 7c를 참조하여, 프로세서(100)가 데이터를 증강하는 과정을 설명한다.
도 4a는 데이터 증강을 위해 회전하기 전의 이미지의 예를 나타내고, 도 4b는 데이터 증강을 위해 도 4a의 이미지를 회전시킨 이미지의 예를 나타낸다.
도 5a 데이터 증강을 위해 포즈 합성을 수행하기 전의 이미지의 일 예를 나타내고, 도 5b는 데이터 증강을 위해 포즈 합성을 수행하기 전의 이미지의 다른 예를 나타내고, 도 5c는 데이터 증강을 위해 도 5a 와 도 5b의 이미지를 포즈 합성한 이미지의 예를 나타낸다.
도 6a는 데이터 증강을 크롭하기 전의 이미지의 예를 나타내고, 도 6b는 데이터 증강을 위해 도 5a의 이미지를 크롭한 이미지의 예를 나타낸다.
도 7a는 데이터 증강을 위해 노이즈 합성을 수행하기 전의 이미지를 나타내고, 도 7b는 데이터 증강을 위해 추정된 참(true) 이미지의 예를 나타내고, 도 7c는 데이터 증강을 위해 도 7a와 도 7b를 이용하여 노이즈 합성된 이미지의 예를 나타낸다.
도 4a 및 도 7c를 참조하면, 상술한 바와 같이, 프로세서(100)는 4 가지 방법에 의하여 학습 데이터를 증강시킬 수 있다. 위에서 설명한 것과 같이, 4 가지 데이터 증강 방법은 회전(rotation), 포즈 합성(pose synthesis), 임의 크롭핑(random cropping), 및 노이즈 합성(noise synthesis)일 수 있다.
도 4a 및 도 4b는 회전을 통한 데이터의 증강의 예를 나타낼 수 있다. 프로세서(100)는 작은 각도 내에서 이미지들을 무작위로 회전시켜 스펙클 포인트들(speckle points)과 그림자들(shadows) 간의 관계를 유지함으로써 새로운 데이터를 생성할 수 있다. 예를 들어, 작은 각도는 15도일 수 있다.
도 5a 내지 도 5c는 포즈 합성을 통한 데이터 증강의 예를 나타낼 수 있다. 포즈 합성을 통한 데이터 증강은 회전 데이터 증강과 유사한데, 프로세서(100)는 인접한 두 이미지의 각도 사이에 있는 각도에서 새로운 이미지 데이터를 생성함으로써 포즈 합성을 수행할 수 있다.
예를 들어, 프로세서(100)는 이웃하는 각도(예를 들어, 20° 및 24°)를 갖는 2 개의 이미지를 동일한 포즈 각도를 갖도록 동일한 각도(예를 들어, 21°)로 회전시킬 수 있다. 그 후, 프로세서(100)는 21°의 각도로 회전된 2 개의 이미지의 가중치 합에 의해 새로운 이미지를 생성할 수 있다.
프로세서(100)는 20°에서 21°로 회전한 이미지에 더 많은 가중치(예를 들어, 0.75)를 적용하고, 24°에서 21°로 회전한 가중치에 더 적은 가중치(예를 들어, 0.25)를 적용할 수 있다.
포즈 합성을 통한 데이터 증강은 수학식 20과 같이 나타낼 수 있다.
Figure pat00060
여기서,
Figure pat00061
은 기존 2 개의 이미지
Figure pat00062
,
Figure pat00063
를 각각
Figure pat00064
에서
Figure pat00065
로 회전 시키고,
Figure pat00066
에서
Figure pat00067
로 회전하여 획득된 두 회전 이미지
Figure pat00068
,
Figure pat00069
의 가중치 합을 의미할 수 있다. 다시 말해,
Figure pat00070
는 타겟 각도
Figure pat00071
에서 포즈 합성된 이미지를 의미할 수 있다.
여기서,
Figure pat00072
는 이미지를 각도
Figure pat00073
에서 타겟 각도
Figure pat00074
로 회전시키는 회전 연산자(rotation operator)를 의미할 수 있다.
도 6a 및 도 6b는 이미지의 크롭을 통한 데이터의 증강의 예를 나타낼 수 있다.
이미지의 크롭은 임의 크롭핑을 의미할 수 있다. 프로세서(100)는 128 × 128 크기의 이미지를 88 × 88 크기로 무작위로 크롭핑하여 여러 개의 동일한 이미지를 생성함으로써 데이터를 증강할 수 있다.
도 7a 내지 도 7c는 노이즈 합성을 통한 데이터의 증강의 예를 나타낼 수 있다.
프로세서(100)는 주어진 지수 분포로부터 샘플링된 새로운 노이즈를 추가하여 새로운 이미지들을 생성함으로써 데이터를 증강할 수 있다. 프로세서(100)가 샘플링에 이용하는 지수 분포는 수학식 21과 같이 나타낼 수 있다.
Figure pat00075
여기서,
Figure pat00076
Figure pat00077
는 추정된 이미지의 실제 픽셀 값과, 관찰된 이미지의 픽셀 값을 의미할 수 있다. 예를 들어, 이미지가 SAR 이미지인 경우에,
Figure pat00078
는 입력 이미지의 추정된 실제 SAR 픽셀 값(estimated true SAR pixel value)을 나타내고,
Figure pat00079
는 관찰된 SAR 값(observed SAR value)을 의미할 수 있다.
프로세서(100)는 주어진 이미지에 대하여 중간 필터링(median filtering) 또는 평균 필터링(mean filtering)을 통해 원본의 노이지한 이미지(original noisy image)에 대한 실제 픽셀 값들을 추정할 수 있다.
그 후, 프로세서(100)는 노이즈를 추정된 실제 이미지의 픽셀 값들에 곱하는 대신 수학식 21에 따라 픽셀 값들을 다시 샘플링(resample)할 수 있다.
프로세서(100)는 상술한 4 가지 방식의 데이터 증강 알고리즘의 조합을 이용하여 방대한 양의 학습 이미지 데이터를 생성할 수 있다. 이를 통해, 프로세서(100)는 뉴럴 네트워크를 올바르게 훈련시켜 과적합 문제를 피할 수 있다.
도 8은 도 1의 타겟 인식 장치의 동작의 순서도를 나타낸다.
도 8을 참조하면, 프로세서(100)는 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정할 수 있다(810).
프로세서(100)는 포즈 각도를 양자화(quantize)할 수 있다. 예를 들어, 프로세서(100)는 0도부터 180도 사이의 포즈 각도를 미리 결정된 간격(interval)으로 균등하게 양자화할 수 있다.
프로세서(100)는 이미지에 대한 양자화된 포즈 각도의 확률을 추정함으로써 상기 포즈 각도 확률을 추정할 수 있다.
프로세서(100)는 제2 서브 네트워크를 통해 타겟의 클래스에 연관된 클래스 조건부 확률을 추정할 수 있다(830).
포즈 각도 확률은 이미지에 대한 포즈 각도의 조건부 확률을 포함하고, 클래스 조건부 확률은 포즈 각도 및 이미지에 대한 클래스의 조건부 확률을 포함할 수 있다.
프로세서(100)는 이미지에 컨볼루션 연산을 수행하여 특징 벡터를 생성할 수 있다. 프로세서(100)는 포즈 각도의 인덱스에 대응하는 원 핫 벡터를 생성할 수 있다.
프로세서(100)는 특징 벡터 및 원 핫 벡터(one hot vector)에 기초하여 클래스 조건부 확률을 추정할 수 있다. 구체적으로, 프로세서(100)는 특징 벡터와 원 핫 벡터를 연결(concatenate)하여 입력 벡터를 생성할 수 있다. 프로세서(100)는 입력 벡터에 기초하여 클래스 조건부 확률을 추정할 수 있다.
프로세서(100)는 포즈 각도 확률 및 클래스 조건부 확률에 기초하여 타겟을 인식할 수 있다(850). 프로세서(100)는 포즈 각도 확률과 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 타겟을 인식할 수 있다.
구체적으로, 프로세서(100)는 타겟 확률에 기초한 손실 함수 및 포즈 각도의 인덱스에 기초한 손실 함수에 기초하여 타겟을 인식할 수 있다.
프로세서(100)는 뉴럴 네트워크를 학습시키기 위한 학습 데이터를 생성할 수 있다. 프로세서(100)는 이미지를 처리하여 학습 데이터를 증강(augmentation)시킴으로써 학습 데이터를 생성할 수 있다.
예를 들어, 프로세서(100)는 뉴럴 네트워크를 학습시키기 위한 학습 데이터를 증강(augmentation)할 수 있다. 학습 데이터의 증강은 이미지의 회전을 통한 증강, 회전 이미지를 이용한 포즈 합성을 통한 증강, 이미지의 크롭을 통한 증강 및 노이즈 합성을 통한 증강을 포함할 수 있다.
이하에서, 도 9a 내지 도 12를 참조하여, 타겟 인식 장치(10)을 이용한 실험에 대하여 설명한다.
도 9a내지 도 9d는 도 2의 네트워크를 학습시키기 위해 사용된 이미지의 예들을 나타낸다.
타겟 인식 장치(10)의 성능을 평가하기 위해, 우리는 MSTAR(Movement and Stationary Target Acquisition and Recognition) 공개 데이터 셋이 사용될 수 있다. MSTAR 데이터 셋은 국방 고급 연구 프로젝트 기관과 공군 연구 실험실이 후원한 Sandia National Laboratory SAR 센서 플랫폼에 의해 수집되었다.
X-밴드 SAR에 의해 수집된 이미지는 0.3m x 0.3m의 해상도로 구성된다. 각 데이터 이미지마다 방위각(azimuth angles), 부각(depression angles), 버전(versions), 및 구성(configurations)에 대한 정보가 포함된다. MSTAR 데이터 세트는 SAR-ATR 문제에 대한 다양한 알고리즘을 검증하는 데 널리 사용된다.
도 9a내지 도 9d는 타겟 이름과 포즈 각도를 가진 MSTAR 데이터의 일부 예를 보여준다.
실험을 위해, 부각(depression angle)이 17° 인 88x88 크기의 2,747 SAR 타겟이 트레이닝에 사용되었고, 부각(depression angle)가 15° 인 128x128 크기의 2,425 SAR 타겟이 테스트에 사용되었다.
표 1은 실험에 사용된 데이터를 요약한 것이다.
타겟 이름 시리얼 번호 학습
(SAR 타겟 사이즈: 88×88)
테스트
(SAR 타겟 사이즈: 128×128)
부각 데이터의 수 부각 데이터의 수
BMP2 9563 17 233 15 195
BTR70 C71 17 233 15 196
T72 132 17 232 15 196
BTR60 K10 17 256 15 195
2S1 B01 17 299 15 274
BRDM2 E71 17 298 15 274
D7 92V 17 299 15 274
T62 A51 17 299 15 273
ZIL131 E12 17 299 15 274
ZSU234 D08 17 299 15 274
SAR 데이터 셋에서 데이터 수는 상당히 부족하다. 따라서, 상술한 데이터 증강을 통해 학습 데이터가 증강될 수 있다.
실험을 위해, 데이터 증강 알고리즘을 조합하여 각 클래스에 대해 50,000 개의 데이터가 생성되었다. 따라서, 학습 데이터는 타겟의 C = 10 유형을 가진 500,000 개의 학습데이터로 구성된다.
도 10은 포즈 각도 입력이 없는 베이스라인 네트워크의 구조를 나타낸다.
도 10을 참조하면, 뉴럴 네트워크를 학습시키기 위해, 모멘텀과 함께 미니-배치 확률적 경사 하강법(mini-batch stochastic gradient descent method)이 사용될 수 있다.
미니-배치의 크기가 100 인 경우, 모멘텀 파라미터(momentum parameter) 값은 0.9로 설정되고, 가중치 감쇄 값(weight decay value)은 0.004가 적용될 수 있다.
학습 속도(learning rate)는 0.01에서 시작하며, 20 번째 및 35 번째 에포크(epochs)에서 0.1을 곱하여 줄어든다. 에포크의 총 수는 50이다. 포즈 추정을 위해
Figure pat00080
=180가 설정되었다. 따라서, 도 2의 제1 FC 레이어(FC512)에 대한 입력 특징 벡터의 차원은 230= 50 +
Figure pat00081
가 된다.
타겟 인식 장치(10)의 성능을 효과적으로 나타내기 위해서, 제1 서브 네트워크(110)가 제거되고, 타겟 인식에 포즈 각도 정보를 사용하지 않는 단순화된 뉴럴 네트워크인 베이스라인 네트워크(baseline network)와 비교될 수 있다.
도 10은 베이스라인 네트워크(baseline network)의 구조를 나타낸다. 네트워크에 대한 엔드-투-엔드 학습은 일반적으로 도메인 지식(domain knowledge)의 필요성을 완화하여 전역 최적해(global optima)를 보다 쉽게 학습하도록 만들 수 있다.
따라서, 우리는 제1 실시예 및 제2 실시예로 표시되는 두 가지 뉴럴 네트워크를 이용하여 학습이 이루어질 수 있다.
제1 실시예에서, 수학식 13의 Lpe가 α=0이고, β=1로 설정하여 제1 네트워크(110)가 독립적으로 학습되고, 제2 서브 네트워크(130)는 그 후에 따로 학습된 제1 서브 네트워크(110)와 함께 학습되었다.
반면, 제2 실시예에서, 제2 서브 네트워크(130)는 처음부터 수학식 13의 Lpe에 기초하여 제1 서브 네트워크(110)와 L1을 기반으로 공동으로(jointly) 학습되었다.
타겟 인식 성능을 안정적으로 측정하기 위해, 제1 실시예, 제2 실시예 및 베이스라인 네트워크는 임의의 초기화(random initialization)에 의해 서로 다른 초기 컨볼루션 가중치 값으로 5 회 학습되었다.
타겟 인식률(target recognition rate)은 학습된 네트워크에 대해 얻은 5회 테스트 결과의 평균으로 계산되었다. 표 2는 제1 실시예와 기준 네트워크 간의 타겟 인식 실험에 대한 성능 비교를 나타낸다.
실험 베이스라인 네트워크 제2 실시예
1 98.10 99.63
2 99.30 99.22
3 99.09 99.63
4 99.05 99.13
5 99.42 99.46
평균 98.99 99.41
표 2에서 볼 수 있듯이, 제1 실시예는 99.41 %의 평균 인식률을 달성한 반면, 기준 네트워크는 98.99 %의 인식률을 나타낸다. 따라서, 제1 실시예는 포즈 각도 정보를 사용하여 타겟 인식 성능을 향상시킬 수 있다는 것을 확인할 수 있다.
표 3은 제1 실시예와 제2 실시예의 인식률의 비교 결과를 나타낸다.
실험 제1 실시예 제2 실시예
1 99.63 99.67
2 99.22 99.59
3 99.63 99.55
4 99.13 99.67
5 99.46 99.59
평균 99.41 99.61
표 2 및 표 3에 표시된 것처럼, 제2 실시예는 제1 실시예와 베이스라인 네트워크와 비교했을 때, 최상의 성능을 나타냄을 확인할 수 있다.
표 4는 제2 실시예에 의한 타겟 인식의 평균 오차 매트릭스(average confusion matrix)를 나타낸다.
클래스 BMP-2 BTR-70 T-72 BTR-60 2S1 BRDM-2 D7 T62 ZIL131 ZSU234 인식률 (%)/Std.
BMP-2 194.6 0 0.4 0 0 0 0 0 0 0 99.79 /0.410
BTR-70 0 195.8 0 0.2 0 0 0 0 0 0 99.90/0.204
T-72 0 0 193.8 2.2 0 0 0 0 0 0 98.88/0.382
BTR-60 0 0 0 195 0 0 0 0 0 0 100/0
2S1 0 0.2 0 0 271.4 0 0 1.8 0.6 0 99.05/0.372
BRDM-2 0.2 0 0 0 0 273.2 0.6 0 0 0 99.71/0.146
D7 0 0 0 0 0 0 273.8 0 0.2 0 99.93/0.146
T62 0 0 0 0 0 0 0 272.2 0 0.8 99.71/0.274
ZIL131 0 0 0 0 0 0 0 0.6 273 0.4 99.64/0.231
ZSU234 0 0 0 0 0 0 0.8 0 0.4 272.8 99.56/0.146
평균 99.61/0.001
표 4의 각 행에는 응답 타겟 클래스가 표시되고, 각 열에는 네트워크 별로 예측된 타겟 클래스가 표시된다. 표 4의 수치는 제2 실시예에 대해 5회 실험한 타겟의 평균 수를 나타낸다.
대각 성분(diagonal element)은 모든 타겟 클래스에 대해 올바르게 인식된 타겟의 수를 나타낸다. 반면, 비대각 요소(off-diagonal element)는 잘못 분류된 타겟의 수를 나타낸다.
도 11은 실시예에 따른 타겟 인식률을 나타낸다.
도 11 을 참조하면, 타겟 인식 성능에 대한 채널 수의 영향을 확인하기 위해, 마지막 컨벌루션 레이어(도 2의 4I-4Cn-1S-50Ch and 4I-4Cn-1S-NpaCh, 도 10의 4I-4Cn-1S-(50+Npa)Ch)와 마지막 FC 레이어(도 2 및 도 10의 FC10(1I-1Cn-1S-10Ch))를 제외한 각 컨볼루션 레이어와 각 FC 페이어에서 출력 채널의 수를 변경하면서 타겟 인식 장치(10)와 베이스라인 네트워크에 대한 실험이 수행될 수 있다.
도11은 제1 실시예, 제2 실시예 및 베이스라인 네트워크의 타겟 인식 성능의 비교 결과를 나타낸다. 도 11에서, CH는 도 2 및 도 10에서 각 레이어의 출력 채널 수를 나타낸다.
따라서, CH/2와 CH/4는 모든 출력 채널의 수가 각각 CH의 반과 1/4로 줄어든다는 것을 의미한다. 도 11에서 볼 수 있듯이, 제1 실시예 및 제2 실시예는 베이스라인 네트워크보다 성능이 뛰어나다. 도 11에서 볼 수 있듯이, 제1 실시예는 CH, CH/2 및 CH/4에 대해 각각 0.42 %, 1.82 % 및 2.59 %의 마진으로 기준 네트워크보다 성능이 우수하다.
따라서, 포즈 각도 정보를 이용하는 것이 타겟 인식에 유리하다는 결론을 내릴 수 있다. 또한, 제2 실시예는 엔드 투 엔드 방식으로 조인트로 동시에 학습되어 CH, CH/2 및 CH/4에 대해 각각 0.20 %, 0.21 % 및 0.48 %의 마진으로 제1 실시예를 능가한다.
도 12는 추정된 포즈 각도 확률에 기초한 포즈 각도 추정의 예를 나타낸다.
도 12를 참조하면, 타겟 인식을 위한 포즈 각도 정보의 효과를 확인하려면, 먼저 도 2에서 제1 서브 네트워크(110)의 포즈 각도 분류 기능을 확인해야할 필요가 있다.
제1 서브 네트워크(110)는 모든 포즈 각도 인덱스의 포즈 각도 확률을 추정하는 데 사용되지만, 입력 이미지의 실제 포즈 각도를 추정하는 데에도 사용될 수 있다.
도 12는 SAR 입력 이미지에 대한 모든 포즈 각도 인덱스의 추정된 포즈 각도 확률에 기초한 포즈 각도 추정 예를 도시한다. 각각의 포즈 각도 인덱스는 포즈 각도 간격 내의 중심 값(center value)을 갖는 대표적인 포즈 각도를 나타내기 때문에, 추정된 포즈 각도는 제1 서브 네트워크(110)에 의해 추정된 대응하는 포즈 각도 확률에 의해 가중치를 부여한 포즈 각도 벡터의 합이 된다. 따라서, 포즈 각도는 수학식 22와 같이
Figure pat00082
로 추정될 수 있다.
Figure pat00083
잘못된 포즈 각도에 대한 계산의 단순성과 견고성을 위해, 제1 서브 네트워크(110)에 의해 추정된 3 개의 가장 큰 포즈 각도 확률을 갖는 3 개의 포즈 각도에 기초하여
Figure pat00084
가 계산될 수 있다.
표 5의 MAD는 실제 포즈 각도(
Figure pat00085
)와 추정된 각도(
Figure pat00086
) 사이의 평균 절대 차이(Mean Absolute Difference)를 나타낸다.
타겟 종래 기술 1 종래 기술 2 종래 기술 3 타겟 인식 장치
BMP2 5.12 8.27 4.45 1.25
BTR70 7.01 5.85 5.13 1.22
T72 3.53 10.61 3.38 1.51
BTR60 5.11 4.76 3.81 1.86
2S1 6.64 9.63 5.42 1.14
BRDM2 15.32 9.38 9.04 1.30
D7 6.40 17.36 6.32 1.81
T62 6.93 12.34 6.10 1.14
ZIL131 10.23 7.08 5.89 1.05
ZSU234 8.81 17.31 7.67 1.51
평균 7.51 10.26 5.72 1.38
표 5의 MAD결과에서 PP 서브-넷은 다른 세 가지 포즈 각도 추정 방법보다 성능이 우수함을 확인할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (20)

  1. 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정하는 단계;
    제2 서브 네트워크를 통해 상기 타겟의 클래스에 연관된 클래스 조건부 확률을 추정하는 단계; 및
    상기 포즈 각도 확률 및 상기 클래스 조건부 확률에 기초하여 상기 타겟을 인식하는 단계
    를 포함하는 타겟 인식 방법.
  2. 제1항에 있어서,
    상기 포즈 각도 확률을 추정하는 단계는,
    상기 포즈 각도를 양자화(quantize)하는 단계; 및
    상기 이미지에 대한 양자화된 포즈 각도의 확률을 추정함으로써 상기 포즈 각도 확률을 추정하는 단계
    를 포함하는 타겟 인식 방법.
  3. 제2항에 있어서,
    상기 양자화하는 단계는,
    0도부터 180도 사이의 포즈 각도를 미리 결정된 간격(interval)으로 균등하게 양자화하는 단계
    를 포함하는 타겟 인식 방법.
  4. 제1항에 있어서,
    상기 클래스 조건부 확률을 추정하는 단계는,
    상기 이미지에 컨볼루션 연산을 수행하여 특징 벡터를 생성하는 단계;
    상기 포즈 각도의 인덱스에 대응하는 원 핫 벡터를 생성하는 단계; 및
    상기 특징 벡터 및 상기 원 핫 벡터에 기초하여 클래스 조건부 확률을 추정하는 단계
    를 포함하는 타겟 인식 방법.
  5. 제4항에 있어서,
    상기 특징 벡터 및 상기 원 핫 벡터에 기초하여 포즈 각도 클래스 조건부 확률을 추정하는 단계는,
    상기 특징 벡터와 상기 원 핫 벡터를 연결(concatenate)하여 입력 벡터를 생성하는 단계; 및
    상기 입력 벡터에 기초하여 상기 클래스 조건부 확률을 추정하는 단계
    를 포함하는 타겟 인식 방법.
  6. 제1항에 있어서,
    상기 제1 서브 네트워크 및 상기 제2 서브 네트워크를 학습시키기 위한 학습 데이터를 증강(augmentation)하는 단계
    를 더 포함하는 타겟 인식 방법.
  7. 제6항에 있어서,
    상기 증강하는 단계는,
    상기 이미지를 회전시켜 복수의 회전 이미지를 생성하는 단계;
    상기 복수의 회전 이미지를 합성하여 포즈 합성 이미지를 생성하는 단계;
    상기 이미지를 임의로 크롭(crop)하는 단계; 및
    상기 이미지에 노이즈를 더하여 노이즈 합성 이미지를 생성하는 단계
    를 포함하는 타겟 인식 방법.
  8. 제1항에 있어서,
    상기 인식하는 단계는,
    상기 포즈 각도 확률과 상기 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 상기 타겟을 인식하는 단계
    를 포함하는 타겟 인식 방법.
  9. 제8항에 있어서,
    상기 포즈 각도 확률과 상기 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 상기 타겟을 인식하는 단계는,
    상기 타겟 확률에 기초한 손실 함수 및 상기 포즈 각도의 인덱스에 기초한 손실 함수에 기초하여 상기 타겟을 인식하는 단계
    를 포함하는 타겟 인식 방법.
  10. 제1항에 있어서,
    상기 포즈 각도 확률은 상기 이미지에 대한 상기 포즈 각도의 조건부 확률을 포함하고, 상기 클래스 조건부 확률은 상기 포즈 각도 및 상기 이미지에 대한 상기 클래스의 조건부 확률을 포함하는
    타겟 인식 방법.
  11. 제1 서브 네트워크를 통해 이미지에 포함된 타겟의 포즈 각도에 연관된 포즈 각도 확률을 추정하고, 제2 서브 네트워크를 통해 상기 타겟의 클래스에 연관된 클래스 조건부 확률을 추정하고, 상기 포즈 각도 확률 및 상기 클래스 조건부 확률에 기초하여 상기 타겟을 인식하는 프로세서; 및
    상기 프로세서에 의해 실행되는 인스트럭션을 저장하는 메모리
    를 포함하는 타겟 인식 장치.
  12. 제11항에 있어서,
    상기 프로세서는,
    상기 포즈 각도를 양자화(quantize)하고, 상기 이미지에 대한 양자화된 포즈 각도의 확률을 추정함으로써 상기 포즈 각도 확률을 추정하는
    타겟 인식 장치.
  13. 제12항에 있어서,
    상기 프로세서는,
    0도부터 180도 사이의 포즈 각도를 미리 결정된 간격으로 균등하게 양자화하는
    타겟 인식 장치.
  14. 제11항에 있어서,
    상기 프로세서는,
    상기 이미지에 컨볼루션 연산을 수행하여 특징 벡터를 생성하고, 상기 포즈 각도의 인덱스에 대응하는 원 핫 벡터를 생성하고, 상기 특징 벡터 및 상기 원 핫 벡터에 기초하여 클래스 조건부 확률을 추정하는
    타겟 인식 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 특징 벡터와 상기 원 핫 벡터를 연결(concatenate)하여 입력 벡터를 생성하고, 상기 입력 벡터에 기초하여 상기 클래스 조건부 확률을 추정하는
    타겟 인식 장치.
  16. 제11항에 있어서,
    상기 프로세서는
    상기 제1 서브 네트워크 및 상기 제2 서브 네트워크를 학습시키기 위한 학습 데이터를 증강(augmentation)하는
    타겟 인식 장치.
  17. 제16항에 있어서,
    상기 프로세서는,
    상기 이미지를 회전시켜 복수의 회전 이미지를 생성하고, 상기 복수의 회전 이미지를 합성하여 포즈 합성 이미지를 생성하고, 상기 이미지를 임의로 크롭(crop)하고, 상기 이미지에 노이즈를 더하여 노이즈 합성 이미지를 생성하는
    타겟 인식 장치.
  18. 제11항에 있어서,
    상기 프로세서는,
    상기 포즈 각도 확률과 상기 클래스 조건부 확률을 곱한 타겟 확률에 기초하여 상기 타겟을 인식하는
    타겟 인식 장치.
  19. 제18항에 있어서,
    상기 프로세서는,
    상기 타겟 확률에 기초한 손실 함수 및 상기 포즈 각도의 인덱스에 기초한 손실 함수에 기초하여 상기 타겟을 인식하는
    타겟 인식 장치.
  20. 제11항에 있어서,
    상기 포즈 각도 확률은 상기 이미지에 대한 상기 포즈 각도의 조건부 확률을 포함하고, 상기 클래스 조건부 확률은 상기 포즈 각도 및 상기 이미지에 대한 상기 클래스의 조건부 확률을 포함하는
    타겟 인식 장치.
KR1020190145736A 2018-11-14 2019-11-14 타겟 인식 방법 및 장치 KR102345760B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180139760 2018-11-14
KR20180139760 2018-11-14

Publications (2)

Publication Number Publication Date
KR20200056339A true KR20200056339A (ko) 2020-05-22
KR102345760B1 KR102345760B1 (ko) 2021-12-31

Family

ID=70914226

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190145736A KR102345760B1 (ko) 2018-11-14 2019-11-14 타겟 인식 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102345760B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN118314631A (zh) * 2024-06-06 2024-07-09 河北科曼信息技术有限公司 基于坐姿识别的专注力分析方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114741A (ko) * 2013-03-19 2014-09-29 삼성전자주식회사 인체 포즈 추정 장치 및 방법
KR20150109987A (ko) * 2014-03-21 2015-10-02 삼성전자주식회사 영상 처리 장치, 그 제어 방법 및 컴퓨터 판독 가능 기록 매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114741A (ko) * 2013-03-19 2014-09-29 삼성전자주식회사 인체 포즈 추정 장치 및 방법
KR20150109987A (ko) * 2014-03-21 2015-10-02 삼성전자주식회사 영상 처리 장치, 그 제어 방법 및 컴퓨터 판독 가능 기록 매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Ding et al., 'Convolutional Neural Network With Data Augmentation for SAR Target Recognition,' IEEE Geoscience and remote sensing letters, 13(2) March 2016 (2016.01.26.) *
Q. Zhao et al., 'Pose Estimation for SAR Automatic Target Recognition,' In proceedings of Image understanding workshop, 1998 (1998.) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113780149B (zh) * 2021-09-07 2023-11-17 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN118314631A (zh) * 2024-06-06 2024-07-09 河北科曼信息技术有限公司 基于坐姿识别的专注力分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR102345760B1 (ko) 2021-12-31

Similar Documents

Publication Publication Date Title
Parikh et al. Classification of SAR and PolSAR images using deep learning: A review
Jin et al. A survey of infrared and visual image fusion methods
Zou et al. Attend to count: Crowd counting with adaptive capacity multi-scale CNNs
Rogers et al. Neural networks for automatic target recognition
Xu et al. Image fusion based on nonsubsampled contourlet transform and saliency‐motivated pulse coupled neural networks
El‐taweel et al. Image fusion scheme based on modified dual pulse coupled neural network
CN114155270A (zh) 行人轨迹预测方法、装置、设备及存储介质
Zhang et al. A novel ship target detection algorithm based on error self-adjustment extreme learning machine and cascade classifier
KR102345760B1 (ko) 타겟 인식 방법 및 장치
Dash et al. Human action recognition using a hybrid deep learning heuristic
Wang et al. Deep alternative neural network: Exploring contexts as early as possible for action recognition
Özer et al. SiameseFuse: A computationally efficient and a not-so-deep network to fuse visible and infrared images
Uzair et al. A bio-inspired spatiotemporal contrast operator for small and low-heat-signature target detection in infrared imagery
CN114580535A (zh) 基于注意力多视角学习网络的多基雷达人体行为融合识别方法、装置及介质
Li et al. Bilateral counting network for single-image object counting
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
Lamba et al. A texture based mani-fold approach for crowd density estimation using Gaussian Markov Random Field
Song et al. HDTFF-Net: Hierarchical deep texture features fusion network for high-resolution remote sensing scene classification
Roy et al. AWDMC-Net: classification of adversarial weather degraded multiclass scenes using a convolution neural network
Darvishnezhad et al. A new model based on multi-aspect images and complex-valued neural network for synthetic aperture radar automatic target recognition
Passah et al. A lightweight deep learning model for classification of synthetic aperture radar images
Aishwarya et al. Multilayer vehicle classification integrated with single frame optimized object detection framework using CNN based deep learning architecture
Xu et al. Edge Constrained Guided Feature Perception Network for Ship Detection in SAR Images
Mishra et al. An intelligent optimization algorithm with a deep learning‐enabled block‐based motion estimation model
Chen et al. Privacy-aware crowd counting by decentralized learning with parallel transformers

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant