KR102516360B1 - 타겟 검출 방법 및 장치 - Google Patents

타겟 검출 방법 및 장치 Download PDF

Info

Publication number
KR102516360B1
KR102516360B1 KR1020170103609A KR20170103609A KR102516360B1 KR 102516360 B1 KR102516360 B1 KR 102516360B1 KR 1020170103609 A KR1020170103609 A KR 1020170103609A KR 20170103609 A KR20170103609 A KR 20170103609A KR 102516360 B1 KR102516360 B1 KR 102516360B1
Authority
KR
South Korea
Prior art keywords
target
neural network
image
neural networks
candidate regions
Prior art date
Application number
KR1020170103609A
Other languages
English (en)
Other versions
KR20180065866A (ko
Inventor
비아오 왕
차오 장
최창규
데헹 퀴안
한재준
징타오 쑤
하오 펑
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US15/825,951 priority Critical patent/US10657424B2/en
Publication of KR20180065866A publication Critical patent/KR20180065866A/ko
Priority to US16/849,015 priority patent/US11380114B2/en
Application granted granted Critical
Publication of KR102516360B1 publication Critical patent/KR102516360B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

타겟 검출 방법 및 장치가 개시된다. 일 실시예에 따른 타겟 검출 방법은 검출할 이미지에 기초하여 이미지 피라미드를 생성하는 단계와, 케스케이드 뉴럴 네트워크를 이용하여 상기 이미지 피라미드로부터 복수의 후보 영역을 분류하는 단계와, 상기 복수의 후보 영역에 기초하여 상기 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정하는 단계를 포함하고, 상기 케스케이드 뉴럴 네트워크는 복수의 뉴럴 네트워크를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함한다.

Description

타겟 검출 방법 및 장치{A METHOD AND APPARATUS FOR DETECTING A TARGET}
아래 실시예들은 컴퓨터 시각기술영역에 관한 것이고, 구체적으로 타겟 검출 방법 및 장치에 관한 것이다.
타겟 검출은 컴퓨터 시각기술영역의 전통적인 연구분야이다. Adaboost(자체 적응 향상 분류기 향상)알고리즘에 Haar(하르 소파)특징 또는 LBP(Local Binary Pattern, 로컬 바이너리 패턴)등의 특징을 결합한 방법과 같은 종래의 타겟 검출 방법은 이미 광범위한 응용이 이루어지고 있다. 그러나, 이런 종래의 방법들은 검출율 등의 성능을 크게 향상시키기 어려운 문제가 있다.
현재 타겟 검출 알고리즘의 문제는 타겟이 쉽게 간섭을 받아 검출율 등의 성능을 향상시키는 것이 어렵다는 점이다. 예를 들면, 타겟 중 얼굴은 얼굴의 자태, 피부색, 조명, 겹침 효과, 흐릿함(blur) 및 기타 외부 요소에 의해 야기된 다양한 영향을 받는다. 따라서, 종래의 타겟 검출 방법을 이용하여 얼굴을 검출 하면 검출율이 비교적 낮다.
최근 깊이 학습에 기초한 타겟 검출 방법이 나타났고, 이 방법은 검출율과 오차율이 비교적 우세하다. 그러나, 깊이 학습에 기초한 타겟 검출 방법은 속도가 느리고 분류 모델이 크다는 두 가지 문제가 존재한다.
첫 번째로, 깊이 학습을 통하여 획득한 타겟 분류 모델이 차지하는 저장 공간이 크다. 예를 들면, 일반적으로 사용하는 ZF(ZeilerandFergus, 제러랜드와 퍼거스)분류모델의 전형적 데이터 양은 200MB(MegaByte, 메가비트)에 달하고, VGG(Visual Geometric Group at oxford university, 옥스퍼드 대학 시각기하그룹)분류모델의 전형적 데이터 양은 500MB에 달한다. 이와 같이 타겟 분류 모델은 대량의 비휘발성 메모리(예를 들면 하드웨어 또는 플래시 메모리)의 저장 공간을 차지하고, 동시에 모델 작동을 분류할 때 큰 메모리 공간을 차지한다.
두 번째로, 방대한 분류 모델의 데이터 양은 계산 속도와 로딩 속도가 매우 느리고, 대량의 프로세서 자원을 차지한다. 이는 깊이 학습에 기초한 타겟 검출 방법을 대대적으로 제한하였고, 하드웨어 사양이 높지 않거나 계산 성능이 비교적 낮은 장비에서 발생한다. 또한 깊이 학습에 기초한 타겟 검출 방법의 운용은 CPU의 지지가 더 필요하기 때문에 이런 유형의 방법은 성능이 제한된 장비에서 사용이 어렵다는 문제점이 있다.
실시예들은 검출할 이미지로부터 이미지에 포함된 타겟을 검출하는 기술을 제공할 수 있다.
일 실시예에 따른 타겟 검출 방법은, 검출할 이미지에 기초하여 이미지 피라미드를 생성하는 단계와, 케스케이드 뉴럴 네트워크를 이용하여 상기 이미지 피라미드로부터 복수의 후보 영역을 분류하는 단계와, 상기 복수의 후보 영역에 기초하여 상기 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정하는 단계를 포함하고, 상기 케스케이드 뉴럴 네트워크는 복수의 뉴럴 네트워크를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함한다.
상기 분류하는 단계는, 제1 뉴럴 네트워크를 이용하여 상기 검출할 이미지로부터 복수의 영역을 분류하는 단계와, 상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 이용하여 상기 복수의 영역을 복수의 타겟 후보 영역 및 복수의 비타겟(non-target) 후보 영역으로 분류하는 단계를 포함하고, 상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함할 수 있다.
상기 복수의 병렬 서브 뉴럴 네트워크 각각은 서로 다른 타겟 속성에 대응될 수 있다.
상기 검출할 이미지에 포함된 타겟이 얼굴(face of human)인 경우, 상기 타겟 속성은 얼굴의 정면 자태(front face posture), 얼굴의 측면 자태(side face posture), 얼굴의 정면 또는 측면의 회전에 의한 자태(front face or side face by rotation), 피부색(skin color), 조명 조건(light condition), 겹침 효과(occlusion), 선명도(clarity) 중에서 적어도 하나를 포함할 수 있다.
상기 결정하는 단계는, 상기 복수의 타겟 후보 영역 각각이 속한 상기 이미지 피라미드의 층 이미지(layer image)들 및 상기 복수의 타겟 후보 영역 각각이 속한 상기 층 이미지들 간의 크기 및 위치 차이에 기초하여 상기 복수의 타겟 후보 영역의 크기 및 위치를 표준화하는 단계와, 표준화된 복수의 타겟 후보 영역을 병합하여 상기 타겟 영역을 획득하는 단계를 포함할 수 있다.
상기 복수의 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크 및 볼츠만 네트워크를 포함할 수 있다.
일 실시예에 따른 학습 방법은, 타겟이 포함된 이미지를 수신하는 단계와, 상기 이미지를 이용하여 복수의 뉴럴 네트워크를 포함하는 케스케이드 뉴럴 네트워크를 학습시키는 단계를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함한다.
상기 학습시키는 단계는, 상기 타겟에 대응하는 타겟 영역의 면적에 기초하여 복수의 이미지 영역으로 구성된 샘플 집합을 복수의 긍정 샘플 및 복수의 부정 샘플로 분류하는 단계와, 상기 복수의 부정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시키는 단계와, 오분류된 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 학습시키는 단계를 포함하고, 상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함할 수 있다.
상기 학습시키는 단계는, 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크 중에서 적어도 하나를 상기 타겟에 대한 검출율이 감소하거나 상기 타겟에 대한 오차율이 상승할 때까지 반복적으로 미세조절 하는 단계를 더 포함하고, 상기 미세조절하는 단계는, 상기 오분류된 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 적어도 하나를 학습시키는 단계와, 상기 학습을 통해 테스트 샘플 집합을 분류하는 단계를 포함할 수 있다.
일 실시예에 따른 타겟 검출 장치는, 검출할 이미지에 기초하여 이미지 피라미드를 생성하는 이미지 획득기와, 케스케이드 뉴럴 네트워크를 이용하여 상기 이미지 피라미드로부터 복수의 후보 영역을 분류하는 후보 영역 분류기와, 상기 복수의 후보 영역에 기초하여 상기 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정하는 타겟 영역 결정기를 포함하고, 상기 케스케이드 뉴럴 네트워크는 복수의 뉴럴 네트워크를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함한다.
상기 후보 영역 분류기는, 제1 뉴럴 네트워크를 이용하여 상기 검출할 이미지로부터 복수의 영역을 분류하는 제1 분류기와, 상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 이용하여 상기 복수의 영역을 복수의 타겟 후보 영역 및 복수의 비타겟(non-target) 후보 영역으로 분류하는 제2 분류기를 포함하고, 상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함할 수 있다.
상기 복수의 병렬 서브 뉴럴 네트워크 각각은 서로 다른 타겟 속성에 대응될 수 있다.
상기 검출할 이미지에 포함된 타겟이 얼굴(face of human)인 경우, 상기 타겟 속성은 얼굴의 정면 자태(front face posture), 얼굴의 측면 자태(side face posture), 얼굴의 정면 또는 측면의 회전에 의한 자태(front face or side face by rotation), 피부색(skin color), 조명 조건(light condition), 겹침 효과(occlusion), 선명도(clarity) 중에서 적어도 하나를 포함할 수 있다.
상기 타겟 영역 결정기는, 상기 복수의 타겟 후보 영역 각각이 속한 상기 이미지 피라미드의 층 이미지들 및 상기 복수의 타겟 후보 영역 각각이 속한 상기 층 이미지들 간의 크기 및 위치 차이에 기초하여 상기 복수의 타겟 후보 영역의 크기 및 위치를 표준화하고, 표준화된 복수의 타겟 후보 영역을 병합하여 상기 타겟 영역을 획득할 수 있다.
상기 복수의 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크 및 볼츠만 네트워크를 포함할 수 있다.
일 실시예에 따른 학습 장치는, 타겟이 포함된 이미지를 수신하는 이미지 획득기와, 상기 이미지를 이용하여 복수의 뉴럴 네트워크를 포함하는 케스케이드 뉴럴 네트워크를 학습시키는 학습기를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함한다.
상기 학습기는, 상기 타겟에 대응하는 타겟 영역의 면적에 기초하여 복수의 이미지 영역으로 구성된 샘플 집합을 복수의 긍정 샘플 및 복수의 부정 샘플로 분류하고, 상기 복수의 부정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시키고, 오분류된 부정 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 학습시키고, 상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함할 수 있다.
상기 학습기는, 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크 중에서 적어도 하나를 상기 타겟에 대한 검출율이 감소하거나 상기 타겟에 대한 오차율이 상승할 때까지 반복적으로 미세조절하고, 상기 미세조절은 상기 오분류된 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 적어도 하나를 학습시키고, 상기 학습을 통해 테스트 샘플 집합을 분류할 수 있다.
도 1은 일 실시예에 따른 타겟 검출 장치의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 타겟 검출 장치의 동작의 순서도를 나타낸다.
도 3a는 일 실시예에 따른 학습장치의 개략적인 블록도를 나타낸다.
도 3b는 도 1에 도시된 케스케이드 뉴럴 네트워크에 포함된 제1 뉴럴 네트워크를 학습(traning)시키는 동작의 순서도를 나타낸다.
도 3c는 도 3b에 도시된 미세조절하는 동작의 순서도를 나타낸다.
도 4는 도 3b에 도시된 제1 뉴럴 네트워크의 구조의 예시이다.
도 5a는 도 1에 도시된 케스케이드 뉴럴 네트워크에 포함된 제2 뉴럴 네트워크를 학습시키는 동작의 순서도를 나타낸다.
도 5b는 도 5a에 도시된 미세조절하는 동작의 순서도를 나타낸다.
도 6은 도 5a에 도시된 제2 뉴럴 네트워크에 포함된 서브 뉴럴 네트워크의 구조의 예시이다.
도 7은 도 1에 도시된 타겟 검출장치가 영상 피라미드를 생성하여 타겟을 검출하는 동작의 순서도를 나타낸다.
도 8은 도 7에 도시된 이미지 피라미드의 예시이다.
도 9는 2 스테이지 모델을 이용하여 타겟을 검출하는 동작의 예시를 타낸다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 타겟 검출 장치의 개략적인 블록도를 나타내고, 도 2는 도 1에 도시된 타겟 검출 장치의 동작의 순서도를 나타낸다.
도 1 및 도 2를 참조하면, 타겟 검출 장치(10)는 깊이 학습에 기초한 타겟 검출 방법에 존재하는 분류 모델이 비교적 큰 문제를 개선하기 위해서 타겟 검출 방법으로 케스케이드 CNN(Cascade Convolutional Neural Network)으로 불리는 깊이 학습 모델과 결합한 케스케이드 분류기(Cascade Classifier)를 이용하여 타겟을 검출할 수 있다.
종래의 케스케이드 CNN에 기초한 타겟 검출 방법은 6 레벨에 달하는 CNN을 분류 모델로 사용하였고, 전체적으로 분류 모델이 차지하는 저장 공간이 크며, 계산 속도가 느릴 수 있다. 또한, 종래의 케스케이드 CNN은 각각의 레벨의 CNN이 모두 소형 CNN이기 때문에 소형 CNN이 감당할 수 있는 데이터 양이 비교적 작을 수 있다.
이로 인해, 종래의 케스케이드 CNN에 기초한 타겟 검출 방법은 얼굴 타겟의 경우에 얼굴의 자태, 피부색, 조명 조건 등의 복잡한 상황의 속성 정보를 정확하게 표현할 수 없어서, 종래의 Adaboost 알고리즘 등에 비하여 타겟 검출율 등 성능의 향상을 가져올 수 없었다.
타겟 검출 장치(10)는 종래의 케스케이스 CNN이 가지는 문제점인 검출율이 낮고, 분류 모델이 차지하는 저장 공간이 큰 문제를 해결할 수 있다.
타겟 검출 장치(10)는 검출할 이미지에 기초하여 이미지 피라미드를 생성하고, 이미지 피라미드로부터 복수의 후보 영역을 분류할 수 있다. 타겟 검출 장치(10)는 복수의 후보 영역에 기초하여 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정함으로써 이미지로부터 타겟을 검출할 수 있다.
타겟이란 생물의 신체부위, 환경 물체 중의 적어도 하나를 포함할 수 있다. 예를 들면, 생물의 신체부위는 구체적으로 인간의 얼굴 또는 동물의 얼굴, 또는 식물의 잎, 꽃 또는 과일 등일 수 있다. 환경 물체는 교통 표시판 또는 신호등 등을 포함할 수 있다.
타겟 검출 장치(10)는 뉴럴 네트워크를 이용하여 검출할 이미지의 후보 영역을 분류하여 분류 정확도를 향상시킬 수 있다. 타겟 검출 장치(10)는 복수의 각도에서 촬영된 이미지를 동시에 분류할 수 있으며, 전면적이고 정확하게 검출할 이미지를 분류할 수 있다. 타겟 검출 장치(10)는 정확한 분류 결과에 기초하여 타겟 영역을 정확하게 결정할 수 있다.
타겟 검출 장치(10)는 뉴럴 네트워크에 포함된 복수의 서브 뉴럴 네트워크를 사용하여 전체 뉴럴 네트워크의 수를 감소시키고, 계산 속도를 향상시킬 뿐만 아니라 복수의 뉴럴 네트워크로 구성된 분류 모델이 차지하는 저장 공간을 획기적으로 감소시킬 수 있다. 이로 인해, 타겟 검출 장치(10)는 저사양의 하드웨어나 계산 성능이 낮은 장비에 적용될 수 있다.
타겟 검출 장치(10)는 이미지 획득기(101), 후보 영역 분류기(102), 타겟 영역 결정기(103) 및 케스케이드 뉴럴 네트워크(104)를 포함한다.
이미지 획득기(101)는 검출 이미지를 획득할 수 있다(S201). 이미지 획득기(101)는 검출할 이미지에 기초하여 이미지 피라미드를 생성할 수 있다. 이미지 피라미드를 생성하는 동작은 도 7 및 도 8을 참조하여 자세하게 설명할 것이다.
이미지 획득기(101)는 단말기의 촬영 장비를 통하여 검출할 영상을 획득할 수 있다.
단말 또는 단말 장비는 무선 신호 수신기를 포함하고, 송, 수신 하드웨어 장비를 포함하며, 양방향 송, 수신이 가능한 장비를 의미할 수 있다. 단말 장비는 허니콤 등의 통신 장비를 포함할 수 있고, 단말 장비는 단일 회로 디스플레이, 다중 회로 디스플레이 및 다중 회로 디스플레이가 없는 허니콤 장비를 포함할 수 있다.
단말은 음성, 데이터 처리, 팩스 및/또는 데이터 통신이 가능한 PCS(Personal Communications Service), PDA(Personal Digital Assistant), RF(Radio Frequency) 수신기, 무전 호출기, 인터넷 네트워크, 인터넷 브라우저, 메모지, 달력, GPS(Global Positioning System) 수신기, 랩탑, 핸드헬드 컴퓨터, MID(Mobile Internet Device), 이동 전화, 스마트 TV 및 셋톱박스 등의 장비를 포함할 수 있다.
또한, 이러한 단말은, 휴대용으로 운반 가능하고, 운송장치(항공, 선박)에 설치 및/또는 배치될 수 있다.
후보 영역 분류기(102)는 케스케이드 뉴럴 네트워크(104)를 이용하여 이미지 피라미드로부터 복수의 후보 영역을 분류할 수 있다(S202).
후보 영역은 검출하려는 이미지에 포함된 임의의 영역을 의미하거나 검출하려는 이미지의 일부에 대하여 이미지 프로세싱을 수행한 결과를 의미할 수 있다.
후보 영역 분류기(102)는 제1 분류기(1021) 및 제2 분류기(1022)를 포함할 수 있다.
제1 분류기(1021) 및 제2 분류기(1022)는 케스케이드 뉴럴 네트워크(104)를 이용하여 후보 영역을 분류할 수 있다.
타겟 영역 결정기(103)은 복수의 후보 영역에 기초하여 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정할 수 있다(S203).
타겟 영역은 검출할 이미지에서 타겟이 포함된 영역을 의미할 수 있다.
케스케이드 뉴럴 네트워크(104)는 복수의 뉴럴 네트워크를 포함할 수 있고, 케스케이드 뉴럴 네트워크가 포함하는 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함할 수 있다. 또한, 케스케이드 뉴럴 네트워크(104)를 구성하는 복수의 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크 및 볼츠만 네트워크를 포함할 수 있다.
뉴럴 네트워크에 포함되는 복수의 병렬 서브 뉴럴 네트워크 각각은 서로 다른 타겟 속성에 대응될 수 있다. 타겟 속성이란, 타겟이 가진 고유한 특성을 의미할 수 있다.
예를 들어, 타겟이 사람의 얼굴인 경우에, 타겟 속성은 얼굴의 정면 자태(front face posture), 얼굴의 측면 자태(side face posture), 얼굴의 정면 또는 측면의 회전에 의한 자태(front face or side face by rotation), 피부색(skin color), 조명 조건(light condition), 겹침 효과(occlusion), 선명도(clarity) 중에서 적어도 하나를 포함할 수 있다.
여기서, 피부색은 백인의 피부색, 황인의 피부색, 흑인의 피부색 및 갈색 피부색을 포함할 수 있다. 조명 조건은 역광, 어두운 광 및 역광 및 어두운 광을 제외한 정상 조명을 포함할 수 있다. 선명도는 뚜렷함 및 희미함을 포함할 수 있다.
계속해서 예를 들면, 어느 하나의 서브 뉴럴 네트워크는 얼굴의 정면 자태, 확인의 피부색, 역광 및 희미함을 포함하는 타겟 속성에 대응될 수 있다.
케스케이드 뉴럴 네트워크(104)는 2 개 이상의 뉴럴 네트워크를 포함할 수 있다. 각각의 뉴럴 네트워크는 검출할 이미지로부터 후보 영역을 분류할 수 있다.
케스케이드 뉴럴 네트워크(104)는 트리 아치(tree arch) 형태를 가진 2 스테이지 모델로 구현될 수 있다. 2 스테이지 모델의 동작은 도 9를 참조하여 자세하게 설명할 것이다.
케스케이드 뉴럴 네트워크(104)가 2 개의 뉴럴 네트워크로 이루어진 경우, 각각의 뉴럴 네트워크를 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크로 구분할 수 있다. 제2 뉴럴 네트워크는 제1 뉴럴 네트워크의 분류 결과를 분류할 수 있다.
이 때, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크 중에서 적어도 하나는 복수의 병렬 서브 뉴럴 네트워크를 포함할 수 있다.
예를 들어, 제2 뉴럴 네트워크가 복수의 병렬 서브 뉴럴 네트워크를 포함하고, 사람의 얼굴이 타겟인 경우, 제2 뉴럴 네트워크는 얼굴의 정면 자태에 대응하는 서브 뉴럴 네트워크, 얼굴의 측면 자태에 대응하는 서브 뉴럴 네트워크, 서로 다른 피부색에 대응하는 서브 뉴럴 네트워크 및 역광에 기초한 서브 뉴럴 네트워크를 포함할 수 있다.
복수의 서브 뉴럴 네트워크는 서로 독립적이고, 병렬관계일 수 있다. 즉, 복수의 서브 뉴럴 네트워크들은 동시에 또는 다른 시간에 사용될 수 있다.
제1 분류기(1021)는 제1 뉴럴 네트워크를 이용하여 검출할 이미지로부터 복수의 영역을 분류할 수 있다. 제2 분류기(1022)는 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 이용하여 복수의 영역을 복수의 타겟 후보 영역 및 복수의 비타겟(non-target) 후보 영역으로 분류할 수 있다.
케스케이드 뉴럴 네트워크(104)는 3 개의 뉴럴 네트워크 또는 4 개의 뉴럴 네트워크를 포함할 수도 있다. 복수의 뉴럴 네트워크 중에서 적어도 하나는 복수의 병렬 서브 뉴럴 네트워크를 포함할 수 있다.
일 예로, 제1 뉴럴 네트워크는 하나의 서브 뉴럴 네트워크로 구성되고, 제2 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함하고, 제3 뉴럴 네트워크는 하나의 서브 뉴럴 네트워크로 구성되고, 제4 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함할 수 있다.
이 때, 제2 뉴럴 네트워크가 포함하는 복수의 병렬 서브 뉴럴 네트워크 중에서 적어도 하나는 제1 뉴럴 네트워크의 분류결과를 분류할 수 있다.
다른 예로, 케스케이드 뉴럴 네트워크(104)가 3 개의 뉴럴 네트워크를 포함하는 경우에, 제1 뉴럴 네트워크는 하나의 서브 뉴럴 네트워크로 구성되고, 제2 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함하고, 제3 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함할 수 있다.
이 때, 하나의 제2 뉴럴 네트워크가 포함하는 복수의 병렬 서브 뉴럴 네트워크 중에서 적어도 하나는 제1 뉴럴 네트워크의 분류 결과를 분류하고, 제3 뉴럴 네트워크가 포함하는 복수의 병렬 서브 뉴럴 네트워크 중에서 적어도 하나는 제2 서브 뉴럴 네트워크의 분류결과를 분류할 수 있다.
최종적으로, 마지막 뉴럴 네트워크의 분류를 통해, 복수의 타겟 후보 영역과 복수의 비타겟 후보 영역을 획득함으로써 후보 영역을 결정할 수 있다.
이하에서, 도 3a, 도 3b 및 도 3c를 참조하여 케스케이드 뉴럴 네트워크를 학습시키는 동작에 대하여 설명할 것이다.
도 3a는 일 실시예에 따른 학습 장치의 개략적인 블록도를 나타내고, 도 3b는 도 1에 도시된 케스케이드 뉴럴 네트워크에 포함된 제1 뉴럴 네트워크를 학습(training)시키는 동작의 순서도를 나타낸다.
도 3a를 참조하면, 학습 장치(training device, 20)는 학습기(trainer, 300) 및 케스케이드 뉴럴 네트워크를 포함할 수 있다.
학습기(300)는 복수의 긍정 샘플 및 복수의 부정 샘플에 기초하여 제1 뉴럴 네트워크를 사전 학습시킬 수 있다(S301).
긍정 샘플이란 이미 알고 있는 복수의 이미지 영역으로 구성된 샘플 집합에서, 타겟 영역의 면적이 설정된 역치 값(threshold value)에 도달한 이미지 영역을 의미할 수 있고, 부정 샘플은 타겟 영역의 면적이 설정된 역치 값에 도달하지 못한 이미지 영역을 의미할 수 있다.
예를 들어, 학습기(300)는 타겟 영역의 면적이 타겟 영역이 속한 이미지 영역의 30 %에 도달한 경우 이미지 영역을 긍정 샘플로 결정하고, 타겟 영역의 면적이 타겟 영역이 속한 이미지 영역의 30 %에 도달하지 못한 경우 이미지 영역을 부정 샘플로 결정할 수 있다.
사람의 얼굴이 타겟인 경우를 예로들면, 학습기(300)는 얼굴의 정면, 얼굴의 측면, 얼굴의 회전 등을 포함하는 복수의 자태, 복수의 피부색 및 복수의 외부 조명 조건 등을 포함하는 타겟 속성을 가지는 이미지 영역을 긍정 샘플로 결정할 수 있다. 학습기(300)는 다양한 배경 이미지의 얼굴을 포함하지 않는 이미지 영역 및 다른 이미지 영역을 부정샘플로 결정할 수 있다.
학습기(300)는 제1 뉴럴 네트워크를 생성하고, 그 파라미터를 초기화할 수 있다.
학습기(300)는 복수의 긍정 샘플의 집합과 복수의 부정 샘플의 집합에서 랜덤으로 추출한 일정 수의 부정 샘플에 기초하여 생성한 제1 뉴럴 네트워크를 사전 학습시킬 수 있다. 학습기(300)는 사전 학습을 통해 제1 뉴럴 네트워크의 네트워크 파라미터를 결정할 수 있다. 학습기(300)가 제1 뉴럴 네트워크를 학습시키는 방법은 역방향 전파 알고리즘일 수 있다.
학습기(300)는 사전 학습시킨 후 제1 뉴럴 네트워크를 반복적으로 미세조절(fine-tune) 할 수 있다(S202). 학습기(300)는 타겟에 대한 검출율이 감소하거나 타겟에 대한 오차율이 상승할 때까지 미세조절을 반복할 수 있다.
학습기(300)는 마지막에서 두 번째 미세조절한 제1 뉴럴 네트워크를 최종 학습시킨 뉴럴 네트워크로 결정할 수 있다.
이 때, 타겟에 대한 검출율이 감소하거나, 타겟에 대한 오차율이 상승하는 경우란, 검출율 감소 검출율 감소 및 오차율 감소, 검출율 상승 및 오차율 상승, 검출율 감소 및 오차율 상승인 경우를 포함할 수 있다.
도 3c는 도 3b에 도시된 미세조절하는 동작의 순서도를 나타낸다.
도 3c를 참조하면, 학습기(300)는 제1 뉴럴 네트워크에 기초하여 복수의 부정 샘플을 분류하고, 긍정 샘플로 오분류된 부정 샘플을 결정할 수 있다(S3021).
이 때, 학습기(300)가 사용하는 제1 뉴럴 네트워크는 사전 학습된 제1 뉴럴 네트워크 및 미세조절된 뉴럴 네트워크를 포함할 수 있다.
학습기(300)는 제1 뉴럴 네트워크에 기초하여, 부정 샘플 집합의 부정 샘플 및 긍정 샘플의 두 개의 유형으로 샘플을 분류하고, 그 중에서 긍정 샘플로 오분류된 부정 샘플을 결정할 수 있다.
예를 들어, 학습기(300)는 부정 샘플 집합의 모든 부정 샘플을 긍정 샘플과 부정 샘플로 분류하고, 그 중에서 긍정 샘플로 오분류된 부정 샘플을 결정할 수 있다.
학습기(300)는 오분류된 부정 샘플, 복수의 부정 샘플 및 복수의 긍정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시킬 수 있다(S3022).
학습기(300)는 긍정 샘플로 오분류된 부정 샘플을 부정 샘플의 집합에서 랜덤으로 추출한 일정 수량의 부정 샘플과 혼합할 수 있다.
학습기(300)는 혼합된 복수의 부정 샘플과 복수의 긍정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시켜 네트워크 파라미터를 획듬함으로써, 제1 뉴럴 네트워크를 학습시킬 수 있다. 이 때, 학습기(300)는 역전파 알고리즘을 사용하여 제1 뉴럴 네트워크를 결정할 수 있다.
학습기(300)는 학습된 제1 뉴럴 네트워크에 기초하여 미리 설정한 테스트 샘플 집합을 분류할 수 있다(S3023). 테스트 샘플 집합은 분류 결과를 이미 알고 있는 샘플의 집합을 의미할 수 있다.
학습기(300)는 미리 설정한 테스트 샘플 집합에 포함된 복수의 샘플을 긍정 샘플과 부정 샘플로 분류할 수 있다. 예를 들어, 타겟이 사람의 얼굴인 경우 학습기(300)는 제1 뉴럴 네트워크에 기초하여 FDDB(Face Detection Data set and Benchmark) 집합의 복수의 샘플을 얼굴 영역과 얼굴이 아닌 영역으로 분류할 수 있다. 이 경우, 미리 설정된 테스트 샘플은 FFDB에 대응될 수 있고 얼굴 영역은 긍정 샘플, 얼굴이 아닌 영역은 부정 샘플에 대응될 수 있다.
학습기(300)는 타겟에 대한 검출율이 상승하고, 타겟에 대한 오차율이 감소할 경우 제1 뉴럴 네트워크를 반복적으로 미세조절하고, 타겟에 대한 검출율이 감소하거나 타겟에 대한 오차율이 상승할 경우 미세조절을 종료할 수 있다(S3024).
이 때, 학습기(300)는 반복적 미세조절로 획득한 분류 결과를 이미 분류 결과를 알고 있는 테스트 샘플 집합의 샘플들과 비교하여 제1 뉴럴 네트워크의 타겟에 대한 검출율과 오차율을 결정할 수 있다.
오차율은 긍정 샘플로 오분류된 부정 샘플 및 부정 샘플로 오분류된 긍정 샘플의 모든 샘플에 대한 비율을 의미할 수 있다. 검출율은 샘플 집합에서 검출한 긍정 샘플의 수의 샘플 집합 내의 전체 긍정 샘플에 대한 비율을 의미할 수 있다.
학습기(300)는 미세조절 후의 제1 뉴럴 네트워크의 타겟에 대한 검출율 및 타겟에 대한 오차율을 미세조절 전의 검출율 및 오차율과 비교할 수 있다. 비교결과 미세 조절 후의 제1 뉴럴 네트워크의 타겟에 대한 검출율이 상승하고, 타겟에 대한 오차율이 감소한 경우, 제1 뉴럴 네트워크는 성능이 향상될 가능성이 있으므로, 학습기(300)는 다시 미세조절을 수행할 수 있다.
비교결과 미세조절 후에 제1 뉴럴 네트워크의 타겟에 대한 검출율이 감소하고, 오차율이 상승한 경우, 학습기(300)는 제1 뉴럴 네트워크의 성능이 최고점에 도달하였음을 판단하여 미세조절을 종료할 수 있다.
도 4는 도 3b에 도시된 제1 뉴럴 네트워크의 구조의 예시이다.
도 4를 참조하면, 제1 뉴럴 네트워크는 복수의 네트워크를 포함할 수 있다. 제1 뉴럴 네트워크는 가장 좌측부터 입력층(input layer), 5개의 히든층(hidden layer) 및 출력층(output layer)을 포함할 수 있다. 5개의 히든층은 좌측부터 제1 컨벌루션층(convolution layer)(또는 제1 필터층(filter layer)), 제1 풀링층(pooling layer), 제2 컨벌루션층, 제2 풀링층 및 풀 조인층(full join layer)를 의미할 수 있다.
입력층은 높이 12, 깊이 12인 12×12 개의 뉴런 행렬로 표현될 수 있다. 입력 이미지는 12×12의 픽셀 포인트 행렬에 대응될 수 있다.
제1 컨벌루션층은 높이 10, 깊이 10 및 너비 32인 직육면체로 표현될 수 있고, 학습기(300)는 입력 이미지를 컨벌루션하여 32개의 특징맵(characteristic map)들로 표현할 수 있다. 각각의 특징맵은 10×10 픽셀 포인트를 포함할 수 있다.
입력층과 제1 컨벌루션층 사이의 컨벌루션 스텝 사이즈는 제1 컨벌루션층의 컨벌루션 스텝사이즈를 나타내는 것일 수 있다. 제1 컨벌루션층은 32개의 제1 컨벌루션 커널(Convolution Kernel(또는 필터))들을 포함하고, 각각의 커널은 특징맵에 대응하고, 각각의 컨벌루션 커널은 5×5 뉴런 행렬을 포함할 수 있다.
각각의 컨벌루션 커널은 5×5 뉴련 행렬을 단위 행렬로 템플릿을 스캔하고, 컨벌루션 스텝 픽셀(도 4에서는 컨벌루션 스텝사이즈가 1일 때, 하나의 픽셀을 의미함)의 간격을 가지고 템플릿을 스캔하여, 입력층의 뉴런에 대응하는 픽셀들을 스캔할 수 있다.
스캔 과정에서 각각의 컨벌루션 커널은 복수의 5×5 픽셀 포인트에 대한 컨벌루션 스텝 간격에 대응하는 입력층을 컨벌루션할 수 있다. 학습기(300)는 입력층에서 컨벌루션 스텝 사이즈를 간격으로 하는 복수의 5×5 뉴런 영역이 대응하는 픽셀 포인트를 제1 컨벌루션 결과 중 하나의 특징맵의 픽셀 포인트에 매핑시킬 수 있다.
제1 풀링층은 높이 5, 깊이 5, 너비 32인 직육면체로 표현될 수 있고, 제1 컨벌루션 결과 32 개의 특징맵이 제1 풀링층을 통과한 결과를 32개의 특징맵을 가질 수 있고, 각각의 특징맵은 5×5 픽셀 포인트를 포함할 수 있다.
제1 컨벌루션층과 제1 풀링층 사이의 풀링 스텝 사이즈는 제1 풀링층의 풀링 스텝사이즈를 의미할 수 있다. 제1 풀링층은 32개의 제1 풀링 커널을 포함하고, 32개의 특징맵을 가질 수 있다. 각각의 풀링 커널은 3×3 뉴런 행렬을 포함할 수 있다.
학습기(300)는 각각의 풀링 커널로 3×3 뉴런 행렬을 단위로 템플릿을 스캔하고, 풀링 스텝 사이즈 픽셀(풀링 스텝 사이즈가 1일 때, 하나의 픽셀을 의미함) 간격으로 제1 컨벌루션층의 특징맵을 스캔할 수 있다.
스캔과정에서 학습기(300)는 제1 컨벌루션 특징맵에서 풀링 스텝 사이즈를 간격으로 하는 복수의 3×3 픽셀 포인트를 풀링한 후, 풀링 결과로 특징맵을 획득할 수 있다.
학습기(300)는 제1 컨벌루션층의 특징맵을 풀링 스텝 사이즈를 간격으로하여 복수의 3×3 픽셀 포인트를 제1 풀링층의 특징맵에 매핑시킬 수 있다.
제2 컨벌루션층은 높이 4, 깊이 4 및 너비 32인 직육면체로 표현될 수 있고, 학습기(300)는 제1 풀링층의 32개의 특징맵이 제2 컨벌루션층을 통과한 후에 제2 컨벌루션층의 32개의 특징맵을 획득할 수 있다. 각각의 특징도는 4×4 픽셀 포인트를 포함할 수 있다.
제2 풀링층은 높이 2, 깊이 2, 너비 32인 직육면체로 표현될 수 있고, 학습기(300)는 제2 컨벌루션층의 32개의 특징맵을 제2 풀링하여 제2 풀링층의 32개의 특징맵을 획득할 수 있다. 각각의 특징맵은 2×2 픽셀 포인트를 포함할 수 있다.
제2 컨벌루션 층과 제2 풀링층의 동작은 제1 컨벌루션층과 제1 풀링층의 동작과 동일할 수 있다.
풀조인층은 32개의 뉴런을 포함할 수 있다. 풀조인층의 각각의 뉴런은 독립적으로 제2 풀링층의 각각의 뉴런과 연결될 수 있다.
출력층은 2개의 뉴런을 포함할 수 있다. 출력층의 각각의 뉴런은 독립적으로 풀조인층의 각각의 뉴런과 연결될 수 있다.
도 5a는 도 1에 도시된 케스케이드 뉴럴 네트워크에 포함된 제2 뉴럴 네트워크를 학습시키는 동작의 순서도를 나타낸다.
도 5a를 참조하면, 학습기(300)는 제2 뉴럴 네트워크를 이용하여 제1 뉴럴 네트워크에 의해서 긍정 샘플로 오분류된 부정샘플을 결정할 수 있다(S501).
학습기(300)는 오분류된 부정 샘플, 복수의 부정 샘플, 복수의 긍정 샘플에 기초하여 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 사전 학습시킬 수 있다(S502).
학습기(300)는 제2 뉴럴 네트워크에 포함되는 복수의 서브 뉴럴 네트워크를 생성하고, 그 파라미터를 랜덤 초기화할 수 있다. 학습기(300)는 긍정 샘플로 오분류된 부정 샘플을 부정 샘플 집합에서 랜덤으로 추출한 일정 수의 부정 샘플과 혼합할 수 있다.
학습기(300)는 복수의 긍정 샘플과 복수의 혼합된 부정 샘플에 기초하여, 제2 뉴럴 네트워크에 포함된 복수의 병렬 서브 뉴럴 네트워크를 학습시켜 제2 뉴럴 네트워크의 네트워크 파라미터를 획득함으로써, 사전 학습시킨 제2 뉴럴 테느워크에 포함된 복수의 병렬 서브 뉴럴 네트워크를 결정할 수 있다.
학습기(300)는 역방향 전파 알고리즘을 이용하여 사전 학습을 수행할 수 있다.
학습기(300)는 사전 학습된 제2 뉴럴 네트워크에 포함된 복수의 병렬 서브 뉴럴 네트워크에 대하여 타겟에 대한 검출율이 감소하거나 타겟에 대한 오차율이 상승할 때까지 반복적으로 미세조절할 수 있다(S503).
학습기(300)는 제2 뉴럴 네트워크에 포함된 복수의 병렬 서브 뉴럴 네트워크의 검출율이 감소하거나 오차율이 상승하면, 마지막에서 두 번째 미세조절한 복수의 서브 뉴럴 네트워크를 최종 학습시킨 뉴럴 네트워크로 결정할 수 있다.
도 5b는 도 5a에 도시된 미세조절하는 동작의 순서도를 나타낸다.
도 5b를 참조하면, 학습기(300)는 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크에 기초하여 복수의 부정 샘플을 분류하고, 긍정 샘플로 오분류된 부정 샘플을 결정할 수 있다(S5021).
제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크는 사전 학습된 서브 뉴럴 네트워크 또는 미세조절된 서브 뉴럴 네트워크일 수 있다.
학습기(300)는 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크에 기초하여 부정 샘플 집합의 부정 샘플을 긍정 샘플과 부정 샘플로 분류하고, 그 중에서 긍정 샘플로 오분류된 부정 샘플을 결정할 수 있다.
학습기(300)는 오분류된 부정 샘플, 복수의 부정 샘플 및 복수의 긍정 샘플에 기초하여, 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크를 학습시킬 수 있다(S5022).
학습기(300)는 긍정 샘플로 오분류된 부정 샘플을 부정 샘플 집합에서 랜덤으로 추출한 일정 수의 부정 샘플과 혼합할 수 있다.
복수의 긍정 샘플과 혼합된 복수의 부정 샘플에 기초하여 서브 뉴럴 네트워크를 학습시켜 네트워크 파라미터를 획득함으로써, 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크를 결정할 수 있다.
학습기(300)는 역방향 전파 알고리즘을 이용하여 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크를 학습시킬 수 있다.
학습기(300)는 학습된 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크에 기초하여 미리 설정한 테스트 샘플 집합을 분류할 수 있다(S5023).
학습기(300)는 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크에 기초하여, 미리 설정한 테스트 샘플 집합의 복수의 샘플을 복수의 긍정 샘플 및 복수의 부정 샘플로 분류할 수 있다.
예를 들어, 학습기(300)는 FDDB의 복수의 샘플을 얼굴 영역과 얼굴이 아닌 영역으로 분류할 수 있다.
학습기(300)는 타겟에 대한 검출율이 상승하고, 타겟에 대한 오차율이 감소할 경우 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크를 반복적으로 미세조절하고, 검출율이 감소하거나 오차율이 상승할 경우에 미세조절을 종료할 수 있다(S5024).
학습기(300)는 반복적인 미세조절로 인하여 획득한 분류 결과와 분류 결과를 미리 알고 있는 테스트 샘플 집합의 분류 결과와 비교하여 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크의 타겟에 대한 검출율 및 오차율을 결정할 수 있다.
학습기(300)는 미세조절한 후의 검출율 및 오차율을 미세조절하기 전의 검출율 및 오차율과 비교할 수 있다.
비교결과, 미세조절 후의 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크의 타겟에 대한 검출율이 상승하고 타겟에 대한 오차율이 감소하면, 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크의 성능이 향상될 가능성이 있다고 판단하여 미세조절을 반복하여 수행할 수 있다.
비교결과가 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크의 타겟에 대한 검출율이 감소하고, 타겟에 대한 오차율이 상승하면, 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크의 성능이 최고점에 도달했다고 판단하여 미세조절을 종료할 수 있다.
도 6은 도 5a에 도시된 제2 뉴럴 네트워크에 포함된 서브 뉴럴 네트워크의 구조의 예시이다.
도 6을 참조하면, 좌측부터 입력층, 7 개의 히든층, 출력층을 포함할 수 있다. 히든층은 좌측부터 제1 컨벌루션층, 제1 풀링층, 제2 컨벌루션층, 제2 풀링층, 제3컨벌루션층, 제3 풀링층 및 풀조인층을 의미할 수 있다.
입력층은 높이 48, 깊이 48을 갖는 48×48 뉴런 행렬로 표현될 수 있다. 입력 이미지는 48×48 픽셀 포인트 행렬에 대응될 수 있다.
제1 컨벌루션층은 높이 44, 깊이 44, 너비 32인 직육면체로 표현될 수 있고, 학습기(300)는 입력 이미지를 제1 컨벌루션층에 포함된 32 개의 특징맵으로 컨벌루션할 수 있다. 각각의 특징맵은 44×44 개의 픽셀 포인트를 포함할 수 있다.
입력층과 제1 컨벌루션층 사이의 컨벌루션 스텝 사이즈는 제1 컨벌루션 스텝사이즈를 의미할 수 있다. 제1 컨벌루션층은 32개의 제1 컨벌루션 커널(또는 필터)를 포함할 수 있고, 32개의 제1 컨벌루션 커널은 32개의 특징맵에 대응될 수 있다. 제1 컨벌루션 커널은 5×5 뉴런 행렬을 포함할 수 있다.
학습기(300)는 각각의 제1 컨벌루션 커널은 5×5 뉴런 행렬을 단위로 템플릿을 스캔하고, 컨벌루션 스텝 사이즈 픽셀(컨벌루션 스텝 사이즈가 2일 때, 두 개의 픽셀을 의미함)의 간격으로 스캔하여 입력층의 뉴런에 대응하는 픽셀 포인트를 스캔할 수 있다.
학습기(300)는 스캔 과정 중에, 각각의 제1 컨벌루션 커널을 이용하여 입력층에 대응하는 컨벌루션 스텝 사이즈 간격으로 복수의 5×5 픽셀 포인트를 컨벌루션 하여 특징맵을 획득할 수 있다.
학습기(300)는 입력층에서 컨벌루션 스텝 사이즈를 간격으로 하는 복수의 5×5 뉴런 영역에 대응되는 픽셀 포인트를 제1 컨벌루션층의 특징맵의 복수의 픽셀 포인트에 매핑시킬 수 있다.
제1 풀링층은 높이 22, 깊이 22, 너비 32인 직육면체로 표현될 수 있고, 학습기(300)는 32개의 제1 컨벌루션층을 풀링하여 제1 풀링층의 32개의 특징맵을 획득할 수 있다. 각각의 특징맵은 22×22 개의 픽셀 포인트를 포함할 수 있다.
제1 컨벌루션층과 제1풀링층 사이의 스텝 사이즈는 제1 풀링층의 풀링 스텝 사이즈를 의미할 수 있다. 제1 풀링층은 32 개의 제1 풀링 커널을 포함하고, 32개의 풀링 커널은 32개의 특징맵에 대응될 수 있다. 각각의 풀링 커널은 3×3 뉴런 행렬을 포함할 수 있다.
학습기(300)는 각각의 제1 풀링 커널 3×3 뉴런 행렬을 단위로 하여 템플릿을 스캔하고, 풀링 스텝 사이즈 픽셀(풀링 스텝 사이즈가 2일 때, 두 개의 픽셀을 의미함) 간격으로 제1 컨벌루션층 특징맵의 픽셀 포인트를 스캔할 수 있다.
학습기(300)는 각각의 제1 풀링 커널을 이용하여 제1 컨벌루션층의 특징맵에서 풀링 스텝 사이즈를 간격으로 하는 복수의 3×3 픽셀 포인트를 풀링하여 제1 풀링층의 특징맵을 획득할 수 있다.
학습기(300)는 제1 컨벌루션의 특징맵을 복수의 3×3 픽셀 포인트를 풀링 스텝 사이즈 간격으로 풀링하여 제1 풀링층의 특징맵의 복수의 픽셀 포인트에 대응시킬 수 있다.
제2 풀링층은 높이 18, 깊이 18, 너비 32인 직육면체로 표현될 수 있고, 학습기(300)는 제1 풀링층의 32개 특징맵을 컨벌루션하여 제2 컨벌루션층의 32개의 특징맵을 획득할 수 있다. 제2 컨벌루션층의 특징맵은 18×18 개 픽셀 포인트를 포함할 수 있다.
제2 풀링층은 높이 9, 깊이 9, 너비 64인 직육면체로 표현될 수 있고, 학습기(300)는 제2 컨벌루션층의 32개의 특징맵을 풀링하여 제2 풀링층의 64개의 특징맵을 획득할 수 있다. 각각의 제2 풀링층의 특징맵은 9×9 픽셀 포인트를 포함할 수 있다.
제3 컨벌루션층은 높이 7, 깊이 7, 너비 64인 직육면체로 표현될 수 있고, 학습기(300)는 제2 풀링층의 64개의특징맵을 컨벌루션하여 64 개의 제3 컨벌루션층의 특징맵을 획득할 수 있다. 각각의 제3 컨벌루션층의 특징맵은 7×7 픽셀 포인트를 포함할 수 있다.
제3 풀링층은 높이 3, 깊이 3, 너비 64인 직육면체로 표현될 수 있고, 학습기(300)는 제3 컨벌루션층의 64개의 특징맵을 풀링하여 제3 풀링층의 64개의 특징맵을 획득할 수 있다. 각각의 제2 풀링층의 특징맵은 3×3 픽셀 포인트를 포함할 수 있다.
제2 컨벌루션층 및 제3 컨벌루션층은 제1 컨벌루션층의 동작과 동일하게 동작할 수 있고, 제2 풀링층 및 제3 풀링층은 제1 풀링층과 동일하게 동작할 수 있다.
풀조인층은 64×64 개의 뉴런을 포함할 수 있다. 풀조인층의 각각의 뉴런은 독립적으로 제3 풀링층의 뉴런과 연결될 수 있다.
출력층은 2개의 뉴런을 포함할 수 있다. 출력층의 각각의 뉴런은 독립적으로 풀조인층의 뉴런과 연결될 수 있다.
도 7은 도 1에 도시된 타겟 검출장치가 영상 피라미드를 생성하여 타겟을 검출하는 동작의 순서도를 나타내고, 도 8은 도 7에 도시된 이미지 피라미드의 예시이다.
도 7 및 도 8을 참조하면, 이미지 획득기(101)는 검출할 이미지에 기초하여 이미지 피라미드를 생성할 수 있다(S710).
이미지 획득기(101)는 검출할 이미지를 획득할 수 있다. 이미지는 독립적인 단일 이미지 또는 비디오 영상 중의 프레임을 포함할 수 있다.
이미지 획득기(101)는 검출할 이미지를 타겟 검출 장치(10)의 템플릿 사이즈가 될 때까지, 미리 설정한 배율에 기초하여 점진적으로 축소할 수 있다. 타겟 검출 장치(10)의 템플릿은 제1 컨벌루션 뉴럴 네트워크의 입력층이 이미지를 획득한 단위 검출 영역을 의미할 수 있다. 템플릿의 하나의 뉴런은 이미지의 하나의 픽셀에 대응될 수 있다. 템플릿 및 검출할 이미지가 직사각형인 경우, 그 사이즈는 길이와 너비로 나타낼 수 있다.
이미지 획득기(101)는 실험 데이터, 역사 데이터, 경험 데이터 및/또는 실제 상황에 기초하여 축소 배율을 결정할 수 있다. 예를 들어, 이미지 획득기(101)는 축소 배율을 1.2배로 설정하고, 검출할 이미지를 매회 1.2배씩 축소하여 타겟 검출 장치(10)의 템플릿 사이즈에 도달할 때까지 축소할 수 있다.
이미지 획득기(10)는 검출할 이미지 및 점진적으로 축소한 영상을 사이즈에 따라 큰 이미지부터 작은 이미지의 순서로 아래에서부터 위로 겹쳐서 검출할 이미지의 이미지 피라미드를 생성할 수 있다. 이미지 피라미드의 최저층은 검출할 원본 이미지이고, 다른 층은 검출할 이미지가 점진적으로 축소된 후의 이미지일 수 있다.
도 8의 원본 이미지 척도는 이미지 획득기(101)가 획득한 원본 이미지의 크기를 나타내고, 검출기 템플렛 척도는 타겟 검출 장치(10)의 템플릿 크기를 나타낼 수 있다. 타겟 검출 장치(10)의 템플릿 크기는 제1 뉴럴 네트워크의 입력층의 템플릿 크기와 동일할 수 있다.
제1 분류기(1021)는 제1 뉴럴 네트워크에 기초하여 이미지 피라미드의 각각의 층 이미지에 포함된 복수의 후보 영역을 분류할 수 있다(S702).
제1 분류기(1021)는 제1 뉴럴 네트워크의 입력층의 템플릿을 슬라이딩 하는 방식으로 검출할 이미지의 이미지 피라미드에 포함된 각각의 층 이미지를 스캔할 수 있다.
제1 분류기(1021)는 매번 슬라이딩 할 때마다 템플릿을 통하여 층 이미지의 이미지 영역(템플릿 범위 내의 이미지 영역)을 한 번 획득할 수 있다. 템플릿을 통하여 획득한 층 이미지의 이미지 영역을 후보 영역으로 정의할 수 있다. 제1 분류기(1021)는 복수의 후보 영역과 그 후보 영역들이 속한 층 이미지의 대응관계를 기록할 수 있다.
입력층 템플릿의 뉴런과 이미지 영역의 픽셀 포인트는 일대일로 대응될 수 있다. 입력층 템플릿의 형태와 후보 영역의 형태는 완전히 일치할 수 있다. 템플릿이 뉴런의 행렬일 때, 대응하는 후보 영역은 픽셀 포인트 행렬일 수 있다.
제1 분류기(1021)는 뉴럴 네트워크를 통하여 각각의 후보 영역을 분류하고, 출력층에서 후보 영역을 타겟 후보 영역 및 비타겟 후보 영역으로 분류할 수 있다. 타겟 후보 영역이란 타겟을 포함하는 후보 영역을 의미하고, 비타겟 후보 영역이란 타겟을 포함하지 않는 후보 영역을 의미할 수 있다. 최종적으로, 제1 분류기(1021)는 이미지 피라미드의 각 층 이미지에 포함된 후보 영역의 분류 결과를 획득할 수 있다. 즉, 제1 뉴럴 네트워크의 분류 결과로 복수의 타겟 후보 영역 및 복수의 비타겟 후보 영역을 획득할 수 있다.
제2 분류기(1022)는 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크에 기초하여 제1 뉴럴 네트워크가 분류한 영역을 복수의 타겟 후보 영역과 복수의 비타겟 후보 영역으로 분류할 수 있다(S703).
제2 뉴럴 네트워크에 포함된 복수의 병렬 서브 뉴럴 네트워크는 제1 뉴럴 네트워크의 분류 결과를 뉴럴 네트워크의 입력으로 사용할 수 있다. 예를 들어, 제1 뉴럴 네트워크가 분류한 복수의 타겟 후보 영역 및 복수의 비타겟 후보 영역을 제2 뉴럴 네트워크의 병렬 서브 뉴럴 네트워크의 입력으로 사용할 수 있다.
상술한 바와 같이 복수의 병렬 서브 뉴럴 네트워크는 서로 다른 타겟 속성에 대응될 수 있다.
복수의 병렬 서브 뉴럴 네트워크 각각은 독립적이고, 병렬로 동작하므로 제2 분류기(1022)는 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크 각각을 이용하여 입력 정보를 독립적으로 수신하고, 분류 결과를 독립적으로 출력할 수 있다.
제1 뉴럴 네트워크의 입력층의 템플릿 사이즈는 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크의 입력층 템플릿 사이즈와 일치할 수 있다.
제2 분류기(1022)는 교차, 직렬 또는 랜덤등의 비동시 방식으로 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크를 이용하여 제1 뉴럴 네트워크가 분류한 복수의 타겟 후보 영역 및 복수의 비타겟 후보 영역을 분류할 수 있다.
제2 분류기(1022)는 각각의 서브 뉴럴 네트워크의 출력층에서 분류 결과를 출력하여 타겟 후보 영역 및 비타겟 후보 영역의 분류 결과를 획득할 수 있다.
제2 분류기(1022)는 제2 뉴럴 네트워크에 포함된 복수의 병렬 서브 뉴럴 네트워크에 대하여 선택 명령을 전송할 수 있고, 각각의 서브 뉴럴 네트워크는 선택 명령을 수신한 경우 제1 뉴럴 네트워크의 분류결과를 분류할 수 있다.
제2 분류기(1022)는 선택 명령을 통하여 서브 뉴럴 네트워크를 선택적으로 조작함으로써, 사용자의 여러 요구를 융통성있게 만족시킬 수 있다. 이를 통하여 타겟 검출 장치(10)는 모든 서브 뉴럴 네트워크를 조절하여 분류하는 것에 비하여 시스템의 계산 자원을 절약할 수 있다. 따라서, 타겟 검출 장치(10)는 하드웨어 사양이 낮거나, 계산 성능이 떨어지는 장비에 쉽게 적용될 수 있다.
타겟 영역 결정기(103)는 복수의 타겟 후보 영역 각각이 속한 이미지 피라미드의 층 이미지들 및 복수의 타겟 후보 영역 각각이 속한 층 이미지들 간의 크기 및 위치 차이에 기초하여 복수의 타겟 후보 영역의 크기 및 위치를 표준화하고, 표준화된 복수의 타겟 후보 영역을 병합하여 타겟 영역을 획득할 수 있다.
타겟 영역 결정기(103)는 복수의 후보 영역과 후보 영역이 속한 층 이미지의 대응관계에 기초하여 제2 뉴럴 네트워크의 복수의 병렬 서브 뉴럴 네트워크가 분류한 복수의 타겟 후보 영역이 속한 층 이미지를 결정할 수 있다.
타겟 영역 결정기(103)는 타겟 후보 영역이 속한 층 이미지와 이미지 파리마드의 층 이미지들 간의 크기 차이 및 위치 차이 값에 기초하여 타겟 후보 영역의 위치 및 크기를 결정함으로써 타겟 후보 영역의 크기 및 위치를 표준화 할 수 있다.
예를 들어, 타겟 영역 결정기(103)는 각각의 타겟 후보 영역이 속한 층 이미지와 검출할 이미지(이미지 피라미드의 가장 아래층 이미지) 사이의 위치 및 크기의 차이 값에 기초하여 타겟 후보 영역이 검출할 이미지에서 가지는 위치 및 크기를 결정함으로써 타겟 후보 영역의 크기 및 위치를 표준화할 수 있다.
타겟 영역 결정기(103)는 표준화된 복수의 타겟 후보 영역을 병합하여 타겟 영역을 획득할수 있다(S705).
표준화로 획득한 임의의 두 개의 타겟 후보 영역에 대하여 두 개의 타겟 후보 영역이 속한 층 이미지의 층 차이가 미리 설정한 층 차이 값보다 크지 않거나, 두 개의 타겟 후보 영역의 영역 교차비가 미리 설정한 제1 영역 교차비의 값보다 크면 타겟 영역 결정기(103)는 두 개의 타겟 후보 영역을 제1 병합할 수 있다.
타겟 영역 결정기(103)는 표준화된 복수의 타겟 후보 영역이 모두 병합될 때까지 제1 병합을 수행할 수 있다.
타겟 영역 결정기(103)는 표준화로 획득한 타겟 후보 영역이 x, y인 경우에, x와 y 사이의 영역 교집합과 영역 합집합을 결정하여 x와 y의 영역 교차비(예를 들어, 영역 교집합의 면적을 영역 합집합의 면적으로 나눈 값)를 계산할 수 있다.
예를 들어, 타겟 영역 결정기(103)는 미리 설정한 제1 영역 교차비의 값이 0.3인 경우, 타겟 영역 결정기(103)가 계산한 영역 교차비를 0.3과 비교할 수 있다.
또한, 타겟 영역 결정기(103)는 이미지 피라미드에서 x, y 각각이 속한 층의 레벨을 결정하고, 층 레벨의 차이를 계산하여 층 차이 값을 획득하고, 이를 미리 설정된 층 차이 값인 4와 비교할 수 있다.
타겟 영역 결정기(103)는 x와 y의 영역 교차비가 0.3보다 크고, 층 차이가 4보다 크지 않을 때, 타겟 후보 영역 x 및 y가 겹친다고 판단하고 x와 y를 제1 병합할 수 있다.
층 차이가 작은 타겟 후보 영역들은 층 차이가 큰 타겟 후보 영역들에 비하여 이미지가 겹칠(중복될) 확률이 높고, 영역 교차비가 큰 타겟 후보 영역들은 영역 교차비가 작은 타겟 후보 영역들에 비하여 이미지가 겹칠(중복될) 확률이 높기 때문에 병합 가능성이 높을 수 있다.
이미지 피라미드의 위층의 층 이미지는 아래층의 층 이미지의 축소를 통해 얻을 수 있고, 아래층의 층 이미지는 위층의 층 이미지의 모든 픽셀 포인트 또는 일부 픽셀 포인트를 포함할 수 있다. 따라서, 층 차이가 작은 타겟 후보 영역들은 중복되는 픽셀포인트가 많고, 영역 교차비가 큰 타겟 후보 영역들은 중복되는 픽셀 포인트가 많을 수 있다.
타겟 영역 결정기(103)는 중복이 많은 타겟 후보 영역들을 제1 병합함으로써,타겟 후보 영역의 수를 감소 시켜 후속 프로세스를 용이하게 할 뿐만 아니라, 병합 전과 비교하여 병합한 후의 타겟 후보 영역의 이미지 특징의 손실을 감소시키는데 유리할 수 있다. 또한, 중복이 많은 타겟 후보 영역들을 제1 병합함으로써, 검출효율도 향상시킬 수 있다.
타겟 영역 결정기(103)는 두 개의 타겟 후보 영역의 위치와 크기를 각각 누적하고 평균한 후에 제1 병합을 수행할 수 있다. 예를 들어, 타겟 후보 영역이 x, y인 경우에, 타겟 영역 결정기(103)는 x 및 y의 위치 좌표를 누적, 평균하고 x 및 y의 길이와 너비를 누적, 평균할 수 있다. 이 때, 타겟 영역 결정기(103)는 타겟 후보 영역 x를 누적, 평균한 타겟 후보 영역으로 치환하고 y를 타겟 후보 영역에서 제거할 수 있다.
타겟 영역 결정기(103)는 두 개의 겹치는 타겟 후보 영역에 대한 누적 평균을 통하여 1 병합을 수행할 수 있다. 타겟 영역 결정기(103)는 병합하기 전의 타겟 후보 영역들의 크기 및 위치 정보를 종합하여 병합함으로써 두 개의 타겟 후보 영역의 픽셀 포인트(이미지의 특징)을 종합적으로 포함할 수 있다. 이에 따라, 타겟 영역 결정기(103)는 겹쳐진 타겟 후보 영역의 이미지의 특징을 종합적으로 보유하면서 타겟 후보 영역의 수를 감소시킬 수 있다.
타겟 영역 결정기(103)는 제1 병합된 두 개의 타겟 후보 영역의 영역 교차비가 미리 설정한 제2 영역 교차비 값보다 큰 경우에 두 개의 제1 병합된 타겟 후보 영역을 제2 병합할 수 있다. 타겟 영역 결정기(103)는 두 개의 제1 병합된 타겟 후보 영역 중에 면적이 작은 타겟 후보 영역을 제거할 수도 있다.
타겟 영역 결정기(103)는 제1 병합된 타겟 후보 영역과 제2 병합된 타겟 후보 영역 사이에서 병합을 수행할 수 있으며, 이러한 병합을 2회 이상 수행할 수 있다. 타겟 영역 결정기(103)는 남아 있는 복수의 타겟 후보 영역 사이의 영역 교차비가 미리 설정한 제2 영역 교차비 보다 크지 않을 때까지 병합을 수행할 수 있다.
타겟 영역 결정기(103)는 제2 병합된 타겟 후보 영역 중에서 적어도 하나의 타겟 후보 영역을 타겟 영역으로 결정할 수 있다.
예를 들어, 타겟 영역 결정기(103)는 제1 병합된 두 개의 타겟 후보 영역 x와 z에 대해서 x와 z 사이의 영역 교차비 및 면적을 결정할 수 있다. x의 면적이 z의 면적보다 크고, x와 z 사이의 영역 교차비를 미리 설정한 제2 교차비인 0.4와 비교하여, 영역 교차비가 0.4보다 큰 경우에 면적이 작은 z를 제거하고 x를 타겟 후보 영역으로 치환함으로써 제2 병합을 완성할 수 있다.
영역 교차비가 큰 타겟 후보 영역들 사이에는 많은 중복 픽셀 포인트가 있고, 타겟 후보 영역들 사이의 이미지 중복율이 비교적 높을 수 있다. 두 개의 타겟 후보 영역의 영역 교차비가 미리 설정한 제2 영역 교차비 값보다 크면, 면적이 큰 타겟 후보 영역은 면적이 작은 타겟 후보 영역보다 더 많은 픽셀 포인트를 가지고, 더 많은 이미지 특징을 가지고, 더 큰 대표성을 가질 수 있다.
중복된 픽셀 포인트가 많은 타겟 후보 영역을 제2 병합하면 타겟 후보 영역의 수를 감소시킬 수 있어 후속 작업에 유리할 뿐만 아니라 대부분의 이미지 특징을 보유할 수 있어, 타겟 검출 장치(10)의 검출 효율을 상승시키는데 유리할 수 있다.
표 1은 타겟 검출 장치(10)와 기존 기술들 간의 성능을 비교한 결과를 나타낸다.
방법 검출율 오검출량 평균속도 모델사이즈
Adaboost 88% 500 100msec 5MB
CascadeCNN 83% 500 250msec 15MB
Other CNN 96% 500 500msec 보다 큼 100~500MB
타겟 검출 장치(10) 90% 500 200msec 1MB
표 1은 FDDB 얼굴 검출 데이터 집합에 대하여 검출을 수행한 결과를 의미할 수 있다. 타겟 검출 장치(10)의 검출율은 Adaboost 알고리즘과 CascadeCNN 알고리즘에 기초한 방법보다 높을 수 있다.
모델 사이즈는 모델이 차지하는 저장공간을 의미할 수 있다. 타겟 검출 장치(10)가 케스케이드 컨벌루션 뉴럴 네트워크를 사용하여 모델 분류를 수행할 때, 분류 모델이 차지하는 저장공간은 1MB도 되지 않아 기존 기술에 비하여 훨씬 적은 공간을 차지할 수 있다.
또한, 타겟 검출 장치(10)는 하드웨어 사양이 비교적 낮고, 계산 성능이 떨어지는 장비에 대해서도 모델 분류를 수행할 수 있기 때문에 범용적으로 사용될 수 있다.
타겟 검출 장치(10)의 평균 검출 속도는 CascadeCNN 알고리즘에 비하여 현저하게 높을 수 있다. 표 1을 참조하면 타겟 검출 장치(10)는 CascadeCNN 알고리즘에 비하여 50 msec의 검출 시간을 절약할 수 있다. 타겟 검출 장치(10)는 비교적 높은 검출율, 빠른 평균 검출 속도 및 최소의 모델 사이즈를 가질 수 있다.
표 1의 데이터는 하드웨어의 사양과 계산 성능이 미치는 영향을 제거하기 위하여, 높은 하드웨어 사양과 계산 성능을 가지는 장비에서 모델 분류를 수행한 결과일 수 있다.
장비의 하드웨어 사양 및 계산 성능이 낮아질 때, 기존 기술의 방안은 분류 모델의 사이즈가 크게 때문에, 검출 속도가 늦어지거나 검출율이 감소하는 현상이 나타나고, caton 시스템 정지 상황이 발생하여 실용성을 잃는 경우도 발생할 수 있다.
이에 반하여, 타겟 검출 장치(10)는 하드웨어 성능의 변화에 따른 분류 성능의 변화가 테스트 오차범위 내에 있고, 감소하는 현상을 나타내지 않을 수 있다. 따라서, 검출율, 검출 속도 및 모델 사이즈를 종합적으로 비교하면, 타겟 검출 장치(10)는 하드웨어 성능이 낮은 장비에 최적화된 검출 방법을 제공할 수 있다.
타겟 검출 장치(10)는 2 이상의 뉴럴 네트워크 및 복수의 병렬 서브 뉴럴 네트워크를 이용하여 후보 영역을 분류함으로써, 검출할 영상에 대한 분류 정확도를 높일 수 있고, 정확한 타겟 영역을 결정할 수 있다.
또한, 병렬 서브 뉴럴 네트워크를 이용함으로써, 케스케이드되는 뉴럴 네트워크의 수를 감소함과 동시에 계산 속도를 향상시킬 수 있고, 분류 모델이 차지하는 저장공간을 대대적으로 감소시켜 하드웨어 성능 및 계산 성능이 낮은 장비에 적용될 수 있다.
또한, 타겟 검출 장치(10)는 병렬 서브 뉴럴 네트워크 각각에 서로 다른 타겟 속성을 대응시킴으로써, 타겟 후보 영역 및 비타겟 후보 영역에 대한 식별의 정확도를 대대적으로 향상시킬 수 있고, 이에 따라, 타겟 검출율을 향상시킬 수 있다.
이러한 타겟 검출율의 향상으로 타겟 검출 장치(10)는 많은 수의 뉴럴 네트워크를 사용하지 않고 계산 속도를 향상시킬 수 있을 뿐만 아니라, 분류 모델이 차지하는 저장공간을 감소시킬 수 있다.
타겟 검출 장치(10)는 뉴럴 네트워크를 반복적으로 미세조절함으로써, 뉴럴 네트워크의 검출율을 점진적으로 향상시키고, 오차율을 점진적으로 감소시켜 검출율이 가장 높고 오차율이 가장 낮은 뉴럴 네트워크를 결정할 때까지 미세조절을 수행할 수 있다.
타겟 검출 장치(10)는 이러한 미세조절을 통하여 뉴럴 네트워크의 잠재적인 성능을 충분히 발굴하여 2 개의 뉴럴 네트워크만으로 기존의 6 개의 뉴럴 네트워크를 이용한 분류 모델의 성능을 능가할 수 있다.
타겟 검출 장치(10)는 뉴럴 네트워크의 수를 절약하고 분류 모델의 구조를 단순화하여 저장공간을 감소시키고, 하드웨어 성능 및 계산 성능이 낮은 장비에 적용될 수 있다.
타겟 검출 장치(10)는 타겟 후보 영역을 병합함으로써, 병합 전과 비교하여 영상 특징을 손실시키기 않으면서 타겟 검출율을 향상시킬 수 있다.
도 9는 2 스테이지 모델을 이용하여 타겟을 검출하는 동작의 예시를 나타낸다.
도 9를 참조하면, 타겟 검출 장치(10)는 제1 스테이지 및 제2 스테이지를 포함할 수 있다. 제1 스테이지는 제1 뉴럴 네트워크로 구현되고, 제2 스테이지는 제2 뉴럴 네트워크로 구현될 수 있다.
2 스테이지 모델을 이용한 타겟 검출 장치(10)는 성능을 향상시키기 위해서 리프 모델(leaf model)들을 결합할 수 있고, 얕은 심층 모델(shallow deep model)의 성능을 향상시킬 수 있다.
제1 스테이지는 제1 뉴럴 네트워크를 이용하여 복수의 후보 영역을 분류할 수 있다.
제2 스테이지는 제2 뉴럴 네트워크를 이용하여 타겟 영역을 결정할 수 있다.
제2 스테이지는 복수의 병렬 서브 뉴럴 네트워크를 이용하여 제1 스테이지의 분류 결과를 정제(refine)하고, 타겟 후보 영역을 병합(merge)함으로써 타겟 영역을 획득할 수 있다.
제2 스테이지는 복수의 병렬 서브 뉴럴 네트워크에 대하여 동시에 미세조절을 수행할 수 있다. 이 때, 제2 스테이지는 복수의 데이터 셋(dataset)을 이용하여 미세조절을 수행할 수 있다.
타겟 검출 장치(10)는 2 스테이지 모델을 이용하여 사람의 얼굴을 검출할 수 있다. 타겟 검출 장치(10)는 기존의 2 개를 초과한 뉴럴 네트워크를 사용하여 얼굴을 검출하는 방법에 비하여 적은 수의 뉴럴 네트워크를 이용하여 타겟을 검출함에도 얼굴 검출의 정확도가 높고 빠를 수 있다.
학습기(300)는 제1 스테이지의 제1 뉴럴 네트워크 및 제2 스테이지의 제2 뉴럴 네트워크를 동시에 학습시킬 수 있다.
학습기(300)는 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 사전 학습시킬 수 있고, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대하여 미세 조절을 수행할 수 있다. 학습기(300)는 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크에 대하여 반복적으로 미세 조절을 수행할 수 있다.
학습기(300)는 후보영역을 분류하기 위하여 제1 뉴럴 네트워크를 학습시킬 수 있다. 학습기(300)는 긍정 샘플 및 부정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시킴으로써 후보 영역을 분류할 수 있다. 후보 영역 분류기(102)는 제1 뉴럴 네트워크의 분류결과를 제2 뉴럴 네트워크로 출력할 수 있다.
학습기(300)는 제1 뉴럴 네트워크로 부정 샘플, 긍정 샘플, 오분류된 부정 샘플에 관한 정보를 입력 받아 제2 뉴럴 네트워크를 학습시킬 수 있다.
타겟 영역 결정기(104)는 반복적인 미세조절을 통하여 학습된 제2 뉴럴 네트워크를 통하여 타겟 영역을 결정함으로써, 타겟을 검출할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (18)

  1. 검출할 이미지에 기초하여 이미지 피라미드를 생성하는 단계;
    케스케이드 뉴럴 네트워크(Cascade Neural Network)를 이용하여 상기 이미지 피라미드로부터 복수의 후보 영역을 분류하는 단계; 및
    상기 복수의 후보 영역에 기초하여 상기 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정하는 단계
    를 포함하고,
    상기 케스케이드 뉴럴 네트워크는 복수의 뉴럴 네트워크를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함하고,
    상기 분류하는 단계는,
    제1 뉴럴 네트워크를 이용하여 상기 검출할 이미지로부터 복수의 영역을 분류하는 단계; 및
    상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 이용하여 상기 복수의 영역을 복수의 타겟 후보 영역 및 복수의 비타겟(non-target) 후보 영역으로 분류하는 단계를 포함하고,
    상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함하고,
    상기 결정하는 단계는,
    상기 복수의 타겟 후보 영역 각각이 속한 상기 이미지 피라미드의 층 이미지(layer image)들 및 상기 복수의 타겟 후보 영역 각각이 속한 상기 층 이미지들 간의 크기 및 위치 차이에 기초하여 상기 복수의 타겟 후보 영역의 크기 및 위치를 표준화하는 단계; 및
    표준화된 복수의 타겟 후보 영역을 병합하여 상기 타겟 영역을 획득하는 단계
    를 포함하는 타겟 검출 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 복수의 병렬 서브 뉴럴 네트워크 각각은 서로 다른 타겟 속성에 대응되는
    타겟 검출 방법.
  4. 제3항에 있어서,
    상기 검출할 이미지에 포함된 상기 타겟이 얼굴(face of human)인 경우,
    상기 타겟 속성은 얼굴의 정면 자태(front face posture), 얼굴의 측면 자태(side face posture), 얼굴의 정면 또는 측면의 회전에 의한 자태(front face or side face by rotation), 피부색(skin color), 조명 조건(light condition), 겹침 효과(occlusion), 선명도(clarity) 중에서 적어도 하나를 포함하는
    타겟 검출 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 복수의 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크 및 볼츠만 네트워크
    를 포함하는 타겟 검출 방법.
  7. 타겟이 포함된 이미지를 수신하는 단계; 및
    상기 이미지를 이용하여 복수의 뉴럴 네트워크를 포함하는 케스케이드 뉴럴 네트워크를 학습시키는 단계
    를 포함하고,
    상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함하고,
    상기 학습시키는 단계는,
    상기 타겟에 대응하는 타겟 영역의 면적에 기초하여 복수의 이미지 영역으로 구성된 샘플 집합을 복수의 긍정 샘플 및 복수의 부정 샘플로 분류하는 단계;
    상기 복수의 부정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시키는 단계; 및
    오분류된 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 학습시키는 단계
    를 포함하고,
    상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함하고,
    상기 학습시키는 단계는,
    상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크 중에서 적어도 하나를 상기 타겟에 대한 검출율이 감소하거나 상기 타겟에 대한 오차율이 상승할 때까지 반복적으로 미세조절 하는 단계를 더 포함하고,
    상기 미세조절하는 단계는,
    상기 오분류된 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 적어도 하나를 학습시키는 단계; 및
    상기 학습을 통해 테스트 샘플 집합을 분류하는 단계
    를 포함하는 학습 방법.
  8. 삭제
  9. 삭제
  10. 검출할 이미지에 기초하여 이미지 피라미드를 생성하는 이미지 획득기;
    케스케이드 뉴럴 네트워크를 이용하여 상기 이미지 피라미드로부터 복수의 후보 영역을 분류하는 후보 영역 분류기; 및
    상기 복수의 후보 영역에 기초하여 상기 이미지에 포함된 타겟에 대응하는 타겟 영역을 결정하는 타겟 영역 결정기
    를 포함하고,
    상기 케스케이드 뉴럴 네트워크는 복수의 뉴럴 네트워크를 포함하고, 상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함하고,
    상기 후보 영역 분류기는,
    제1 뉴럴 네트워크를 이용하여 상기 검출할 이미지로부터 복수의 영역을 분류하는 제1 분류기; 및
    상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 이용하여 상기 복수의 영역을 복수의 타겟 후보 영역 및 복수의 비타겟(non-target) 후보 영역으로 분류하는 제2 분류기
    를 포함하고,
    상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함하고,
    상기 타겟 영역 결정기는,
    상기 복수의 타겟 후보 영역 각각이 속한 상기 이미지 피라미드의 층 이미지들 및 상기 복수의 타겟 후보 영역 각각이 속한 상기 층 이미지들 간의 크기 및 위치 차이에 기초하여 상기 복수의 타겟 후보 영역의 크기 및 위치를 표준화하고, 표준화된 복수의 타겟 후보 영역을 병합하여 상기 타겟 영역을 획득하는
    타겟 검출 장치.
  11. 삭제
  12. 제10항에 있어서,
    상기 복수의 병렬 서브 뉴럴 네트워크 각각은 서로 다른 타겟 속성에 대응되는
    타겟 검출 장치.
  13. 제12항에 있어서,
    상기 검출할 이미지에 포함된 상기 타겟이 얼굴(face of human)인 경우,
    상기 타겟 속성은 얼굴의 정면 자태(front face posture), 얼굴의 측면 자태(side face posture), 얼굴의 정면 또는 측면의 회전에 의한 자태(front face or side face by rotation), 피부색(skin color), 조명 조건(light condition), 겹침 효과(occlusion), 선명도(clarity) 중에서 적어도 하나를 포함하는
    타겟 검출 장치.
  14. 삭제
  15. 제10항에 있어서,
    상기 복수의 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크 및 볼츠만 네트워크
    를 포함하는 타겟 검출 장치.
  16. 타겟이 포함된 이미지를 수신하는 이미지 획득기; 및
    상기 이미지를 이용하여 복수의 뉴럴 네트워크를 포함하는 케스케이드 뉴럴 네트워크를 학습시키는 학습기
    를 포함하고,
    상기 복수의 뉴럴 네트워크 중 적어도 하나의 뉴럴 네트워크는 복수의 병렬 서브 뉴럴 네트워크를 포함하고,
    상기 학습기는,
    상기 타겟에 대응하는 타겟 영역의 면적에 기초하여 복수의 이미지 영역으로 구성된 샘플 집합을 복수의 긍정 샘플 및 복수의 부정 샘플로 분류하고, 상기 복수의 부정 샘플에 기초하여 제1 뉴럴 네트워크를 학습시키고, 오분류된 부정 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 복수의 병렬 서브 뉴럴 네트워크를 포함하는 제2 뉴럴 네트워크를 학습시키고,
    상기 복수의 뉴럴 네트워크는 상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크를 포함하고,
    상기 학습기는,
    상기 제1 뉴럴 네트워크 및 상기 제2 뉴럴 네트워크 중에서 적어도 하나를 상기 타겟에 대한 검출율이 감소하거나 상기 타겟에 대한 오차율이 상승할 때까지 반복적으로 미세조절하고,
    상기 미세조절은
    상기 오분류된 샘플, 상기 복수의 부정 샘플 및 상기 복수의 긍정 샘플에 기초하여 상기 적어도 하나를 학습시키고, 상기 학습을 통해 테스트 샘플 집합을 분류하는
    학습 장치.
  17. 삭제
  18. 삭제
KR1020170103609A 2016-12-07 2017-08-16 타겟 검출 방법 및 장치 KR102516360B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/825,951 US10657424B2 (en) 2016-12-07 2017-11-29 Target detection method and apparatus
US16/849,015 US11380114B2 (en) 2016-12-07 2020-04-15 Target detection method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611118373.4 2016-12-07
CN201611118373.4A CN108171103A (zh) 2016-12-07 2016-12-07 目标检测方法及装置

Publications (2)

Publication Number Publication Date
KR20180065866A KR20180065866A (ko) 2018-06-18
KR102516360B1 true KR102516360B1 (ko) 2023-03-31

Family

ID=62526440

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170103609A KR102516360B1 (ko) 2016-12-07 2017-08-16 타겟 검출 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102516360B1 (ko)
CN (1) CN108171103A (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837760B (zh) * 2018-08-17 2022-10-14 北京四维图新科技股份有限公司 目标检测方法、用于目标检测的训练方法和装置
CN110163197B (zh) 2018-08-24 2023-03-10 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
KR102108854B1 (ko) * 2018-10-05 2020-05-12 재단법인대구경북과학기술원 딥러닝 네트워크 모델에 의한 실시간 객체 검출 방법 및 장치
KR102089523B1 (ko) * 2018-12-05 2020-03-16 영남대학교 산학협력단 소형 표적 검출 장치 및 방법
CN109726661B (zh) * 2018-12-21 2021-12-17 网易有道信息技术(北京)有限公司 图像处理方法及装置、介质和计算设备
CN109784293B (zh) * 2019-01-24 2021-05-14 苏州科达科技股份有限公司 多类目标对象检测方法、装置、电子设备、存储介质
KR102576157B1 (ko) 2019-02-22 2023-09-07 한국전자통신연구원 인공 신경망을 이용한 고속 객체 검출 방법 및 장치
CN109919874B (zh) * 2019-03-07 2023-06-02 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN110110748B (zh) * 2019-03-29 2021-08-17 广州思德医疗科技有限公司 一种原始图片的识别方法及装置
CN110110750B (zh) * 2019-03-29 2021-03-05 广州思德医疗科技有限公司 一种原始图片的分类方法及装置
KR102205324B1 (ko) * 2019-04-25 2021-01-20 (주)밸류파인더스 이중 dnn을 이용한 가맹점 추천방법
CN110210474B (zh) 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
CN110335244A (zh) * 2019-05-17 2019-10-15 杭州数据点金科技有限公司 一种基于多迭代分类器的轮胎x光病疵检测方法
CN110222622B (zh) * 2019-05-31 2023-05-12 甘肃省祁连山水源涵养林研究院 一种环境土壤检测方法及装置
CN110390295B (zh) * 2019-07-23 2022-04-01 深圳市道通智能航空技术股份有限公司 一种图像信息识别方法、装置及存储介质
CN110580448B (zh) * 2019-08-07 2022-12-13 北京必安必恒科技发展有限公司 一种心音分类模型构建、分类方法及装置
CN110599554A (zh) * 2019-09-16 2019-12-20 腾讯科技(深圳)有限公司 人脸肤色的识别方法和装置、存储介质及电子装置
KR102250756B1 (ko) 2019-11-29 2021-05-10 연세대학교 산학협력단 양방향 메시지 패싱 구조를 활용한 핵심 포인트 추출 방법 및 장치
CN111291634B (zh) * 2020-01-17 2023-07-18 西北工业大学 基于卷积受限玻尔兹曼机的无人机图像目标检测方法
CN111445620B (zh) * 2020-03-09 2022-05-13 广州中智融通金融科技有限公司 一种库房现金存储方法以及装置
CN112766481B (zh) * 2020-03-13 2023-11-24 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置及图像检测的方法
CN113673546B (zh) * 2020-05-15 2024-04-16 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备和存储介质
CN112215123B (zh) * 2020-10-09 2022-10-25 腾讯科技(深圳)有限公司 一种目标检测方法、装置及存储介质
CN112381021B (zh) * 2020-11-20 2022-07-12 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN113112479A (zh) * 2021-04-15 2021-07-13 清华大学 基于关键区块提取的渐进式目标检测方法和装置
CN113657167A (zh) * 2021-07-19 2021-11-16 浙江大华技术股份有限公司 图像重识别方法、设备、电子装置和存储介质
CN114565839A (zh) * 2022-02-17 2022-05-31 广州市城市规划勘测设计研究院 一种遥感影像目标检测方法、装置、设备及计算机介质
CN116229280B (zh) * 2023-01-09 2024-06-04 广东省科学院广州地理研究所 崩岗识别方法、装置、电子设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170890A (ja) * 2011-06-06 2011-09-01 Fujifilm Corp 顔検出方法および装置並びにプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6445988B1 (en) * 1997-02-06 2002-09-03 Automotive Technologies International Inc. System for determining the occupancy state of a seat in a vehicle and controlling a component based thereon
CN201515393U (zh) * 2009-06-23 2010-06-23 天网资讯科技(澳门)有限公司 一种级联融合式网络入侵检测系统
US8682820B2 (en) * 2011-11-02 2014-03-25 Sap Ag On demand multi-objective network optimization
CN103679185B (zh) * 2012-08-31 2017-06-16 富士通株式会社 卷积神经网络分类器系统、其训练方法、分类方法和用途
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
KR102255215B1 (ko) * 2014-12-12 2021-05-24 삼성전자주식회사 이미지에서 객체를 검출하는 객체 검출 방법 및 이미지 처리 장치
CN104951668A (zh) * 2015-04-07 2015-09-30 上海大学 基于级联神经网络结构的蛋白质关联图的预测方法
CN105701460B (zh) * 2016-01-07 2019-01-29 王跃明 一种基于视频的篮球进球检测方法和装置
CN105868689B (zh) * 2016-02-16 2019-03-29 杭州景联文科技有限公司 一种基于级联卷积神经网络的人脸遮挡检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170890A (ja) * 2011-06-06 2011-09-01 Fujifilm Corp 顔検出方法および装置並びにプログラム

Also Published As

Publication number Publication date
CN108171103A (zh) 2018-06-15
KR20180065866A (ko) 2018-06-18

Similar Documents

Publication Publication Date Title
KR102516360B1 (ko) 타겟 검출 방법 및 장치
US11380114B2 (en) Target detection method and apparatus
US10452893B2 (en) Method, terminal, and storage medium for tracking facial critical area
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
US20220138454A1 (en) Training method and training apparatus for a neural network for object recognition
US9542751B2 (en) Systems and methods for reducing a plurality of bounding regions
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
US10438083B1 (en) Method and system for processing candidate strings generated by an optical character recognition process
CN113592911B (zh) 表观增强深度目标跟踪方法
CN111914599B (zh) 一种基于语义信息多层特征融合的细粒度鸟类识别方法
EP3874404A1 (en) Video recognition using multiple modalities
CN105046278B (zh) 基于Haar特征的Adaboost检测算法的优化方法
KR102508860B1 (ko) 이미지에서의 키 포인트 위치의 인식 방법, 장치, 전자기기 및 매체
US11176455B2 (en) Learning data generation apparatus and learning data generation method
CN110889360A (zh) 一种基于切换卷积网络的人群计数方法及系统
CN111950389A (zh) 一种基于轻量级网络的深度二值特征人脸表情识别方法
CN113971644A (zh) 基于数据增强策略选择的图像识别方法及装置
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
KR20160144660A (ko) 컨볼루션 신경망을 위한 개선된 분류 층
CN111738237B (zh) 一种基于异构卷积的多核迭代rpn的目标检测方法
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端
CN111931572B (zh) 一种遥感影像的目标检测方法
CN111832390B (zh) 一种手写古文字检测方法
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant