KR102395866B1 - 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치 - Google Patents

머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치 Download PDF

Info

Publication number
KR102395866B1
KR102395866B1 KR1020200099812A KR20200099812A KR102395866B1 KR 102395866 B1 KR102395866 B1 KR 102395866B1 KR 1020200099812 A KR1020200099812 A KR 1020200099812A KR 20200099812 A KR20200099812 A KR 20200099812A KR 102395866 B1 KR102395866 B1 KR 102395866B1
Authority
KR
South Korea
Prior art keywords
image
bounding box
specific object
patch
image patch
Prior art date
Application number
KR1020200099812A
Other languages
English (en)
Other versions
KR20220019421A (ko
Inventor
전광길
Original Assignee
인천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인천대학교 산학협력단 filed Critical 인천대학교 산학협력단
Priority to KR1020200099812A priority Critical patent/KR102395866B1/ko
Publication of KR20220019421A publication Critical patent/KR20220019421A/ko
Application granted granted Critical
Publication of KR102395866B1 publication Critical patent/KR102395866B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/0093Geometric image transformation in the plane of the image for image warping, i.e. transforming by individually repositioning each pixel
    • G06T3/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration by the use of histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법은, (A) 이미지 패치 획득부가, 복수의 훈련용 이미지 패치를 획득하는 단계; (B) 제1 특징 추출부가, 상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하는 단계; (C) 분류기가, 상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 훈련을 수행하는 단계; (D) 전처리부가, 테스트용 탑뷰 이미지를 전처리하는 단계; (E) 제2 특징 추출부가, 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하는 단계; (F) 상기 분류기가, 상기 테스트용 이미지 패치로부터 추출된 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하는 단계; (G) 클러스터링부가, 특정 객체가 있는 것으로 분류된 이미지 패치들을 클러스터링하는 단계; 및 (H) 분류부가, 클러스터링된 결과들을 특정 객체 또는 특정 객체가 아닌 것으로 분류하는 단계를 포함한다.

Description

머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치{METHOD AND APPARATUS FOR OBJECT RECOGNITION AND DETECTION OF CAMERA IMAGES USING MACHINE LEARNING}
본 발명은 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에 관한 것이다.
최근 빅 데이터 기술의 진전과 발전으로 인해 이미지 및 비디오 분석 과학은 컴퓨터 비전 및 머신 러닝의 발전과 함께 확장되었다. 응용으로서 컴퓨터 비전에서 사람 탐지는 감시 시스템의 성장으로 인해 가장 활발한 연구 분야 중 하나이다. 머신 비전 영역에서 연구 커뮤니티의 관심을 끌고 있는 것은 중요하고 도전적이고 흥미로운 작업이다.
사람 탐지는 감시 및 보안 시스템의 품질을 크게 향상시킬 수 있는 많은 응용으로 이어진다. 운전 보조 시스템, 비정상적인 이벤트 감지, 사람 자세 특성 분석, 군중 분석, 사람 식별, 산업 워크플로, 성별 분류 등 많은 응용 분야가 있다. 사람 탐지는 사람과 로봇 사이의 상호 작용을 설정하기 위한 필수 단계이다. 오버헤드 카메라는 또한 정면 뷰 카메라에 내장될 수 있어서 사람의 얼굴 이미지가 캡처될 수 있으며, 이는 사람 인식 애플리케이션에 더 사용된다. 이미지에서 사람을 탐지하는 것은 다양한 외양, 변형 가능한 포즈, 어수선하거나 복잡한 배경, 조명 변화 및 다른 유형의 폐색으로 인한 인체의 특성으로 인해 어려운 과제이다.
이미지 기반 기술에서 사람 탐지의 대부분은 현재까지 서로 다른 실험 조건과 데이터 세트를 사용하는 정면 뷰를 기반으로 제안되었다.
KR 10-1724658 B1
본 발명이 해결하고자 하는 과제는 카메라의 광각 렌즈를 사용한 탑뷰 환경에서 더 많은 정보를 캡처하고 더 많은 장면을 제공받아 더 넓은 범위에서 사람과 같은 객체를 탐지할 수 있고, 프라이버시 문제를 줄일 수 있으며, 군중 분석, 사람 수 계산과 같은 다양한 개인 관리 환경(쇼핑몰, 공항, 기차역)에서 도움이 될 수 있고, 다양한 구조 및 수색 상황에서 도움이 될 수 있으며, 폐색 환경에서는 정면 뷰보다 폐색을 더 잘 처리할 수 있는, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 카메라의 광각 렌즈를 사용한 탑뷰 환경에서 더 많은 정보를 캡처하고 더 많은 장면을 제공받아 더 넓은 범위에서 사람과 같은 객체를 탐지할 수 있고, 프라이버시 문제를 줄일 수 있으며, 군중 분석, 사람 수 계산과 같은 다양한 개인 관리 환경(쇼핑몰, 공항, 기차역)에서 도움이 될 수 있고, 다양한 구조 및 수색 상황에서 도움이 될 수 있으며, 폐색 환경에서는 정면 뷰보다 폐색을 더 잘 처리할 수 있는, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치를 제공하는 것이다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법은,
(A) 이미지 패치 획득부가, 복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 특정 객체가 있는 이미지 패치 및 특정 객체가 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득하는 단계;
(B) 제1 특징 추출부가, 상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하는 단계;
(C) 분류기가, 상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 훈련을 수행하는 단계;
(D) 전처리부가, 테스트용 탑뷰 이미지를 전처리하는 단계;
(E) 제2 특징 추출부가, 상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하는 단계;
(F) 상기 분류기가, 상기 테스트용 이미지 패치로부터 추출된 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하는 단계;
(G) 클러스터링부가, 특정 객체가 있는 것으로 분류된 이미지 패치들을 클러스터링하는 단계; 및
(H) 분류부가, 클러스터링된 결과들을 특정 객체 또는 특정 객체가 아닌 것으로 분류하는 단계를 포함한다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 있어서, 상기 특정 객체는 사람을 포함할 수 있다.
또한, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 있어서, 상기 단계 (D)는,
(D-1) 상기 테스트용 탑뷰 이미지를 회색조 이미지로 변환하는 단계;
(D-2) 상기 회색조 이미지의 소정 위치에 있는 경계 박스의 중심(
Figure 112020083704918-pat00001
)에서 상기 이미지의 광학 중심(
Figure 112020083704918-pat00002
)까지의 반경 거리(r)를 획득하는 단계;
(D-3) 상기 경계 박스와 연관된 공간 특징들을 계산하는 단계;
(D-4) 포인트 기반 기하 변환(point based geometric transformation)에 기반하여 상기 경계 박스의 모양을 표준화하는 단계;
(D-5) 상기 경계 박스의 4개의 정점들의 좌표를 계산하는 단계; 및
(D-6) 워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 있어서, 상기 경계 박스와 연관된 공간 특징들은 상기 경계 박스의 폭(
Figure 112020083704918-pat00003
), 상기 경계 박스의 높이(
Figure 112020083704918-pat00004
) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
Figure 112020083704918-pat00005
)을 포함하고,
상기 단계 (C)와 단계 (F)의 공간 특징들은, 상기 경계 박스의 중심(
Figure 112020083704918-pat00006
)에서 상기 이미지의 광학 중심(
Figure 112020083704918-pat00007
)까지의 반경 거리(r), 상기 경계 박스의 폭(
Figure 112020083704918-pat00008
), 상기 경계 박스의 높이(
Figure 112020083704918-pat00009
) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
Figure 112020083704918-pat00010
)을 포함하며,
상기 경계 박스의 폭(
Figure 112020083704918-pat00011
), 상기 경계 박스의 높이(
Figure 112020083704918-pat00012
) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
Figure 112020083704918-pat00013
)은 각각,
[수학식 2]
Figure 112020083704918-pat00014
[수학식 3]
Figure 112020083704918-pat00015
[수학식 4]
Figure 112020083704918-pat00016
에 기반하여 계산되며,
Dx, Dy는 각각 상기 경계 박스의 중심(
Figure 112020083704918-pat00017
)의 x 좌표 및 y 좌표이고, Ox 및 Oy는 각각 상기 이미지의 광학 중심(
Figure 112020083704918-pat00018
)의 x 좌표 및 y 좌표일 수 있다.
또한, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 있어서, 상기 포인트 기반 기하 변환(point based geometric transformation)은,
[수학식 6]
Figure 112020083704918-pat00019
에 기반하여 수행되고,
상기 경계 박스의 4개의 정점들의 좌표(
Figure 112020083704918-pat00020
내지
Figure 112020083704918-pat00021
)는,
[수학식 7]
Figure 112020083704918-pat00022
에 기반하여 계산되며,
xc 및 yc는 각각 상기 경계 박스의 중심의 좌표일 수 있다.
또한, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 있어서, 상기 워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 단계는,
[수학식 10]
Figure 112020083704918-pat00023
에 기반하여, 호모그래피 행렬(
Figure 112020083704918-pat00024
)을 계산하고,
[수학식 11]
Figure 112020083704918-pat00025
에 기반하여, 64×96 픽셀의 경계 박스의 정점의 투영된 좌표(
Figure 112020083704918-pat00026
)를 계산하여 상기 경계 박스의 크기를 표준화하는 단계를 포함하며,
Figure 112020083704918-pat00027
Figure 112020083704918-pat00028
는 정점들의 x 위치이고,
Figure 112020083704918-pat00029
Figure 112020083704918-pat00030
는 정점들의 y 위치이며,
Figure 112020083704918-pat00031
는 서로 다른 크기를 갖는 경계 박스의 정점의 좌표일 수 있다.
상기 다른 과제를 해결하기 위한 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치는,
복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 특정 객체가 있는 이미지 패치 및 특정 객체가 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득하기 위한 이미지 패치 획득부;
상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하기 위한 제1 특징 추출부;
테스트용 탑뷰 이미지를 전처리하기 위한 전처리부;
상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하기 위한 제2 특징 추출부;
상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 훈련을 수행하고, 상기 테스트용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 분류기;
특정 객체가 있는 것으로 분류된 이미지 패치들을 클러스터링하기 위한 클러스터링부; 및
클러스터링된 결과들을 특정 객체 또는 특정 객체가 아닌 것으로 분류하기 위한 분류부를 포함한다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치에 있어서, 상기 특정 객체는 사람을 포함할 수 있다.
또한, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치에 있어서, 상기 전처리부는,
상기 테스트용 탑뷰 이미지를 회색조 이미지로 변환하는 동작;
상기 회색조 이미지의 소정 위치에 있는 경계 박스의 중심(
Figure 112020083704918-pat00032
)에서 상기 이미지의 광학 중심(
Figure 112020083704918-pat00033
)까지의 반경 거리(r)를 획득하는 동작;
상기 경계 박스와 연관된 공간 특징들을 계산하는 동작;
포인트 기반 기하 변환(point based geometric transformation)에 기반하여 상기 경계 박스의 모양을 표준화하는 동작;
상기 경계 박스의 4개의 정점들의 좌표를 계산하는 동작; 및
워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 동작을 수행할 수 있다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에 의하면, 카메라의 광각 렌즈를 사용한 탑뷰 환경에서 더 많은 정보를 캡처하고 더 많은 장면을 제공받아 더 넓은 범위에서 사람과 같은 객체를 탐지할 수 있고, 프라이버시 문제를 줄일 수 있으며, 군중 분석, 사람 수 계산과 같은 다양한 개인 관리 환경(쇼핑몰, 공항, 기차역)에서 도움이 될 수 있고, 다양한 구조 및 수색 상황에서 도움이 될 수 있으며, 폐색 환경에서는 정면 뷰보다 폐색을 더 잘 처리할 수 있다.
도 1은 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에서 사용되는 탑뷰의 시각적 효과를 도시한 도면으로서, 시점 변화로 인한 다양한 포즈, 방향 및 크기를 갖는 사람의 탑뷰를 도시한 도면.
도 2의 (a) 및 (b)는 탑뷰에서 사람을 포함하는 데이터 세트의 일부 샘플 이미지를 도시한 것으로, 시야가 좁은 데이터 세트의 이미지를 나타내고, (c) 및 (d)는 더 넓은 범위의 커버리지 영역을 제공하기 위한 광각 렌즈 오버헤드 카메라를 사용하여 획득한 데이터세트의 이미지를 도시한 도면.
도 3은 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 흐름도.
도 4는 도 3에 도시된 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 전처리 단계의 상세 흐름도.
도 5는 반경 거리에 따른 사람의 크기 및 외관의 변화를 도시한 도면.
도 6은 RHOG(2-4로 표시됨) 및 ERHOG(1로 표시됨)를 사용하여 경계 박스의 정점들을 체크하는 도면.
도 7은 포인트 기반 변환 이후의 경계 박스의 추출을 도시한 도면.
도 8은 똑바로 서있는 형상의 변환 결과의 효과를 도시한 추출된 경계 박스 내의 일부 샘플 이미지를 도시한 도면.
도 9는 기하 변환 및 투영 변환 이후의 특징 추출 프로세스를 도시한 도면.
도 10은 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치의 블록도.
도 11은 경계 박스들을 사용하여 사람의 가능한 후보를 탐지하기 위한 이미지 스캐닝 프로세스를 도시한 도면.
도 12는 경계 박스 선택을 도시한 도면으로서, 빨간색 경계 박스는 많은 백그라운드 정보를 갖고 있는 전통적인 스타일의 고정된 크기의 정사각형 박스를 도시한 것이고, 흰색 경계 박스는 정확하게 사람을 커버하는 크기를 갖는 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에서 사용된 박스를 도시한 도면.
도 13은 추가적인 백그라운드 샘플들을 제공하여 두 분류기인 RHOG 및 ERHOG 알고리즘을 리부스팅한 결과를 도시한 도면.
도 14는 추가적인 훈련 백그라운드 샘플을 사용한 결과를 도시한 도면.
도 15는 클러스터링 이후의 백그라운드 샘플 훈련 효과를 도시한 도면.
도 16은 클러스터링 프로세스의 전체적은 시각화를 도시한 도면.
도 17은 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 의해 탐지된 샘플 이미지를 도시한 도면으로서, 흰색 원은 실측 정보이고, 파란색 원은 ERHOG의 탐지 결과이며, 빨간색 원은 부정적인 결과를 보여주는 도면.
본 발명의 목적, 특정한 장점들 및 신규한 특징들은 첨부된 도면들과 연관되어지는 이하의 상세한 설명과 바람직한 실시예들로부터 더욱 명백해질 것이다.
이에 앞서 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이고 사전적인 의미로 해석되어서는 아니되며, 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있는 원칙에 입각하여 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 한다.
본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
또한, "제1", "제2", "일면", "타면" 등의 용어는, 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 상기 용어들에 의해 제한되는 것은 아니다.
이하, 본 발명을 설명함에 있어, 본 발명의 요지를 불필요하게 흐릴 수 있는 관련된 공지 기술에 대한 상세한 설명은 생략한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시형태를 상세히 설명하기로 한다.
오늘날 빅 데이터 혁명으로 인해 이미지 분석은 다양한 실제 문제를 해결하는 잠재적인 솔루션으로 여겨지고 있다. 이와 관련하여, 응용들 중 하나는 사람 탐지 또는 검출 시스템일 수 있다. 광각 렌즈가 장착된 오버헤드 마운트 카메라는 기존 뷰 또는 정면 뷰보다 폐쇄 환경 및 혼잡한 환경에서 더 넓은 범위와 가시성을 제공한다.
광각 렌즈가 장착된 오버헤드 마운트 카메라로부터 획득된 탑뷰 영상 이미지에서의 사람 탐지는 장면에서의 위치에 따라 사람의 위치, 방향, 포즈, 신체 관절 및 외관의 변화가 있기 때문에 어려운 작업이다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에 의하면, 이러한 문제를 처리하기 위해 전처리 단계로서 상이한 기하 변환, 투영 기하 및 호모그래피(homography) 행렬 개념을 사용하는 효율적인 방법이 제안된다. 그다음 합성 변환 행렬을 투영 변환과 함께 사용하여 사람이 포함된 이미지 패치의 모양을 표준화한다. 이 단계에서, 5개의 추가적인 공간적 특징과 함께 지향적 특징의 히스토그램이 추출된다. 그 다음 이러한 특징들은 훈련 및 테스트를 위해 선형 서포트 벡터 머신(SVM) 분류기에 공급되며 마지막으로 간단한 효과적인 클러스터링 프로세스를 사용하여 SVM의 투표를 누적하여 이미지에서 사람을 탐지하기 위한 결정을 내린다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에서는 이러한 포인트 기반 기하 변환 및 투영 변환의 계산 비용을 줄이기 위해 공간 좌표에 대해 서로 다른 투영 포인트의 미리 계산된 위치를 포함하는 룩업 테이블 구조를 사용한다. 룩업 테이블 및 포인트 기반 작업을 사용하면 이미지 기반 회전, 변환, 보간을 사용하고 룩업 구조가 없는 RHOG 알고리즘을 사용하는 이전 방식에 비해 처리 시간이 최대 50% 단축된다. 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치는 계산과 정확성 측면에서 효율적이다. 본 발명의 알고리즘의 성능은 더 넓은 범위의 장면을 갖는 새로 기록된 데이터 세트를 사용하여 테스트되었다. 본 발명에 의한 검출 성능은 3% FDR에서 98% TDR의 정확도를 보여준다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에서, 탑뷰가 이미지에서 사람을 탐지하기 위해 고려된다. 이러한 방식으로, 위에서 본 인체의 시각적 외관은 정면 뷰와 크게 다르다. 탑뷰에서 사람의 시각적 외관은 사람의 위치로 인해 상이하고, 이미지 센터와 관련하여 변경되며, 사람이 카메라 바로 아래에 있을 때, 하체 부분이 가려진다. 사람의 크기는 시점(perspective) 변화로 인해 이들 이미지들에서 달라진다. 탑뷰의 시각적 효과는 도 1에 나와 있다.
정면 뷰를 능가하는 탑뷰를 사용하는 것의 중요성은 다음과 같은 주요 이유 때문이다.
- 더 넓은 범위: 광각 렌즈를 사용한 탑뷰는 환경에서 더 많은 정보를 캡처하고 더 많은 장면을 제공한다.
- 프라이버시: 탑뷰는 오버헤드 카메라가 얼굴/정면 이미지 대신 사람의 평면도 이미지만 캡처하므로 프라이버시 문제를 줄이는 데 도움이 된다.
- 응용: 또한 군중 분석, 사람 수 계산과 같은 다양한 개인 관리 환경(쇼핑몰, 공항, 기차역)에서 도움이 되며 다양한 구조 및 수색 상황에서도 도움이 된다.
- 폐색 처리: 폐색 환경에서는 정면 뷰보다 폐색을 더 잘 처리한다.
본 발명에서는 포인트 기반 기하 변환 및 투영(perspective) 변환을 주로 사용하여 이미지에서 사람의 모양을 표준화한 다음, 5개의 추가적인 공간 특징과 함께 지향성 특징을 추출하는 효과적인 사람 탐지 방법을 제안한다. 계산 비용을 줄이기 위해 룩업 테이블이 사용된다. 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치는 아래에 언급된 주요 발견 및 기여를 제공한다.
- 서브 이미지 회전 및 다중 기하 변환 대신 계산적으로 효율적인 포인트 기반 기하 변환이 수행된다.
- 관심 영역 또는 경계 박스의 크기는 선형 및 이항 회귀 곡선 피팅을 사용하여 개발된 알고리즘 내에서 자동으로 측정된다.
- 이미지 당 경계 박스의 미리 계산된 공간 정보를 포함하는 룩업 테이블을 사용하면 계산 시간이 크게 줄어 든다.
- 비스듬한 모양의 경계 박스의 정점을 고정된 크기의 경계 박스에 매핑하기 위해 호모그래피 행렬이 있는 투영 기하 개념이 워프 투영 변환(warp perspective transformation)과 함께 사용된다.
- 서브 이미지를 수직으로 똑바로 회전하여 회전된 서브 이미지를 수용하기 위해 추가 이미지 경계를 만들지 않고, 역 포인트-기반 변환 후 경계 박스의 정점이 이미지 내에서 확인된다(도 6 참조).
- 특징 벡터는 추가적인 5개의 공간 모양 기반 특징이 포함된 RHOG(Rotated Histogram of Oriented Gradient)로 구성된다.
- 사람의 자세 변화가 더 큰, 장면의 범위가 더 넓은 새로 기록된 데이터 세트를 사용하여 실험이 수행되었다.
- 탑뷰는 원형 대칭이므로 본 발명에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 알고리즘을 적용한 후 사람의 모양은 회전 불변의 속성을 거의 나타낸다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치
데이터 세트
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에서 사용된 오버헤드 뷰(탑뷰)에서 사람을 포함하는 IMS 데이터 세트의 일부 샘플 이미지는 도 2에서 볼 수 있다. 도 2(a) 및 도 2(b)를 참조하면, 기록된 데이터 세트의 시야가 좁다는 것을 알 수 있다. 따라서 더 넓은 범위의 커버리지 영역을 제공하기 위해 광각 렌즈 오버헤드 카메라를 사용하여 새로운 데이터 세트가 기록되었다. 새롭게 기록된 데이터 세트는 도 2(c)와 도 2(d)에 도시되어 있다. 기록된 데이터 세트는 넓은 범위의 영역과 탑뷰에서 사람의 다양한 포즈와 모양을 제공한다는 것을 알 수 있다. 새로 기록된 데이터 세트는 또한 넓은 장면의 다양한 위치에서 이미지에서 사람을 찾는 데 도움이 된다.
데이터 세트의 기록은 파키스탄 KPK에 위치한 IMSciences(Institute of Management Sciences)의 실제 환경에서 이루어졌다. Fujinon 렌즈가 있는 Point Grey blackfly 카메라를 사용하여 다른 대학 타이밍에서 일상적인 일상 조명 조건 하에서 기록이 이루어졌다. 데이터 세트에는 PNG 형식의 프레임 해상도가 640×480 픽셀인 초당 20 프레임으로 녹화된 비디오가 포함된다. 이미지는 장면의 다른 위치에서 탑뷰로부터의 사람을 포함한다. 카메라는 바닥에서 약 7m 높이에 설치된다. 광각 렌즈로 인해 사람이나 사물의 크기는 사람이 장면 중앙에서 멀어질 때 달라진다.
데이터 세트에는 연령과 키가 다른 남성 및 여성이 포함된다. 다양한 색의 옷, 모자, 가방 등을 입고 장면에서 피사체가 자유롭게 걷고 있다. 일부 샘플 이미지는 도 2의 도움으로 표시된다. 선택한 데이터 세트는 표 1에서 볼 수 있고, 상이한 실험을 위하여, 랜덤하게 선택된 이미지들이 훈련과 테스트를 위해 선택되었다. 이 컬렉션을 IMS 데이터 세트라고 한다.
Figure 112020083704918-pat00034
이하, 첨부된 도면을 참조하여, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에 대해 설명하기로 한다. 본 발명의 ERHOG(Efficient Rotated Histogram of Oriented Gradient) 알고리즘의 흐름도가 도 3에 나와 있다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에는 5가지 주요 단계가 있다. 훈련 단계(단계 S300, S302, S304), 전처리 단계(단계 S306), 특징 추출 단계(단계 S308), SVM에 기반한 분류 단계(단계 S310), 사람 탐지를 위한 클러스터링 단계(단계 S312), 및 사람 분류 단계(단계 S314).
전처리 단계에는 RGB에서 회색조로의 변환, 경계 박스의 중심 및 반경 거리 측정, 기하 변환 및 워프(warp) 투영 변환이 포함된다. 경계 박스 HOG의 전처리 후 5개의 공간 특징이 추출된다. 마지막으로 SVM을 사용하여 분류가 수행되고 간단한 클러스터링 기술이 이미지에서 사람의 위치를 찾는데 사용된다.
도 3을 참조하면, 단계 S300에서, 이미지 패치 획득부(1000)가 복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 사람이 있는 이미지 패치 및 사람이 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득한다.
단계 S302에서, 제1 특징 추출부(1002)가 상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출한다.
단계 S304에서, SVM 분류기(1008)가 상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 사람이 있는 이미지 패치 또는 사람이 없는 이미지 패치로 분류하기 위한 훈련을 수행한다.
단계 S306에서, 전처리부(1004)가 테스트용 탑뷰 이미지를 전처리한다.
단계 S308에서, 제2 특징 추출부(1006)가 상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출한다.
단계 S310에서, 상기 SVM 분류기(1008)가 상기 테스트용 이미지 패치로부터 추출된 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 사람이 있는 이미지 패치 또는 사람이 없는 이미지 패치로 분류한다.
단계 S312에서, 클러스터링부(1010)가 사람이 있는 것으로 분류된 이미지 패치들을 클러스터링한다.
단계 S314에서, 분류부(1012)가 클러스터링된 결과들을 사람 또는 사람이 아닌 것으로 분류한다.
한편, 도 10은 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치의 블록도이다.
도 10에 도시된 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치는, 복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 사람이 있는 이미지 패치 및 사람이 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득하기 위한 이미지 패치 획득부(1000), 상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하기 위한 제1 특징 추출부(1002), 테스트용 탑뷰 이미지를 전처리하기 위한 전처리부(1004), 상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하기 위한 제2 특징 추출부(1006), 상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 사람이 있는 이미지 패치 또는 사람이 없는 이미지 패치로 분류하기 위한 훈련을 수행하고, 상기 테스트용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 사람이 있는 이미지 패치 또는 사람이 없는 이미지 패치로 분류하기 위한 SVM 분류기(1008), 사람이 있는 것으로 분류된 이미지 패치들을 클러스터링하기 위한 클러스터링부(1010), 및 클러스터링된 결과들을 사람 또는 사람이 아닌 것으로 분류하여 분류 결과를 출력하는 분류부(1012)를 포함한다.
이하, 첨부된 도면들을 참조하여, 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치에 대해 상세히 설명하기로 한다.
훈련 단계
도 3 및 도 10을 참조하면, 단계 S300에서, 이미지 패치 획득부(1000)는 복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 사람이 있는 이미지 패치 및 사람이 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득한다.
단계 S302에서, 제1 특징 추출부(1002)는 상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출한다.
단계 S304에서, SVM 분류기(1008)는 상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 사람이 있는 이미지 패치 또는 사람이 없는 이미지 패치로 분류하기 위한 훈련을 수행한다.
전처리
단계 S306에서, 전처리부(1004)는 테스트용 탑뷰 이미지를 전처리한다.
도 4는 도 3에 도시된 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 전처리 단계(단계 S304)의 상세 흐름도이다.
도 4를 참조하면, 단계 S400에서, 전처리부(1004)는 RGB 소스 이미지인 입력되는 테스트용 탑뷰 이미지를 회색조 이미지로 변환한다.
단계 S402에서, 전처리부(1004)는 상기 회색조 이미지의 소정 위치에 있는 경계 박스의 중심(
Figure 112020083704918-pat00035
)에서 상기 이미지의 광학 중심(
Figure 112020083704918-pat00036
)까지의 반경 거리(r)를 획득한다.
도 5를 참조하면, O는 이미지의 광학 중심(카메라 아래 영역으로 지칭됨)이고, D는 사람의 중심을 나타낸다. 도 5에 도시된 바와 같이 이미지의 광학 중심(
Figure 112020083704918-pat00037
)으로부터 탐지 윈도우/사람/경계 박스의 중심 위치(
Figure 112020083704918-pat00038
)까지의 반경 거리(r)가 수학식 1을 사용하여 측정된다.
Figure 112020083704918-pat00039
단계 S404에서, 전처리부(1004)는 상기 경계 박스와 연관된 공간 특징들을 계산한다.
상기 경계 박스와 연관된 공간 특징들은 상기 경계 박스의 폭(
Figure 112020083704918-pat00040
), 상기 경계 박스의 높이(
Figure 112020083704918-pat00041
) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
Figure 112020083704918-pat00042
)을 포함한다.
사람의 폭과 높이는 도 5에서 볼 수 있듯이 광학 중심에 따라 달라진다. 사람은 이미지의 중간에서 더 원형이거나 거의 사각형으로 보인다. 사람의 폭과 높이를 계산하기 위해, 다양한 방사상 위치에서 소수의 판독 값이 측정되고 회귀 수학식을 형성하여 이미지의 특정 위치에서 경계 박스 폭과 높이를 알고리즘적으로 계산한다. 경계 박스의 폭과 높이는 수학식 2 및 수학식 3에 기반하여 계산된다.
Figure 112020083704918-pat00043
Figure 112020083704918-pat00044
Figure 112020083704918-pat00045
Figure 112020083704918-pat00046
는 각각 경계 박스의 폭과 높이를 나타내고, r은 이미지 중심에서 사람까지의 반경 거리를 나타낸다. 중심 영역(방사선 거리 0-60 이내)의 경우 크기가 72×72 픽셀인 사각형 경계 박스가 회전없이 사용된다. 이 사각형 크기의 경계 박스는 사람의 포즈에서 가능한 모든 변형을 포함한다. 이미지의 광학 중심에서 경계 박스로의 방향을 계산하기 위하여 수학식 4가 사용된다.
Figure 112020083704918-pat00047
Dx, Dy는 각각 상기 경계 박스의 중심(
Figure 112020083704918-pat00048
)의 x 좌표 및 y 좌표이고, Ox 및 Oy는 각각 상기 이미지의 광학 중심(
Figure 112020083704918-pat00049
)의 x 좌표 및 y 좌표이다.
이 단계에서 이미지의 탐지 윈도우 또는 경계 박스에는 다음과 같은 측정된 매개 변수가 있다. 이러한 매개 변수들은 상기 경계 박스의 중심(
Figure 112020083704918-pat00050
)에서 상기 이미지의 광학 중심(
Figure 112020083704918-pat00051
)까지의 반경 거리(r), 상기 경계 박스의 폭(
Figure 112020083704918-pat00052
), 상기 경계 박스의 높이(
Figure 112020083704918-pat00053
) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
Figure 112020083704918-pat00054
)을 포함하며, 나중에 HOG 기반 특징들에 내장된다.
Figure 112020083704918-pat00055
단계 S406에서, 전처리부(1004)는 포인트 기반 기하 변환(point based geometric transformation)에 기반하여 상기 경계 박스의 모양을 표준화한다.
박스의 모양을 표준화하기 위해 서브 이미지를 회전시키는 대신 기하 변환이 수행된다. 본 발명에서 포인트 기반 기하 변환이 수학식 6과 같이 수행된다.
Figure 112020083704918-pat00056
위의 수학식에서 첫 번째 행렬은 경계 박스의 중심점을 이미지 중심으로 스케일링한 것이다.
단계 S408에서, 전처리부(1004)는 상기 경계 박스의 4개의 정점들의 좌표를 계산한다.
수학식 6을 사용하여 포인트 기반 변환을 적용한 후, 포인트
Figure 112020083704918-pat00057
는 도 7(a)에 도시된 바와 같이 포인트
Figure 112020083704918-pat00058
이 된다.
포인트
Figure 112020083704918-pat00059
로부터 그리고 수학식 2 및 수학식 3으로부터, 경계 박스의 4개의 정점
Figure 112020083704918-pat00060
내지
Figure 112020083704918-pat00061
는 수학식 7을 사용하여 계산될 수 있다.
Figure 112020083704918-pat00062
xc 및 yc는 각각 상기 경계 박스의 중심의 좌표dlke.
4개의 정점의 역변환으로 인해
Figure 112020083704918-pat00063
내지
Figure 112020083704918-pat00064
Figure 112020083704918-pat00065
내지
Figure 112020083704918-pat00066
로 위치가 이동한다. 4개의 정점의 역변환 효과는 도 7(a)에 나와있다. 도 7에서
Figure 112020083704918-pat00067
내지
Figure 112020083704918-pat00068
는 변환된 위치이고
Figure 112020083704918-pat00069
내지
Figure 112020083704918-pat00070
는 이미지에서 사람과 방향과 크기가 같은 역변환 후의 경계 박스의 정점들이다.
그다음 투영된 위치들이 도 6과 같이 이미지 내에 있는지 확인된다. RHOG 및 ERHOG를 사용하여 경계 박스의 4개의 정점을 검사하는 것은 도 6에 표시되어 있다.
ERHOG 알고리즘을 사용한 경계 박스 선택에는 2 내지 5가 라벨링되어 있다. 도 6에서, 라벨링된 경계 박스 2 및 3은 유효한 예이고, 4 및 5는 외부 정점의 유효하지 않은 예이다. 또한 도 6에 표시된 모든 경계 박스 샘플(2-4)에서 추가 이미지 경계 및 회전을 생성하지 않고 정점이 검사된다.
반면, RHOG 알고리즘에서는, 4개의 추가 단계, 즉 서브 이미지 회전, 회전된 서브 이미지를 수용하기 위한 여분의 이미지 경계 생성, 직립 위치에서의 정점 확인 및 서브 이미지로부터 경계 박스의 크로핑이 사용된다.
단계 S410에서, 전처리부(1004)는 워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화한다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 시나리오는 도 6에 표시되어 있으며, 1로 표시된 노란색의 크로핑된 경계 박스와 함께 수직 위치에 녹색 서브 이미지가 추가 이미지 경계에 표시된다. 경계 박스의 선택된 4개의 정점(
Figure 112020083704918-pat00071
)은 정확히 사람을 포함하는 영역이다. 워프 투영 변환(warp perspective transformation)은 선형 보간 프로세스를 통해 다양한 크기의 경계 박스를 64×96 픽셀의 표준 모양으로 매핑하는 데 사용된다. 도 7(a)에 도시된 바와 같이 4개의 정점
Figure 112020083704918-pat00072
내지
Figure 112020083704918-pat00073
와 소스 포인트
Figure 112020083704918-pat00074
내지
Figure 112020083704918-pat00075
에 대한 호모그래피 행렬이 수학식 8을 사용하여 획득된다.
Figure 112020083704918-pat00076
상기 수학식 8에서,
Figure 112020083704918-pat00077
는 목적지 포인트이고
Figure 112020083704918-pat00078
는 64×96 크기 경계 박스에 매핑되는 소스 포인트이다. H는 호모그래피 행렬을 나타낸다. 각 경계 박스/탐지 윈도우에 대해 위에서 설명한 것처럼 4개의 정점이 고려된다. 원하는 경계 박스와 탐지 윈도우의 4개의 정점
Figure 112020083704918-pat00079
는 수학식 9를 사용하여 계산된다.
Figure 112020083704918-pat00080
수학식 9에서 각 소스 포인트
Figure 112020083704918-pat00081
에 대해,
Figure 112020083704918-pat00082
Figure 112020083704918-pat00083
는 정점들의 x, y 위치이다. 각 4개의 포인트에 대한 호모그래피 행호모그래피 행렬(
Figure 112020083704918-pat00084
)을 계산하기 위해 다음 행렬이 수학식 10과 같이 사용된다.
Figure 112020083704918-pat00085
위에서, 행렬
Figure 112020083704918-pat00086
는 원하는 맵 포인트를 가진 동일한 이미지의 균질 좌표이다.
Figure 112020083704918-pat00087
는 서로 다른 경계 박스 크기를 가진 경계 박스 정점이며, 경계 박스 정점은
Figure 112020083704918-pat00088
로 매핑되어 64×96 픽셀의 경계 박스 크기를 제공하며, H를 사용하여, 포인트
Figure 112020083704918-pat00089
의 투영된 좌표들이 수학식 11과 같이 계산된다.
Figure 112020083704918-pat00090
위의 행렬에서 H는 3×3 행렬이고, 9번째 항목
Figure 112020083704918-pat00091
은 이미지가 2D이므로 1로 설정된다. 따라서 탐지된 윈도우/경계 박스를 구성하면 H 행렬을 사용하여 해결할 수 있는 8개의 포인트 변수가 존재한다. 호모그래피 행렬을 사용하여 워프 투영 변환이 수행되어 도 7(b)에 도시된 바와 같이 원하는 64×96 픽셀 크기의 탐지된 윈도우가 획득된다. 워프 투영 변환은 가변 크기 경계 박스를 고정 크기 경계 박스에 맞춘다. 결과 이미지 패치는 소스 이미지와 평행하게 배향되고 워프 투영 변환 후에 획득되는데 이는 도 7(b)에 도시된다.
도 7(b)는 전처리 후 추출된 경계 박스에 있는 사람이 항상 똑바로 서있는 것을 보여준다. 또한, 오버헤드 뷰의 원형 대칭으로 인해, 추출된 경계 박스 내의 사람의 형상은 회전 불변의 특성을 거의 나타낸다. 추출된 경계 박스의 일부 샘플 예가 도 8에 도시되어 있다.
전체 프로세스를 신속하게 계산하기 위해 위에서 언급한 모든 단계는 여러 경계 박스 크기를 가진 하나의 완전한 이미지 640×480 픽셀에 사용된다. 이미지는 수평 및 수직으로 탐지 가능한 모든 지점에 대해 스캔된다. 이러한 방식으로, 이미지에서 각각의 탐지된 포인트/경계 박스에 대해, 원래의 이미지 좌표 및 변환된 위치의 모든 공간 정보를 저장하기 위해 룩업 테이블이 형성된다. 룩업 테이블에는 이미지 중심,
Figure 112020083704918-pat00092
,
Figure 112020083704918-pat00093
,
Figure 112020083704918-pat00094
, 방향
Figure 112020083704918-pat00095
및 중심 위치
Figure 112020083704918-pat00096
에서 감지된 윈도우의 반경 거리 r을 포함하여 각각의 탐지된 위치의 정보가 저장된다. 나머지 이미지 스캔 프로세스에서 이 룩업 테이블은 이러한 사전 계산된 위치를 직접 읽는 데 사용된다.
특징 추출
도 3을 참조하면, 단계 S308에서 제2 특징 추출부(1006)가 상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출한다.
도 8에 도시된 바와 같이 일부 샘플 이미지 패치에 대해 위의 전처리 단계를 적용한 후 HOG(Histogram of Oriented Gradient) 특징들이 각 탐지 윈도우/경계 박스에 대해 추출된다. 전체 특징 추출 프로세스에는 다음 단계가 포함된다. 입력 이미지는 탐지된 각 가능한 윈도우마다 수평 및 수직으로 스캔된다. 각각의 탐지된 윈도우/경계 박스에 대해, 룩업 테이블은 원하는 파라미터 및 경계 박스의 원하는 64×96 사이즈로의 표준화를 위해 검사된다.
탐지된 각 윈도우에 대한 다음 단계에서 HOG 특징이 추출된다. 이를 위해, 경계 박스는 16×16의 정사각형 블록으로 분할된다. 정사각형 블록은 도 9에 도시된 바와 같이 양방향으로 중첩된다. 각 정사각형 블록은 도 9에 도시된 바와 같이 8×8 픽셀의 셀이라 불리는 4개의 서브 영역으로 더 분할된다. 각 탐지 윈도우에 대한 총 특징의 수가 계산되는데,
Figure 112020083704918-pat00097
는 2777개의 특징을 포함하는 특징 벡터를 나타낸다.
Figure 112020083704918-pat00098
분류 및 클러스터링
단계 S310에서, SVM 분류기(1008)가 상기 테스트용 이미지 패치로부터 추출된 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 사람이 있는 이미지 패치 또는 사람이 없는 이미지 패치로 분류한다.
추출된 특징들은 Lib-Linear 패키지를 사용하여 선형 SVM 분류기(1008)를 훈련/테스트하는 데 사용된다. 선형 SVM 분류기(1008)는 사람이 있는 이미지 패치 그리고 사람이 없는 이미지 패치 분류를 위해 훈련을 수행하며, 선형 SVM 분류기(1008)는 이러한 종류의 단일 클래스 문제에서 최상의 결과를 보여주는 것으로 증명되었다. 따라서, 본 발명에서는 선형 커널이 있는 SVM이 수학식 13에 표시된 바와 같이 사용된다.
Figure 112020083704918-pat00099
훈련된 SVM 분류기(1008)는 전체 이미지를 스캔하여 사람이 있는 영역과 사람이 없는 영역을 분류하는 데 사용된다.
단계 S312에서, 클러스터링부(1010)는 사람이 있는 것으로 분류된 이미지 패치들을 클러스터링한다.
SVM을 사용하여 사람으로 분류된 이미지의 영역/탐지된 위치는 클러스터링부(1010)로 전송된다. 클러스터링부(1010)는 사람이 있는 것으로 분류된 이미지 패치들을 클러스터링하여 클러스터를 형성한다. 클러스터의 형성은 두 개의 파라미터, 즉 클러스터 반경(40 픽셀 유지됨)과 최소 탐지 위치(10으로 유지됨)에 기반한다. 사람 분류에서 64×96 픽셀의 이미지 패치가 사용되고 사람 탐지에 640×480 픽셀의 전체 이미지가 사용된다.
마지막으로, 단계 S314에서, 분류부(1012)는 클러스터링된 결과들을 사람 또는 사람이 아닌 것으로 분류한다.
분류부(1012)는 클러스터들의 위치가 거리 임계값이 40 픽셀 거리 이하인 경우, 클러스터링된 결과를 사람인 것으로 분류한다.
실험 및 결과
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 실험 및 평가를 위해 두 가지 주요 용어인 사람 분류와 사람 탐지가 고려된다. 분류에서 성능은 각각 진양성율(TPR: True Positive Rate) 및 위양성율(FPR: False Positive Rate)을 사용하여 평가된다. 하기 수학식 14 및 수학식 15에 표시된 바와 같이, TPR 및 FPR은 사람 분류와 관련된 결과를 평가하는데 사용된다.
이미지 64×96 영역이 이 목적으로 사용되며 탐지 윈도우 또는 경계 박스라고 한다. 탐지 윈도우의 일부 샘플이 도 8에 도시되어 있다. 전체 이미지 640×480 픽셀에서 사람을 탐지하여 위치를 알아내고 평가 성능을 보고하기 위해, TDR(true discovery rate) 및 FDR(false discovery rate)이 수학식 16 및 수학식 17에 나타낸 바와 같이 사용된다.
Figure 112020083704918-pat00100
Figure 112020083704918-pat00101
Figure 112020083704918-pat00102
Figure 112020083704918-pat00103
사람 분류
사람 분류는 사람 탐지 시스템의 필수 단계이다. 사람 분류에서는 사람을 포함하는 다른 라벨이 있거나 주석이 달린 이미지를 사용한다. 사람이 없는 이미지 패치 또는 배경 샘플은 데이터 세트에서 무작위로 선택된다. 사람 분류의 성능을 확인하기 위해 데이터 집합은 총 30,000개의 이미지 패치로 구성된다. 훈련 및 테스트 샘플에 대한 설명은 표 2의 도움으로 표시된다.
Figure 112020083704918-pat00104
SVM(support vector machine) 분류기들은 RHOG 및 ERHOG 기반 특징을 사용하는 사람이 포함된 8,000개 샘플과 16,000개의 사람이 없는 샘플을 사용하여 학습된다. RHOG 및 ERHOG 알고리즘을 사용하는 이 훈련된 분류기들은 모두 6,000개의 이미지 패치 또는 탐지 윈도우(사람이 있는 2,000개 및 사람이 없는 4,000개)를 사용하여 성능을 확인하는 데 사용된다. 표 3에서와 같이 두 분류기에서 생성된 결과를 보고하는 데 4중 교차 검증 방법이 사용된다.
Figure 112020083704918-pat00105
표 3에서 첫 번째 열은 특징 벡터를 추출하는 데 사용되는 선택된 알고리즘을 나타낸다. 4중 교차 검증을 사용한 각 알고리즘에 대한 진양성율 및 위양성율은 표 3에 설명되어 있다. 표의 마지막 열은 각 알고리즘에 대한 평균 결과를 보여준다. 이 표에 나타낸 바와 같이 각 폴드(fold)에서 유의한 변화가 관찰되지 않는다. 전체 ERHOG 알고리즘은 평균 TPR이 97%이고 FPR이 2%로서, RHOG보다 성능이 우수하다.
사람 탐지
사람 탐지 시스템을 위해 훈련 모듈이 사용된다. 훈련 모듈의 이진 분류기는 경계 박스를 사람이 있는 경계 박스 또는 사람이 없는 경계 박스로 분류하기 위해 훈련된 것이다. 탐지된 각 위치에 대한 이미지를 스캔한 후 테스트 단계 동안, 훈련된 분류기는 사람이 있는 경계 박스 또는 사람이 없는 경계 박스를 분류하는데 사용된다. 또한, 클러스터링 알고리즘은 전체 이미지에 대해 탐지된 사람 경계 박스들을 분류하는 데 사용된다.
사람 탐지 시스템에서, 전체 이미지는 사람의 가능한 후보들을 확인하기 위해 수평 및 수직으로 스캔닝된다. 스캐닝 프로세스는 도 11(b)의 도움으로 설명된다. ERHOG 알고리즘은 도 11(a)에 도시된 고정 크기 및 방향 경계 박스와 비교하여 도 11(b)의 경사 경계 박스를 사용한다는 것을 알 수 있다. 이 경사진 크기의 경계 박스는 오버헤드 뷰를 사용하여 카메라의 투영 변화로 인해 사람들의 다양한 방향을 충족시킨다.
예를 들어, 도 12와 같이 전통적인 스타일의 고정 방향 빨간색 경계 박스는 여기에 잘 맞지 않으며 사각형 크기 경계 박스를 사용하면 불필요한 배경을 덮지만, ERHOG를 사용하면 도 12에 도시된 바와 같이 흰색 경계 박스를 가지고 그것은 정확히 경계 박스의 동일한 크기와 방향을 취한다.
테스트 및 평가에서 동일한 프로세스가 사용되는데, 즉, 분류기를 더 잘 학습시키기 위하여 점진적으로 백그라운드 샘플을 추가한다. 앞서 논의한 바와 같이, 사람 분류는 사람 탐지를 위한 필수 단계이다. 따라서 이 훈련된 사람 분류기와 스캐닝된 200개의 사람이 없는 전체 이미지(이미지 당 모든 탐지 윈도우)를 사용하여 이미지 당 위양성율을 확인했다. 추가 백그라운드 샘플을 사용하여 분류기(RHOG, ERHOG) 알고리즘을 다시 조정하였다. 각각의 분류기(RHOG, ERHOG 알고리즘)는 이전에 사람이 없는 200개의 배경 이미지를 테스트하는 데 사용되었다. 도 13은 더 많은 사람이 없는 샘플 이미지들에 대해 훈련한 후의 분류기의 결과를 보여준다.
도 13은 두 분류기 즉, RHOG와 ERHOG 알고리즘을 리부스팅한 결과를 보여준다. 추가적인 백그라운드 샘플을 학습하면 RHOG 알고리즘을 사용하여 FPR을 2.5%에서 0.08%로 줄인 반면, 본 발명에 의한 ERHOG 알고리즘은 FPR을 2%에서 0.06%로 줄인다. 진양성율로 두 분류기(RHOG & ERHOG) 알고리즘의 성능을 평가하기 위해 이러한 분류기 각각을 테스트 세트(2,000명 샘플)에 대해 테스트하였다. 결과는 도 14에 도시되어 있다. 이 도면에 따르면, RHOG 및 ERHOG 분류기를 사용하면, TPR이 각각 96% 및 95%에서 93% 및 92%로 떨어진다. 전체 RHOG 분류기는 거의 0%의 FPR로 93%의 TPR을 생성하는 반면, ERHOG는 거의 0%의 FPR로 94%의 TPR을 달성한다.
RHOG 및 ERHOG 알고리즘을 사용하여 사전 훈련된 분류기를 사용하여 1,000개의 사람이 없는 이미지를 평가할 때, 각 사람이 없는 테스트 이미지는 사람 당 이미지에 대해 약 4개의 잘못된 탐지를 생성했다. 이러한 잘못된 탐지는 추가적인 배경 훈련과 비-최대 억제(non-maxima suppression)로 인해 거의 0으로 떨어진다, 결과는 도 15에 도시되어 있다.
사람 탐지에 사용될 때 훈련된 분류기가 얼마나 잘 작동하는지 조사하고 테스트하기 위해 또 다른 실험 세트를 사용하였다. 이를 평가하기 위해 사람들이 포함된 1,000개의 테스트 이미지가 사용되었다. 이 이미지에서 사람의 가시성은 이미지 당 최대 3명이다. 동일한 두 분류기가 이 테스트 이미지를 스캔하는 데 사용되었다.
도 11에 도시된 바와 같이 분류기가 전체 이미지에 걸쳐 가능한 모든 탐지 윈도우를 수평 및 수직 방향으로 스캔할 때 클러스터에 대한 탐지된 위치가 생성된다. 그런 다음 이러한 탐지된 위치는 실측 정보와 비교된다. 이들 클러스터들에서 탐지된 위치의 97%가 40 픽셀 거리 내에 있다. 전체적으로, RHOG에 대해 FDR 3.5%에서 TDR 97%, 그리고 ERHOG 알고리즘에 대해 FDR 3%에서 TDR 98%가 달성되었다. 본 발명에 의한 방법 및 RHOG의 TDR 및 FDR은 표 4에 나와 있다.
Figure 112020083704918-pat00106
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 시각화 요약은 도 16의 도움으로 볼 수 있다. 도 16(a)는 640×480 픽셀 크기의 원본 이미지이다. 도 16(b)는 수평 및 수직 경계 박스/탐지 윈도우를 사용한 이미지 스캐닝 과정을 강조한 것이다. 경계 박스의 크기와 방향은 반경 거리에 따라 다르다. 도 16(c)는 각 위치의 스캐닝에 사용된 수평 및 수직 위치의 샘플을 보여주는데, 그것은 실제로는 완전한 경계 박스이고, 이러한 예 중 하나는 이미지 스캐닝 중에 흰색 사각형으로 그려져 있다.
SVM 분류기는 탐지 윈도우 각각을 사람이 있는 윈도우 또는 사람이 없는 윈도우로서 분류한다. 이미지에 사람이 존재하는 경우, SVM은 이미지에 있는 실제 사람을 중심으로 많은 실제 분류를 생성한다. SVM에 의해 생성된 이러한 겹치는 실제 분류 결과가 도 16(d)에 도시되어 있고 이들 경계 박스의 관련 위치가 도 16(d)에 도시되어 있는데, 이들 경계 박스의 관련 위치는 빨간색으로 표시된 이미지의 다른 임의의 위치에서 약간의 거짓된 분류와 함께 노란색 포인트로 도시되어 있다.
유효(valid)와 무효(invalid)의 형성 및 최대가 아닌 억제를 형성하기 위해 클러스터링 알고리즘이 개발되었다. 분류된 위치가 40 픽셀의 임계 값 내에 있고 최소 10 멤버가 있으면 클러스터가 유효한 것으로 간주되고, 그렇지 않으면 단순히 폐기된다. 도 16(f)는 흰색 타원으로 유효한 클러스터의 형성을 보여준다. 선택한 임계 값을 가진 클러스터 멤버들도 또한 노란색 포인트로 도시된다. 도 16(e)에서 발견된 거짓 클러스터는 상기 조건을 적용하여 폐기된다. 잘못된 탐지의 하나의 그러한 거짓 예는 도 16(e)에서 찾을 수 있다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법에 의해 탐지된 위치를 갖는 샘플 이미지가 도 17에 도시되며, 여기서 3명이 탐지된다. 흰색 원은 실측 정보이고, ERHOG의 탐지 결과는 파란색 원으로 표시된다. 빨간색 원은 부정적인 결과를 보여준다.
처리 시간
ERHOG 및 RHOG 알고리즘은 운영 체제로 Windows 10이 설치된 5GB RAM을 가진 Intel(R) 듀얼 코어, 3.2GHz, i5 프로세서가 장착된 컴퓨터를 사용하여 처리 시간을 비교하는 데 사용되었다. 두 알고리즘의 계산 시간은 표 5에 표시되었다.
Figure 112020083704918-pat00107
결론
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법은 포인트 기반 기하 변환과 투영 기하의 워프 투영 변환(warp perspective transformation)을 포함하는 전처리 단계에 기반한다. 본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법은 장면의 원형 대칭으로 인해 회전 불변성을 나타낼 가능성이 있다. 전처리 프로세스 후, 경계 박스/탐지 윈도우의 5개의 추가적인 공간적 특징과 함께 방향 그레이디언트 기반 특징들이 추출된다. 이러한 결합된 특징들은 선형 SVM 분류기로 공급되고 마지막으로 이미지에서 탐지된 사람에 대한 투표를 위해 클러스터링 프로세스가 적용된다.
본 발명의 일 실시예에 의한 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법의 성능을 평가하기 위해 일련의 실험이 고안되었다. 실험 결과는 FDR이 3%이고 TDR이 98%인 본 발명의 알고리즘의 정확도를 보여준다. 결과는 RHOG보다 약간 우수하지만, 전처리 단계에서의 포인트 기반 투영 변환과 반복 계산을 피하기 위한 룩업 테이블로 인해 계산 비용이 크게 향상된다.
이상 본 발명을 구체적인 실시예를 통하여 상세하게 설명하였으나, 이는 본 발명을 구체적으로 설명하기 위한 것으로, 본 발명은 이에 한정되지 않으며, 본 발명의 기술적 사상 내에서 당 분야의 통상의 지식을 가진 자에 의해 그 변형이나 개량이 가능함은 명백하다고 할 것이다.
본 발명의 단순한 변형 내지 변경은 모두 본 발명의 영역에 속하는 것으로, 본 발명의 구체적인 보호 범위는 첨부된 청구범위에 의하여 명확해질 것이다.
1000 : 이미지 패치 획득부
1002 : 제1 특징 추출부
1004 : 전처리부
1006 : 제2 특징 추출부
1008 : SVM 분류기
1010 : 클러스터링부
1012 : 분류부

Claims (12)

  1. (A) 이미지 패치 획득부가, 복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 특정 객체가 있는 이미지 패치 및 특정 객체가 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득하는 단계;
    (B) 제1 특징 추출부가, 상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하는 단계;
    (C) 분류기가, 상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 훈련을 수행하는 단계;
    (D) 전처리부가, 테스트용 탑뷰 이미지를 전처리하는 단계;
    (E) 제2 특징 추출부가, 상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하는 단계;
    (F) 상기 분류기가, 상기 테스트용 이미지 패치로부터 추출된 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하는 단계;
    (G) 클러스터링부가, 특정 객체가 있는 것으로 분류된 이미지 패치들을 클러스터링하는 단계; 및
    (H) 분류부가, 클러스터링된 결과들을 특정 객체 또는 특정 객체가 아닌 것으로 분류하는 단계를 포함하고,
    상기 단계 (D)는,
    (D-1) 상기 테스트용 탑뷰 이미지를 회색조 이미지로 변환하는 단계;
    (D-2) 상기 회색조 이미지의 소정 위치에 있는 경계 박스의 중심(
    Figure 112022017945419-pat00187
    )에서 상기 이미지의 광학 중심(
    Figure 112022017945419-pat00188
    )까지의 반경 거리(r)를 획득하는 단계;
    (D-3) 상기 경계 박스와 연관된 공간 특징들을 계산하는 단계;
    (D-4) 포인트 기반 기하 변환(point based geometric transformation)에 기반하여 상기 경계 박스의 모양을 표준화하는 단계;
    (D-5) 상기 경계 박스의 4개의 정점들의 좌표를 계산하는 단계; 및
    (D-6) 워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 단계를 포함하는, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법.
  2. 청구항 1에 있어서,
    상기 특정 객체는 사람을 포함하는 것을 특징으로 하는, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법.
  3. 삭제
  4. 청구항 1에 있어서,
    상기 경계 박스와 연관된 공간 특징들은 상기 경계 박스의 폭(
    Figure 112022017945419-pat00110
    ), 상기 경계 박스의 높이(
    Figure 112022017945419-pat00111
    ) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
    Figure 112022017945419-pat00112
    )을 포함하고,
    상기 단계 (C)와 단계 (F)의 공간 특징들은, 상기 경계 박스의 중심(
    Figure 112022017945419-pat00113
    )에서 상기 이미지의 광학 중심(
    Figure 112022017945419-pat00114
    )까지의 반경 거리(r), 상기 경계 박스의 폭(
    Figure 112022017945419-pat00115
    ), 상기 경계 박스의 높이(
    Figure 112022017945419-pat00116
    ) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
    Figure 112022017945419-pat00117
    )을 포함하며,
    상기 경계 박스의 폭(
    Figure 112022017945419-pat00118
    ), 상기 경계 박스의 높이(
    Figure 112022017945419-pat00119
    ) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
    Figure 112022017945419-pat00120
    )은 각각,
    [수학식 2]
    Figure 112022017945419-pat00121

    [수학식 3]
    Figure 112022017945419-pat00122

    [수학식 4]
    Figure 112022017945419-pat00123
    에 기반하여 계산되며,
    Dx, Dy는 각각 상기 경계 박스의 중심(
    Figure 112022017945419-pat00124
    )의 x 좌표 및 y 좌표이고, Ox 및 Oy는 각각 상기 이미지의 광학 중심(
    Figure 112022017945419-pat00125
    )의 x 좌표 및 y 좌표인, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법.
  5. 청구항 4에 있어서,
    상기 포인트 기반 기하 변환(point based geometric transformation)은,
    [수학식 6]
    Figure 112020083704918-pat00126
    에 기반하여 수행되고,
    상기 경계 박스의 4개의 정점들의 좌표(
    Figure 112020083704918-pat00127
    내지
    Figure 112020083704918-pat00128
    )는,
    [수학식 7]
    Figure 112020083704918-pat00129
    에 기반하여 계산되며,
    xc 및 yc는 각각 상기 경계 박스의 중심의 좌표인, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법.
  6. 청구항 4에 있어서,
    상기 워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 단계는,
    [수학식 10]
    Figure 112020083704918-pat00130
    에 기반하여, 호모그래피 행렬(
    Figure 112020083704918-pat00131
    )을 계산하고,
    [수학식 11]
    Figure 112020083704918-pat00132
    에 기반하여, 64×96 픽셀의 경계 박스의 정점의 투영된 좌표(
    Figure 112020083704918-pat00133
    )를 계산하여 상기 경계 박스의 크기를 표준화하는 단계를 포함하며,
    Figure 112020083704918-pat00134
    Figure 112020083704918-pat00135
    는 정점들의 x 위치이고,
    Figure 112020083704918-pat00136
    Figure 112020083704918-pat00137
    는 정점들의 y 위치이며,
    Figure 112020083704918-pat00138
    는 서로 다른 크기를 갖는 경계 박스의 정점의 좌표인, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법.
  7. 복수의 훈련용 탑뷰 이미지를 경계 박스에 기반하여 크로핑하여 특정 객체가 있는 이미지 패치 및 특정 객체가 없는 이미지 패치를 포함하는 복수의 훈련용 이미지 패치를 획득하기 위한 이미지 패치 획득부;
    상기 획득된 훈련용 이미지 패치들로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하기 위한 제1 특징 추출부;
    테스트용 탑뷰 이미지를 전처리하기 위한 전처리부;
    상기 전처리된 테스트용 탑뷰 이미지를 경계 박스에 기반하여 수평 및 수직으로 스캐닝하여 각 경계 박스 내의 테스트용 이미지 패치로부터 HOG(Histogram of Oriented Gradient) 특징들을 추출하기 위한 제2 특징 추출부;
    상기 훈련용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 상기 경계 박스의 공간 특징들에 기반하여, 상기 훈련용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 훈련을 수행하고, 상기 테스트용 이미지 패치로부터 추출된 HOG(Histogram of Oriented Gradient) 특징들 및 경계 박스의 공간 특징들에 기반하여, 각 경계 박스 내의 테스트용 이미지 패치를 특정 객체가 있는 이미지 패치 또는 특정 객체가 없는 이미지 패치로 분류하기 위한 분류기;
    특정 객체가 있는 것으로 분류된 이미지 패치들을 클러스터링하기 위한 클러스터링부; 및
    클러스터링된 결과들을 특정 객체 또는 특정 객체가 아닌 것으로 분류하기 위한 분류부를 포함하고,
    상기 전처리부는,
    상기 테스트용 탑뷰 이미지를 회색조 이미지로 변환하는 동작;
    상기 회색조 이미지의 소정 위치에 있는 경계 박스의 중심(
    Figure 112022017945419-pat00189
    )에서 상기 이미지의 광학 중심(
    Figure 112022017945419-pat00190
    )까지의 반경 거리(r)를 획득하는 동작;
    상기 경계 박스와 연관된 공간 특징들을 계산하는 동작;
    포인트 기반 기하 변환(point based geometric transformation)에 기반하여 상기 경계 박스의 모양을 표준화하는 동작;
    상기 경계 박스의 4개의 정점들의 좌표를 계산하는 동작; 및
    워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 동작을 수행하는, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치.
  8. 청구항 7에 있어서,
    상기 특정 객체는 사람을 포함하는 것을 특징으로 하는, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치.
  9. 삭제
  10. 청구항 7에 있어서,
    상기 경계 박스와 연관된 공간 특징들은 상기 경계 박스의 폭(
    Figure 112022017945419-pat00141
    ), 상기 경계 박스의 높이(
    Figure 112022017945419-pat00142
    ) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
    Figure 112022017945419-pat00143
    )을 포함하고,
    상기 공간 특징들은, 상기 경계 박스의 중심(
    Figure 112022017945419-pat00144
    )에서 상기 이미지의 광학 중심(
    Figure 112022017945419-pat00145
    )까지의 반경 거리(r), 상기 경계 박스의 폭(
    Figure 112022017945419-pat00146
    ), 상기 경계 박스의 높이(
    Figure 112022017945419-pat00147
    ) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
    Figure 112022017945419-pat00148
    )을 포함하며,
    상기 경계 박스의 폭(
    Figure 112022017945419-pat00149
    ), 상기 경계 박스의 높이(
    Figure 112022017945419-pat00150
    ) 및 상기 이미지의 광학 중심에서 상기 경계 박스로의 방향(
    Figure 112022017945419-pat00151
    )은 각각,
    [수학식 2]
    Figure 112022017945419-pat00152

    [수학식 3]
    Figure 112022017945419-pat00153

    [수학식 4]
    Figure 112022017945419-pat00154
    에 기반하여 계산되며,
    Dx, Dy는 각각 상기 경계 박스의 중심(
    Figure 112022017945419-pat00155
    )의 x 좌표 및 y 좌표이고, Ox 및 Oy는 각각 상기 이미지의 광학 중심(
    Figure 112022017945419-pat00156
    )의 x 좌표 및 y 좌표인, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치.
  11. 청구항 10에 있어서,
    상기 포인트 기반 기하 변환(point based geometric transformation)은,
    [수학식 6]
    Figure 112020083704918-pat00157
    에 기반하여 수행되고,
    상기 경계 박스의 4개의 정점들의 좌표(
    Figure 112020083704918-pat00158
    내지
    Figure 112020083704918-pat00159
    )는,
    [수학식 7]
    Figure 112020083704918-pat00160
    에 기반하여 계산되며,
    xc 및 yc는 각각 상기 경계 박스의 중심의 좌표인, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치.
  12. 청구항 10에 있어서,
    상기 워프 투영 변환(warp perspective transformation)에 기반하여 상기 경계 박스의 크기를 표준화하는 동작은,
    [수학식 10]
    Figure 112020083704918-pat00161
    에 기반하여, 호모그래피 행렬(
    Figure 112020083704918-pat00162
    )을 계산하고,
    [수학식 11]
    Figure 112020083704918-pat00163
    에 기반하여, 64×96 픽셀의 경계 박스의 정점의 투영된 좌표(
    Figure 112020083704918-pat00164
    )를 계산하여 상기 경계 박스의 크기를 표준화하는 동작을포함하고,
    Figure 112020083704918-pat00165
    Figure 112020083704918-pat00166
    는 정점들의 x 위치이고,
    Figure 112020083704918-pat00167
    Figure 112020083704918-pat00168
    는 정점들의 y 위치이며,
    Figure 112020083704918-pat00169
    는 서로 다른 크기를 갖는 경계 박스의 정점의 좌표인, 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 장치.
KR1020200099812A 2020-08-10 2020-08-10 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치 KR102395866B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200099812A KR102395866B1 (ko) 2020-08-10 2020-08-10 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200099812A KR102395866B1 (ko) 2020-08-10 2020-08-10 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220019421A KR20220019421A (ko) 2022-02-17
KR102395866B1 true KR102395866B1 (ko) 2022-05-10

Family

ID=80493272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200099812A KR102395866B1 (ko) 2020-08-10 2020-08-10 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102395866B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2570993A2 (en) 2011-09-16 2013-03-20 Harman International (China) Holdings Co., Ltd. Egomotion estimation system and method
EP2808805A1 (en) 2013-05-30 2014-12-03 Thomson Licensing Method and apparatus for displaying metadata on a display and for providing metadata for display

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101724658B1 (ko) 2012-12-21 2017-04-10 한국전자통신연구원 사람 검출 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2570993A2 (en) 2011-09-16 2013-03-20 Harman International (China) Holdings Co., Ltd. Egomotion estimation system and method
EP2808805A1 (en) 2013-05-30 2014-12-03 Thomson Licensing Method and apparatus for displaying metadata on a display and for providing metadata for display

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Imran Ahmed외 1명, A robust algorithm for detecting people in overhead views, Cluster Comput(2017.06.08.) 1부.*

Also Published As

Publication number Publication date
KR20220019421A (ko) 2022-02-17

Similar Documents

Publication Publication Date Title
Marin et al. Learning appearance in virtual scenarios for pedestrian detection
US9639748B2 (en) Method for detecting persons using 1D depths and 2D texture
US8577151B2 (en) Method, apparatus, and program for detecting object
CA2414743C (en) System and method for automatically detecting neutral expressionless faces in digital images
Silva et al. A flexible approach for automatic license plate recognition in unconstrained scenarios
US20190130215A1 (en) Training method and detection method for object recognition
US9400935B2 (en) Detecting apparatus of human component and method thereof
Ogale A survey of techniques for human detection from video
Ahmed et al. A robust algorithm for detecting people in overhead views
US20080193020A1 (en) Method for Facial Features Detection
US20080166016A1 (en) Fast Method of Object Detection by Statistical Template Matching
US20040161134A1 (en) Method for extracting face position, program for causing computer to execute the method for extracting face position and apparatus for extracting face position
Ahmed et al. Person detector for different overhead views using machine learning
Ahmed et al. Efficient topview person detector using point based transformation and lookup table
US20100034465A1 (en) Method and apparatus for calculating pixel features of image data
US20190370535A1 (en) Method for identifying a subject using gait analysis
JP2003517910A (ja) 心臓磁気共鳴画像において学習ベースでオブジェクトを検出する方法
US20090245575A1 (en) Method, apparatus, and program storage medium for detecting object
US8718362B2 (en) Appearance and context based object classification in images
Ahmed et al. A robust person detector for overhead views
WO2011099072A1 (ja) パターン識別装置
CN112801038A (zh) 一种多视点的人脸活体检测方法及系统
Tu et al. An intelligent video framework for homeland protection
KR102395866B1 (ko) 머신 러닝을 이용한 카메라 영상의 객체 인식 및 검출 방법 및 장치
CN115797970A (zh) 基于YOLOv5模型的密集行人目标检测方法及系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant