WO2015182904A1 - 관심객체 검출을 위한 관심영역 학습장치 및 방법 - Google Patents

관심객체 검출을 위한 관심영역 학습장치 및 방법 Download PDF

Info

Publication number
WO2015182904A1
WO2015182904A1 PCT/KR2015/004808 KR2015004808W WO2015182904A1 WO 2015182904 A1 WO2015182904 A1 WO 2015182904A1 KR 2015004808 W KR2015004808 W KR 2015004808W WO 2015182904 A1 WO2015182904 A1 WO 2015182904A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
image
region
resizing
detection
Prior art date
Application number
PCT/KR2015/004808
Other languages
English (en)
French (fr)
Inventor
이희열
고병철
배경훈
남재열
곽준영
정미라
김봉모
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Publication of WO2015182904A1 publication Critical patent/WO2015182904A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This embodiment relates to a region of interest learning apparatus and method for detecting an object of interest.
  • an interest of setting a detection event rule for a specific size of resizing and a region of interest for detecting an object of interest based on an object of interest detected by sliding a unit window on each of the resizing images obtained by converting an image frame by a predetermined size is shown. It is a main object to provide a region of interest learning apparatus and method for detecting an object.
  • an obtaining process of obtaining an image frame from an image capturing module comprising a process.
  • the image acquisition unit for obtaining an image frame from the image photographing module;
  • An image converter configured to convert the image frame by a predetermined size to generate a plurality of resizing images;
  • An object detector which slides a unit window on each of the plurality of resizing images to generate detection result information of detecting an object of interest in an image area corresponding to the unit window; Voting the area corresponding to the detection result information for each window map corresponding to each of the plurality of resizing images, selecting an object detection image having a specific size among the plurality of resizing images based on the result of the voting,
  • an event rule setting unit configured to set an ROI in each of the object detection images.
  • the ROI learning apparatus sets the detection event rule so that it is not necessary to scan the entire area of the resizing image for object detection, thereby increasing the computational efficiency.
  • the ROI learning apparatus can shorten the computational process of scanning an image, the ROI learning apparatus can perform an operation requiring object detection as quickly as in real time. In other words, in the field of video security where real-time processing is important, there is an effect that can increase the efficiency of the technology for detecting moving objects.
  • the ROI learning apparatus has an effect of increasing efficiency of processing time by applying not only a moving object but also a detection of a predetermined specific object.
  • FIG. 1 is a block diagram schematically illustrating an object-of-interest detection system for detecting an object of interest according to an exemplary embodiment.
  • FIG. 2 is a flowchart illustrating a method of learning a region of interest for detecting an object of interest according to an exemplary embodiment.
  • FIG. 3 is an exemplary diagram illustrating an operation of learning an ROI for detecting an ROI according to an exemplary embodiment.
  • FIG. 4 is an exemplary diagram for describing an operation of setting an ROI in the ROI learning apparatus according to the present embodiment.
  • FIG 5 is an exemplary view showing a region of interest set in the region of interest learning apparatus according to the present embodiment.
  • FIG. 1 is a block diagram schematically illustrating an object-of-interest detection system for detecting an object of interest according to an exemplary embodiment.
  • the object-of-interest detection system includes an image photographing apparatus 110 and a region of interest learning apparatus 120.
  • the object of interest detection system illustrated in FIG. 1 is according to an exemplary embodiment.
  • the image capturing apparatus 110 and the ROI learning apparatus 120 may be implemented as a single apparatus.
  • the ROI learning apparatus 120 includes an image obtaining unit 130, an image converting unit 140, an object detecting unit 150, and an event rule setting unit 160.
  • Components included in the ROI learning apparatus 120 are according to an exemplary embodiment, and not all blocks are essential components. In other embodiments, some blocks included in the ROI learning apparatus 120 may be added, changed, or changed. Can be deleted.
  • the image capturing apparatus 110 refers to a device capable of capturing an image.
  • the image capturing apparatus 110 may transmit an image frame of a photographed captured image to the ROI learning apparatus 120.
  • the camera may be implemented as a CCTV camera, a surveillance camera, or the like capable of capturing an image for detecting an area, an object of interest, an event, and the like.
  • the image capturing apparatus 110 may be implemented with a plurality of cameras.
  • the ROI learning apparatus 120 generates a plurality of resizing images by converting the image frame for each preset size.
  • the ROI learning apparatus 120 slides a unit window on each of the plurality of resizing images, and votes on an object of interest detected in the image region corresponding to the unit window to generate a detection event rule for a specific size and region of interest. Set it.
  • the detection event rule is set in advance, the ROI learning apparatus 120 detects an object of interest only in the ROI of the resizing image converted to a specific size based on the detection event rule.
  • the components included in the ROI learning apparatus 120 will be described.
  • the image acquisition unit 130 obtains an image frame from the image photographing apparatus 110.
  • the image acquisition unit 130 according to the present embodiment transmits the acquired image frame to the image conversion unit 140 so that the size of the image frame is variable.
  • the image frame means a frame for the captured image photographed by the image capturing apparatus 110.
  • the image acquisition unit 130 may receive an image frame from the image capturing apparatus 110 in real time, but is not limited thereto.
  • the image capturing unit 130 may obtain an image frame of an image previously captured and stored in the image capturing apparatus 110. have.
  • the image converter 140 generates a plurality of resizing images by converting the image frame for each preset size.
  • the image converter 140 generates a plurality of resizing images by enlarging or reducing the image frame based on the original size.
  • the image converter 140 generates a plurality of resizing images by resizing the size of the image frame to have a predetermined difference in image size.
  • the image converter 140 allows the object detector 150 to accurately detect an object of interest as the difference in the constant image size becomes smaller.
  • the image converter 140 may resize an image frame by 0.3 times to 2.0 times to generate a plurality of resizing images.
  • the image converting unit 140 resizes 0.1 times the image size difference between the minimum resizing image reduced by 0.3 times and the maximum resizing image enlarged by 2.0 times to generate a total of 18 resizing images.
  • the image converter 140 generates a resizing image obtained by converting an image frame for each specific size corresponding to a preset detection event rule.
  • the detection event rule is rule information set by the event rule setting unit 160 and includes information about a specific size for detecting an object of interest and information about an ROI corresponding to the specific size.
  • the image converter 140 generates a resizing image to a number corresponding to the number of preset specific sizes.
  • the image converter 140 generates a resized resized image for each specific size included in the detection event rule and transmits the resized image to the object detector 150. For example, when there is a detection event rule including specific size information of 0.4 times, 0.6 times, 1.0 times, 1.4 times, and 1.8 times, the image converting unit 140 has 0.2 times, 0.6 times, 1.0 times, 1.4 times, and A total of five resizing images resized at 1.8 times each size are generated and transmitted to the object detector 150.
  • the object detector 150 slides a predetermined unit window in all or a portion of the resizing image to generate detection result information of detecting an object of interest in an image region corresponding to the unit window.
  • the detection result information is information on the detected object of interest, which may be in the form of an image frame in which the object of interest is displayed, but is not necessarily limited thereto, and may be generated in the same form as coordinate information of the object of interest.
  • the object detector 150 slides a unit window on each of the plurality of resizing images to generate detection result information of detecting an object of interest in an image area corresponding to the unit window.
  • the object detector 150 uses a sliding window method that slides the unit window along a predetermined path (for example, from one side to the other side) in the entire resizing image area, thereby finding an object of interest in the image area corresponding to the unit window. Detect.
  • the object detector 150 transmits detection result information about the detected object of interest to the event rule setting unit 160 so that the detection event rule is set.
  • the object detector 150 calculates the feature vector pixel value by using the brightness difference of the image area corresponding to the unit window slid in the resizing image, compares the feature vector pixel value with a preset reference pixel value, and detects the detection result information.
  • the unit window may be implemented with the same size as a plurality of preset filters to calculate an object of interest in the Haar-Like Feature method, but is not limited thereto.
  • the object detector 150 detects many objects of interest in the lower region mainly in the resized image reduced based on the original frame of the original size, and in the upper region in the resized image enlarged based on the original frame of the original size. Many are detected. This is because the unit window for the detection of the object of interest is fixed. In other words, because the person is displayed in the upper region of the image frame due to the perspective, the object is detected in the image region corresponding to the unit window in the enlarged resizing image. On the contrary, since a person is largely displayed in the lower region of the image frame due to the perspective, the object is detected in the image region corresponding to the unit window in the reduced resizing image.
  • the object detector 150 preferably uses the Haar-Like Feature method to detect an object of interest in an image area corresponding to a unit window, but is not necessarily limited thereto, and may speed up the detection speed rather than the detection accuracy of the object of interest. If so, any method such as histogram of oriented gradient (HOG), center-symmetric local binary pattern (CS-LBP), and gabor filter response may be applied.
  • HOG histogram of oriented gradient
  • CS-LBP center-symmetric local binary pattern
  • gabor filter response may be applied.
  • the object detector 150 acquires the resized image converted for each specific size, and slides the unit window within the ROI preset for each resizing image based on the detection event rule to search for the object of interest in the image region corresponding to the unit window.
  • the detected detection result information is generated.
  • the detection event rule is rule information set by the event rule setting unit 160 and includes information about a specific size for detecting an object of interest and information about an ROI corresponding to the specific size.
  • the object detector 150 may increase the search speed of the object of interest by sliding the unit window only in the region of interest based on a preset detection event rule to generate the object of interest in the image region corresponding to the unit window.
  • the object detector 150 outputs or transmits the detection result information on the object of interest detected in the ROI to the external device using a display unit (not shown).
  • the object detector 150 may transmit and output detection result information to an external device, or perform additional detection based on the detection result information.
  • the event rule setting unit 160 sets a detection event rule and includes a voting unit 162 and an ROI setting unit 164.
  • the voting unit 162 votes an area corresponding to the detection result information for each window map corresponding to each of the resizing images.
  • the voting unit 162 generates a window map corresponding to each of the resizing images, and voting the window map generated for the area corresponding to the detection result information.
  • the voting unit 162 checks the position value at which the object of interest is detected based on the detection result information, and increases the voting unit by increasing a predetermined weight value to a function value of the window map corresponding to the position value.
  • the voting unit 162 may voting on the window map corresponding to the center position value of the image region corresponding to the unit window in which the object of interest is detected, but is not necessarily limited thereto, and corresponds to the unit window in which the object of interest is detected.
  • the window map may correspond to the window map corresponding to the entire area of the image area.
  • the voting unit 162 repeats the voting operation on the window map until the preset number of image frames is reached.
  • the voting unit 160 votes the object of interest detected in the resized image converted for each of the preset number of image frames.
  • the voting unit 162 increases the function value of the window map corresponding to the position value at which the object of interest is detected by '1'.
  • the voting unit 162 performs voting on the resized image converted for each image frame until the 30 image frames are acquired, thereby detecting an object of interest according to the voting result. The location can be determined.
  • the voting is mainly performed in the lower area of the resizing image reduced to the original frame of the original size, and the upper region of the resizing image enlarged to the original frame of the original size.
  • the unit window for the detection of the object of interest is fixed. That is, since the person is displayed small in the upper region of the image frame due to perspective, the object is detected in the image region corresponding to the unit window in the enlarged resizing image. On the contrary, since a person is largely displayed in the lower region of the image frame due to the perspective, the object is detected in the image region corresponding to the unit window in the reduced resizing image.
  • the ROI setting unit 164 selects at least one object detection image having a specific size from among the plurality of resizing images based on the voting result of the voting unit 162 and sets an ROI in each of the selected object detection images. .
  • the ROI setting unit 164 forms a group of a plurality of resizing images by successive sizes, and at least one object detection image having a specific size of the resizing image corresponding to the window map having the highest voting result in the formed group. Selected by The ROI setting unit 164 sets all the pixel rows including the area where the ROI is detected based on the voting result in the object detection image as the ROI.
  • the ROI setting unit 164 converts the ROIs set in the plurality of resizing images into sizes corresponding to the image frames (original size)
  • the sum of the ROIs set in the plurality of resizing images is the entire area of the image frame.
  • the ROI setting unit 164 may cover the entire region of the image frame by overlapping ROIs.
  • the ROI setting unit 164 generates a detection event rule including information about a specific size for detecting an object of interest and information about the ROI corresponding to the specific size.
  • the detection event rule includes information about a specific size for detecting an object of interest and information about a region of interest corresponding to the specific size.
  • the ROI setting unit 164 By setting the detection event rule, the ROI setting unit 164 generates the resizing image of the preset specific size in the image converter 140, and the ROI only in the ROI corresponding to the resizing image of the specific size. To be detected.
  • FIG. 2 is a flowchart illustrating a method of learning a region of interest for detecting an object of interest according to an exemplary embodiment.
  • the ROI learning apparatus 120 obtains an image frame from the image photographing module (S210).
  • the ROI learning apparatus 120 checks whether a detection event rule is set (S220).
  • the ROI learning apparatus 120 As a result of checking in step S220, when the detection event rule is previously set, the ROI learning apparatus 120 generates a resizing image based on the detection event rule (S222).
  • the detection event rule is predetermined rule information for detecting an object of interest, and includes information on a specific size for detecting an object of interest and information about a region of interest corresponding to the specific size.
  • the ROI learning apparatus 120 detects an object of interest in an image region corresponding to the unit window by sliding the unit window within the ROI preset in the resizing image converted into a specific size based on the detection event rule ( S224), the detection result information on the detected object of interest is generated (S226).
  • the ROI learning apparatus 120 may increase the search speed of the ROI by detecting the ROI only in an image region corresponding to a unit window in the ROI based on a preset detection event rule.
  • the ROI learning apparatus 120 when the detection event rule is not set as a result of checking in step S220, the ROI learning apparatus 120 generates a plurality of resizing images by converting the image frame for each preset size (S230).
  • the ROI learning apparatus 120 generates a plurality of resizing images by converting the sizes of the image frames based on the original size of the image frame for each size having a predetermined difference in image size.
  • the ROI learning apparatus 120 detects an object of interest in an image area corresponding to the unit window by sliding a preset unit window in each of the plurality of resizing images (S240).
  • the ROI learning apparatus 120 calculates the feature vector pixel value by using the brightness difference of the image region in which the unit window is slid in the resizing image, and generates the detection result information by comparing the feature vector pixel value with a preset reference pixel value. do.
  • the ROI-learning apparatus 120 votes to a window map corresponding to each of the plurality of resizing images based on the region of interest detected (S250).
  • the ROI learning apparatus 120 checks the position value at which the object of interest is detected based on the detection result information, and increases the voting by increasing a predetermined weight value to a function value of the window map corresponding to the position value.
  • the ROI learning apparatus 120 checks whether the preset number of image frames is reached (S260), and selects a resizing image having a specific size as an object detection image based on a voting result of the preset number of image frames. (S270).
  • the ROI learning apparatus 120 forms a grouping of a plurality of resizing images by successive sizes, and selects a resizing image corresponding to the window map having the highest voting result from the formed group as an object detection image having a specific size. .
  • the ROI learning apparatus 120 sets an ROI on the selected object detection image (S280).
  • the ROI learning apparatus 120 sets all pixel rows including the region where the ROI is detected based on the voting result in the object detection image as the ROI.
  • FIG. 3 is an exemplary diagram illustrating an operation of learning an ROI for detecting an ROI according to an exemplary embodiment.
  • FIG. 3A illustrates a plurality of resizing images converted for each preset size based on the original size of the image frame.
  • the ROI 120 acquires an image frame having an original size (for example, x 1.0)
  • the size of the image frame is reduced or enlarged to reduce the minimum resizing image (for example, x 0.3) to the maximum resizing image (x). 2.0).
  • the minimum resizing image (eg, x 0.3) to the maximum resizing image (x 2.0) may include 12 resizing images (eg, level 1 to level 12) having a predetermined image size.
  • 3B illustrates a result of detecting an object of interest for each of the plurality of resizing images and voting a region of the object of interest detected on the window map generated corresponding to each of the plurality of resizing images.
  • the ROI learning apparatus 120 slides a predetermined unit window with respect to each of a minimum resizing image (eg, x 0.3) to a maximum resizing image (x 2.0).
  • Detection result information of the object of interest detected in the image area corresponding to the unit window is generated, and voting is performed to increase the function value of the window map corresponding to each resizing image based on the detection result information.
  • the ROI learning apparatus 120 performs voting to increase the function value of the window map with respect to the position value where the result of interest is detected by 1 based on the detection result information.
  • voting is mainly performed in the lower region, and in the resizing image enlarged based on the original frame of the original size, the upper region is mainly.
  • the unit window for the detection of the object of interest is fixed. That is, since the person is displayed small in the upper region of the image frame due to perspective, the object is detected in the image region corresponding to the unit window in the enlarged resizing image. On the contrary, since a person is largely displayed in the lower region of the image frame due to the perspective, the object is detected in the image region corresponding to the unit window in the reduced resizing image.
  • an object detection image for a specific size is selected from among the plurality of resizing images based on the voting result, and the ROI is set in each of the selected object detection images.
  • the ROI learning apparatus 120 selects an object detection image having a specific size corresponding to a predetermined number of window maps having the highest voting function value among the plurality of resizing images, and makes a lot of voting in the object detection image. All rows (horizontal pixel regions) including the region are set as the region of interest.
  • the ROI is preferably set in a rectangular shape in each object detection image, but is not necessarily limited thereto.
  • FIG. 4 is an exemplary diagram for describing an operation of setting an ROI in the ROI learning apparatus according to the present embodiment.
  • FIG. 4 is an exemplary diagram for describing in more detail the contents described with reference to FIGS. 3B and 3C, and the same descriptions as those described with reference to FIG. 3 will be omitted.
  • the ROI learning apparatus 120 forms groups 410, 412, and 414 by dividing the plurality of resizing images of the window map voting on the detected ROI by the continuous sizes. For example, the ROI learning apparatus 120 forms the first group 410, the second group 412, and the third group 414 by dividing nine resizing images into three pieces based on preset criteria.
  • the ROI learning apparatus 120 selects a resizing image corresponding to the window map having the highest voting result in each group as an object detection image having a specific size.
  • the ROI learning apparatus 120 may include a first window map 420 and a second resizing window map having the highest voting result in each of the first group 410, the second group 412, and the third group 414.
  • the first resizing image 430, the second resizing image 432, and the third resizing image 434 corresponding to 422 and the third window map 424 are selected as the object detection image.
  • the ROI learning apparatus 120 includes a region in which many objects of interest are detected, ie, a predetermined number of times, are detected in each of the first resizing image 430, the second resizing image 432, and the third resizing image 434. All pixel rows are set to the first region of interest 431, the second region of interest 433, and the third region of interest 435.
  • the ROI learning apparatus 120 sets and stores information about a specific size for selecting an object detection image and information about ROI as object event rules, and when the image frame is input thereafter, the ROI learning apparatus 120 Based on the pre-stored object event rule, the object may be quickly detected by sliding only the region of interest.
  • FIG 5 is an exemplary view showing a region of interest set in the region of interest learning apparatus according to the present embodiment.
  • the combined sizes of the regions of interest are used as the entire region. Cover it.
  • the size of the combined regions of interest may correspond to the entire region of the image frame. same.
  • each of the ROIs may cover the entire region of the image frame in the form that the region overlapping each other.
  • the first ROI 431, the second ROI 433, and the third ROI 435 are applied to an image frame of an original size, the first ROI 431 and the second ROI 433 are applied.
  • a first overlapping region 520 may be formed between the second overlapping region 520, and a second overlapping region 510 may be formed between the second ROI 433 and the third ROI 435.
  • the ROI-learning apparatus 120 may increase the detection accuracy by repeatedly detecting an object of interest that a plurality of overlapping regions exist. However, the detection speed may be lowered due to the increased amount of computation.
  • the present embodiment can be applied to the object detection field to increase the computational efficiency of resizing image frames, and to improve the efficiency of a technique for detecting an object by performing an operation requiring object detection such as real time. It is a useful invention that produces an effect that can be increased.
  • voting unit 164 ROI setting unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

관심객체 검출을 위한 관심영역 학습장치 및 방법을 개시한다. 영상 프레임을 기 설정된 사이즈별로 변환한 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여 검출된 관심객체에 근거하여 리사이징하는 특정 사이즈 및 관심객체를 검출하는 관심영역에 대한 검출 이벤트룰을 설정하는 관심객체 검출을 위한 관심영역 학습장치 및 방법에 관한 것이다.

Description

관심객체 검출을 위한 관심영역 학습장치 및 방법
본 실시예는 관심객체 검출을 위한 관심영역 학습장치 및 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
일반적인 객체 검출기술은 객체의 전체 영역을 특정 패턴으로 모델링하여 영상으로부터 동일한 패턴을 갖는 영역을 객체영역으로 검출하는 방법이 많이 사용되고 있다. 하지만 이러한 기술은 객체가 영상의 어떠한 부분에 존재하는지 모르기 때문에 영상 전체를 스캐닝해야 한다. 또한, 객체의 크기는 카메라의 위치에 따라 상이하기 때문에 영상의 특정부분을 확인할 때도 다양한 크기의 영역을 체크해야 함으로 계산상의 효율이 떨어지는 문제점이 있다. 이러한 문제점으로 인해 빠른 객체검출 또는 실시간 객체검출에 대한 영상 보안분야에서는 사용할 수 없다.
따라서, 일반적인 객체 검출기술은 계산상의 비효율을 최소화하기 위해 영상 스케일링을 통한 피라미드식 접근 방식을 이용하여 영상을 다양한 크기로 변환하는 방식이 존재하지만, 이러한 방식에서는 정확한 객체의 크기를 검출할 수 없고, 다양한 크기의 영상으로 변환하는 동작에 대해 처리시간이 오래 걸리는 문제점이 있다.
본 실시예는 영상 프레임을 기 설정된 사이즈별로 변환한 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여 검출된 관심객체에 근거하여 리사이징하는 특정 사이즈 및 관심객체를 검출하는 관심영역에 대한 검출 이벤트룰을 설정하는 관심객체 검출을 위한 관심영역 학습장치 및 방법을 제공하는 데 주된 목적이 있다.
본 실시예의 일 측면에 의하면, 영상 촬영모듈로부터 영상 프레임을 획득하는 획득과정; 상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 변환과정; 상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 검출과정; 상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅(Voting)하는 보팅과정; 및 상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역(ROI: Region of Interest)을 설정하는 관심영역 설정과정을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법을 제공한다.
또한, 본 실시예의 다른 측면에 의하면, 영상 촬영모듈로부터 영상 프레임을 획득하는 영상 획득부; 상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 이미지 변환부; 상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 객체 검출부; 상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅하고, 상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역을 설정하는 이벤트룰 설정부를 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치를 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 관심영역 학습장치는 검출 이벤트룰을 설정함으로써, 객체검출을 위해 리사이징 이미지의 전체 영역을 스캐닝할 필요가 없어 계산상의 효율을 높일 수 있는 효과가 있다.
관심영역 학습장치는 영상을 스캐닝하는 계산상의 과정을 단축할 수 있으므로 실시간과 같이 빠르게 객체 검출을 요하는 작업을 수행할 수 있는 효과가 있다. 다시 말해, 실시간 처리가 중요한 영상 보안 분야에서 이동하는 객체를 검출하는 기술의 효율을 증가시킬 수 있는 효과가 있다.
관심영역 학습장치는 이동하는 객체뿐만 아니라, 기 설정된 특정 객체에 대한 검출에도 적용하여 처리시간의 효율을 증가시킬 수 있는 효과가 있다.
도 1은 본 실시예에 따른 관심객체 검출을 위한 관심객체 검출 시스템을 개략적으로 나타낸 블록 구성도이다.
도 2는 본 실시예에 따른 관심객체 검출을 위한 관심영역을 학습하는 방법을 나타낸 순서도이다.
도 3은 본 실시예에 따른 관심객체 검출을 위한 관심영역을 학습하는 동작을 나타낸 예시도이다.
도 4는 본 실시예에 따른 관심영역 학습장치에서 관심영역을 설정하는 동작을 설명하기 위한 예시도이다.
도 5는 본 실시예에 따른 관심영역 학습장치에서 설정된 관심영역을 나타낸 예시도이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 실시예에 따른 관심객체 검출을 위한 관심객체 검출 시스템을 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 관심객체 검출 시스템은 영상 촬영장치(110) 및 관심영역 학습장치(120)를 포함한다. 도 1에 도시된 관심객체 검출 시스템은 일 실시예에 따른 것으로서, 영상 촬영장치(110) 및 관심영역 학습장치(120)는 하나의 장치로 구현될 수 있다.
본 실시예에 따른 관심영역 학습장치(120)는 영상 획득부(130), 이미지 변환부(140), 객체 검출부(150) 및 이벤트룰 설정부(160)를 포함한다. 관심영역 학습장치(120)에 포함된 구성요소는 일 실시예에 따른 것으로서, 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 관심영역 학습장치(120)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다.
영상 촬영장치(110)는 영상을 촬영할 수 있는 장치를 말하며, 본 실시예에 따른 영상 촬영장치(110)는 촬영된 촬영영상에 대한 영상프레임을 관심영역 학습장치(120)로 전송할 수 있고, 관심 영역, 관심 객체 및 이벤트 등을 검출하기 위한 영상을 촬영할 수 있는 CCTV용 카메라, 감시 카메라 등으로 구현될 수 있다. 이러한 영상 촬영장치(110)는 복수 개의 카메라로 구현될 수도 있다.
관심영역 학습장치(120)는 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다. 관심영역 학습장치(120)는 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 검출된 관심객체에 대해 보팅(Voting)하여 특정 사이즈 및 관심영역에 대한 검출 이벤트룰을 설정한다. 관심영역 학습장치(120)는 검출 이벤트룰이 기 설정되어 있는 경우, 검출 이벤트룰에 근거하여 특정 사이즈로 변환된 리사이징 이미지에 대한 관심영역에서만 관심객체를 검출한다. 이하, 관심영역 학습장치(120)에 포함된 구성요소에 대해 설명하도록 한다.
영상 획득부(130)는 영상 촬영장치(110)로부터 영상 프레임을 획득한다. 본 실시예에 따른 영상 획득부(130)는 획득한 영상 프레임을 이미지 변환부(140)로 전송하여 영상 프레임의 크기가 가변되도록 한다. 여기서, 영상 프레임은 영상 촬영장치(110)에서 촬영된 촬영영상에 대한 프레임을 의미한다.
영상 획득부(130)는 영상 촬영장치(110)로부터 영상 프레임을 실시간으로 수신할 수 있으나 반드시 이에 한정되는 것은 아니며, 영상 촬영장치(110)에서 기 촬영되어 저장된 영상에 대한 영상 프레임을 획득할 수도 있다.
이미지 변환부(140)는 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다.
이하, 기 설정된 검출 이벤트룰이 존재하지 않는 경우, 이미지 변환부(140)의 동작을 설명하도록 한다.
이미지 변환부(140)는 영상 프레임을 원본 사이즈를 기준으로 확대 또는 축소하여 복수의 리사이징 이미지를 생성한다. 이미지 변환부(140)는 일정한 영상크기의 차이를 갖도록 영상 프레임의 사이즈를 리사이징(Resizing)하여 복수의 리사이징 이미지를 생성한다. 이미지 변환부(140)는 일정한 영상크기의 차이가 작을수록 객체 검출부(150)에서 정확하게 관심객체가 검출되도록 한다.
예를 들어, 이미지 변환부(140)는 영상 프레임을 0.3 배 내지 2.0 배로 리사이징하여 복수의 리사이징 이미지를 생성한다. 다시 말해, 이미지 변환부(140)는 0.3 배로 축소한 최소 리사이징 이미지와 2.0 배로 확대한 최대 리사이징 이미지 사이에 0.1 배의 영상크기 차이마다 리사이징하여 총 18 장의 리사이징 이미지를 생성한다.
이하, 기 설정된 검출 이벤트룰이 존재하는 경우, 이미지 변환부(140)의 동작을 설명하도록 한다.
이미지 변환부(140)는 영상 프레임을 기 설정된 검출 이벤트룰에 대응하는 특정 사이즈별로 변환한 리사이징 이미지를 생성한다. 여기서, 검출 이벤트룰은 이벤트룰 설정부(160)에서 설정된 규칙정보로서, 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다. 이미지 변환부(140)는 기 설정된 특정 사이즈의 개수에 대응하는 개수로 리사이징 이미지를 생성한다.
이미지 변환부(140)는 검출 이벤트룰에 포함된 특정 사이즈 각각에 대해 리사이징한 리사이징 이미지를 생성하여 객체 검출부(150)로 전송한다. 예컨대, 0.4 배, 0.6 배, 1.0 배, 1.4 배 및 1.8 배의 특정 사이즈 정보를 포함하는 검출 이벤트룰이 존재하는 경우, 이미지 변환부(140)는 0.2 배, 0.6 배, 1.0 배, 1.4 배 및 1.8 배 각각의 사이즈로 리사이징한 총 5 장의 리사이징 이미지를 생성하여 객체 검출부(150)로 전송한다.
객체 검출부(150)는 리사이징 이미지의 전체 또는 일부 영역에 기 설정된 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성한다. 여기서, 검출 결과정보는 검출된 관심객체에 대한 정보로서, 관심객체가 표시된 영상 프레임의 형태일 수 있으나 반드시 이에 한정되는 것은 아니며, 관심객체에 대한 좌표정보와 같은 형태로 생성될 수도 있다.
이하, 기 설정된 검출 이벤트룰이 존재하지 않는 경우, 객체 검출부(150)의 동작을 설명하도록 한다.
객체 검출부(150)는 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성한다.
객체 검출부(150)는 리사이징 이미지 전체영역에 단위 윈도우를 기 설정된 경로(예: 일측에서 타측)에 따라 슬라이딩하는 슬라이딩 윈도우(Sliding Window) 방식을 이용하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한다. 객체 검출부(150)는 검출된 관심객체에 대한 검출 결과정보를 이벤트룰 설정부(160)로 전송하여 검출 이벤트룰이 설정되도록 한다.
객체 검출부(150)는 리사이징 이미지에 슬라이딩된 단위 윈도우에 해당하는 이미지 영역에 대한 밝기 차이를 이용하여 특징벡터 화소값을 산출하고, 특징벡터 화소값과 기 설정된 기준 화소값을 비교하여 검출 결과정보를 생성한다. 여기서, 단위 윈도우는 Haar-Like Feature 방식에서 관심객체를 산출하기 위해 기 설정된 복수 개의 필터와 동일한 크기로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다.
객체 검출부(150)는 원본 크기의 원본 프레임을 기준으로 축소된 리사이징 이미지에서는 주로 아래쪽 영역에서 관심객체가 많이 검출되고, 원본 크기의 원본 프레임을 기준으로 확대된 리사이징 이미지에서는 주로 위쪽 영역에서 관심객체가 많이 검출된다. 그 이유는 관심객체의 검출을 위한 단위 윈도우가 고정이기 때문이다. 다시 말해, 영상 프레임의 위쪽 영역에는 원근법으로 인해 사람이 작게 표시되기 때문에 확대된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다. 반대로, 영상 프레임의 아래쪽 영역에는 원근법으로 인해 사람이 크게 표시되기 때문에 축소된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다.
객체 검출부(150)는 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출하는데 있어서, Haar-Like Feature 방식을 이용하는 것이 바람직하나 반드시 이에 한정되는 것은 아니며, 관심객체의 검출 정확도보다는 검출 속도를 빠르게 할 수 있는 방식이라면, HOG(Histogram of oriented Gradient), CS-LBP(Center-Symmetric Local Binary Pattern) 및 Gabor Filter Response 등과 같은 그 어떤 방식이라도 적용 가능하다.
이하, 기 설정된 검출 이벤트룰이 존재하는 경우, 객체 검출부(150)의 동작을 설명하도록 한다.
객체 검출부(150)는 특정 사이즈별로 변환된 리사이징 이미지를 획득하고, 검출 이벤트룰에 근거하여 각각의 리사이징 이미지에 기 설정된 관심영역 내에서 단위 윈도우를 슬라이딩하여 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성한다. 여기서, 검출 이벤트룰은 이벤트룰 설정부(160)에서 설정된 규칙정보로서, 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다.
객체 검출부(150)는 기 설정된 검출 이벤트룰에 근거하여 관심영역 내에서만 단위 윈도우를 슬라이딩하여 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 생성함으로써, 관심객체의 검색 속도를 증가시킬 수 있다. 객체 검출부(150)는 관심영역 내에서 검출된 관심객체에 대한 검출 결과정보를 구비된 디스플레이부(미도시)를 이용하여 출력하거나 외부 장치로 전송한다. 객체 검출부(150)는 외부 장치로 검출 결과정보를 전송하여 출력되도록 하거나, 검출 결과정보를 기초로 추가 검출이 수행되도록 할 수 있다.
이벤트룰 설정부(160)는 검출 이벤트룰을 설정하며, 보팅부(162) 및 관심영역 설정부(164)를 포함한다.
보팅부(162)는 리사이징 이미지 각각에 대응하는 윈도우 맵마다 검출 결과정보에 대응하는 영역에 대해 보팅(Voting)한다.
본 실시예에 따른 보팅부(162)는 리사이징 이미지 각각에 대응하는 윈도우 맵을 생성하고, 검출 결과정보에 대응하는 영역에 대해 생성된 윈도우 맵에 보팅(Voting)한다.
보팅부(162)는 검출 결과정보를 기초로 관심객체가 검출된 위치값을 확인하고, 위치값에 대응하는 윈도우 맵의 함수값에 소정의 가중치값을 증가시켜 보팅한다. 여기서, 보팅부(162)는 관심객체가 검출된 단위 윈도우에 해당하는 이미지 영역의 중심 위치값에 대응하는 윈도우 맵에 보팅할 수 있으나 반드시 이에 한정되는 것은 아니며, 관심객체가 검출된 단위 윈도우에 해당하는 이미지 영역의 전체영역에 대응하는 윈도우 맵에 보팅할 수도 있다.
보팅부(162)는 보팅 결과에 대한 정확도를 높이기 위해 기 설정된 영상 프레임의 개수에 도달할 때까지 윈도우 맵에 보팅하는 동작을 반복한다. 다시 말해, 보팅부(160)는 기 설정된 개수의 영상 프레임 각각에 대해 변환된 리사이징 이미지에서 검출된 관심객체에 대해 보팅한다. 예를 들어, 보팅부(162)는 관심객체가 검출된 위치값에 대응하는 윈도우 맵의 함수값을 '1' 씩 증가시킨다. 기 설정된 영상 프레임의 개수가 30 장인 경우, 보팅부(162)는 30 장의 영상 프레임을 획득할 때까지 각각의 영상 프레임마다 변환된 리사이징 이미지에 대해 보팅을 수행함으로써, 보팅 결과에 따라 관심객체가 검출되는 위치를 판단할 수 있다.
보팅부(162)에서 보팅 결과를 분석해 보면, 원본 크기의 원본 프레임을 기준으로 축소된 리사이징 이미지에서는 주로 아래쪽 영역에 보팅이 많이 되고, 원본 크기의 원본 프레임을 기준으로 확대된 리사이징 이미지에서는 주로 위쪽 영역에 보팅이 많이 된다. 그 이유는 관심객체의 검출을 위한 단위 윈도우가 고정이기 때문이다. 즉, 영상 프레임의 위쪽 영역에는 원근법으로 인해 사람이 작게 표시되기 때문에 확대된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다. 반대로, 영상 프레임의 아래쪽 영역에는 원근법으로 인해 사람이 크게 표시되기 때문에 축소된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다.
관심영역 설정부(164)는 보팅부(162)의 보팅 결과를 기초로 복수의 리사이징 이미지 중 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지를 선별하고, 선별된 객체검출 이미지 각각에 관심영역을 설정한다.
관심영역 설정부(164)는 복수의 리사이징 이미지를 연속되는 사이즈별로 구분한 그룹을 형성하고, 형성된 그룹에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지로 선별한다. 관심영역 설정부(164)는 객체검출 이미지에서 보팅 결과에 근거하여 관심객체가 검출된 영역을 포함하는 전체 화소행을 관심영역으로 설정한다.
관심영역 설정부(164)는 복수의 리사이징 이미지에 각각 설정된 관심영역을 영상 프레임(원본 크기)에 대응하는 크기로 변환하는 경우, 복수의 리사이징 이미지에 각각 설정된 관심영역의 합이 영상 프레임의 전체영역을 커버한다. 여기서, 관심영역 설정부(164)는 관심영역들이 서로 중첩되어 영상 프레임의 전체영역을 커버할 수도 있다.
관심영역 설정부(164)는 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함하는 검출 이벤트룰을 생성한다. 여기서, 검출 이벤트룰은 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다.
관심영역 설정부(164)는 검출 이벤트룰을 설정함으로써, 이미지 변환부(140)에서 기 설정된 특정 사이즈에 대한 리사이징 이미지를 생성하도록 하고, 특정 사이즈에 대한 리사이징 이미지에 대응하는 관심영역 내에서만 관심객체를 검출하도록 한다.
도 2는 본 실시예에 따른 관심객체 검출을 위한 관심영역을 학습하는 방법을 나타낸 순서도이다.
관심영역 학습장치(120)는 영상 촬영모듈로부터 영상 프레임을 획득한다(S210). 관심영역 학습장치(120)는 검출 이벤트룰의 설정 여부를 확인한다(S220).
단계 S220의 확인 결과, 검출 이벤트룰이 기 설정되어 있는 경우, 관심영역 학습장치(120)는 검출 이벤트 룰에 근거하여 리사이징 이미지를 생성한다(S222). 여기서, 검출 이벤트룰은 관심객체의 검출을 위해 기 설정된 규칙정보로서, 관심객체를 검출하기 위한 특정 사이즈에 대한 정보 및 특정 사이즈에 대응하는 관심영역에 대한 정보를 포함한다.
관심영역 학습장치(120)는 검출 이벤트 룰에 근거하여 즉, 특정 사이즈로 변환한 리사이징 이미지에 기 설정된 관심영역 내에서 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출하여(S224), 검출된 관심객체에 대한 검출 결과정보를 생성한다(S226). 관심영역 학습장치(120)는 기 설정된 검출 이벤트룰에 근거하여 관심영역 내의 단위 윈도우에 해당하는 이미지 영역에서만 관심객체를 검출함으로써, 관심객체의 검색 속도를 증가시킬 수 있다.
한편, 단계 S220의 확인 결과, 검출 이벤트룰이 기 설정되지 않은 경우, 관심영역 학습장치(120)는 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다(S230). 관심영역 학습장치(120)는 영상 프레임의 원본 사이즈를 기준으로 일정한 영상크기의 차이를 갖는 사이즈별로 변환하여 복수의 리사이징 이미지를 생성한다.
관심영역 학습장치(120)는 복수의 리사이징 이미지 각각에 기 설정된 단위 윈도우를 슬라이딩하여 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한다(S240). 관심영역 학습장치(120)는 리사이징 이미지에 단위 윈도우가 슬라이딩된 이미지 영역의 밝기 차이를 이용하여 특징벡터 화소값을 산출하고, 특징벡터 화소값과 기 설정된 기준 화소값을 비교하여 검출 결과정보를 생성한다.
관심영역 학습장치(120)는 관심객체가 검출된 영역을 기초로 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵에 보팅한다(S250). 관심영역 학습장치(120)는 검출 결과정보를 기초로 관심객체가 검출된 위치값을 확인하고, 위치값에 대응하는 윈도우 맵의 함수값에 소정의 가중치값을 증가시켜 보팅한다.
관심영역 학습장치(120)는 기 설정된 영상 프레임의 개수에 도달하는지 여부를 확인하고(S260), 기 설정된 영상 프레임의 개수에 대한 보팅 결과에 근거하여 특정 사이즈를 갖는 리사이징 이미지를 객체검출 이미지로 선별한다(S270). 관심영역 학습장치(120)는 복수의 리사이징 이미지를 연속되는 사이즈별로 구분한 그룹을 형성하고, 형성된 그룹에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 특정 사이즈를 갖는 객체검출 이미지로 선별한다.
관심영역 학습장치(120)는 선별된 객체검출 이미지에 관심영역을 설정한다(S280). 관심영역 학습장치(120)는 객체검출 이미지에서 보팅 결과에 근거하여 관심객체가 검출된 영역을 포함하는 전체 화소행을 관심영역으로 설정한다.
도 3은 본 실시예에 따른 관심객체 검출을 위한 관심영역을 학습하는 동작을 나타낸 예시도이다.
도 3의 (a)는 영상 프레임의 원본 크기를 기준으로 기 설정된 사이즈별로 변환한 복수의 리사이징 이미지를 나타낸다. 예컨대, 관심영역 학습장치(120)는 원본 크기(예: x 1.0)의 영상 프레임을 획득하는 경우, 영상 프레임의 사이즈를 축소 또는 확대하여 최소 리사이징 이미지(예: x 0.3) 내지 최대 리사이징 이미지(x 2.0)를 생성한다. 여기서, 최소 리사이징 이미지(예: x 0.3) 내지 최대 리사이징 이미지(x 2.0)는 소정의 영상크기를 갖는 12 장(예: 레벨 1 내지 레벨 12)의 리사이징 이미지를 포함할 수 있다.
도 3의 (b)는 복수의 리사이징 이미지 각각에 대해 관심객체를 검출하고, 복수의 리사이징 이미지 각각에 대응하여 생성된 윈도우 맵에 검출된 관심객체에 대한 영역을 보팅한 결과를 나타낸다. 예컨대, 도 3의 (a)에 도시된 바와 같이, 관심영역 학습장치(120)는 최소 리사이징 이미지(예: x 0.3) 내지 최대 리사이징 이미지(x 2.0) 각각에 대해 기 설정된 단위 윈도우를 슬라이딩하여, 단위 윈도우에 해당하는 이미지 영역에서 검출된 관심객체에 대한 검출 결과정보를 생성하고, 검출 결과정보에 근거하여 각각의 리사이징 이미지에 대응하는 윈도우 맵의 함수값을 증가시키는 보팅을 수행한다. 다시 말해, 관심영역 학습장치(120)는 검출 결과정보에 근거하여 관심결과가 검출된 위치값에 대한 윈도우 맵의 함수값을 1 씩 증가하는 보팅을 수행한다.
도 3의 (b)에 도시된 바와 같이, 원본 크기의 원본 프레임을 기준으로 축소된 리사이징 이미지에서는 주로 아래쪽 영역에 보팅이 많이 되고, 원본 크기의 원본 프레임을 기준으로 확대된 리사이징 이미지에서는 주로 위쪽 영역에 보팅이 많이 된다. 그 이유는 관심객체의 검출을 위한 단위 윈도우가 고정이기 때문이다. 즉, 영상 프레임의 위쪽 영역에는 원근법으로 인해 사람이 작게 표시되기 때문에 확대된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다. 반대로, 영상 프레임의 아래쪽 영역에는 원근법으로 인해 사람이 크게 표시되기 때문에 축소된 리사이징 이미지에서는 단위 윈도우에 해당하는 이미지 영역에서 객체가 검출될 확률이 높다.
도 3의 (c)는 보팅 결과에 근거하여 복수의 리사이징 이미지 중 특정 사이즈에 대한 객체검출 이미지를 선별하고, 선별된 객체검출 이미지 각각에 설정된 관심영역을 나타낸다. 예컨대, 관심영역 학습장치(120)는 복수의 리사이징 이미지 중 보팅된 함수값이 가장 높은 소정의 개수의 윈도우 맵에 대응하는 특정 사이즈에 대한 객체검출 이미지를 선별하고, 객체검출 이미지에서 보팅이 많이 된 영역을 포함하는 모든 행(가로 화소영역)을 관심영역으로 설정한다. 여기서, 관심영역은 각각의 객체검출 이미지 내에서 직사각형 형태로 설정되는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
도 4는 본 실시예에 따른 관심영역 학습장치에서 관심영역을 설정하는 동작을 설명하기 위한 예시도이다.
도 4는 도 3의 (b) 및 도 3의 (c)에 기재된 내용을 더 자세히 설명하기 위한 예시도이며, 도 3에 기재된 내용과 동일한 설명은 생략하도록 한다.
관심영역 학습장치(120)는 검출된 관심객체의 영역에 대해 보팅된 윈도우 맵에 대한 복수의 리사이징 이미지를 연속되는 사이즈별로 구분하여 그룹(410, 412 및 414)을 형성한다. 예컨대, 관심영역 학습장치(120)는 9 장의 리사이징 이미지를 기 설정된 기준에 근거하여 3 장씩 구분하여 제1 그룹(410), 제2 그룹(412) 및 제3 그룹(414)을 형성한다.
관심영역 학습장치(120)는 각각의 그룹에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 특정 사이즈를 갖는 객체검출 이미지로 선별한다. 예컨대, 관심영역 학습장치(120)는 제1 그룹(410), 제2 그룹(412) 및 제3 그룹(414) 각각에서 최고 보팅 결과를 갖는 제1 윈도우 맵(420), 제2 리사이징 윈도우 맵(422) 및 제3 윈도우 맵(424)에 대응하는 제1 리사이징 이미지(430), 제2 리사이징 이미지(432) 및 제3 리사이징 이미지(434)를 객체검출 이미지로 선별한다.
관심영역 학습장치(120)는 제1 리사이징 이미지(430), 제2 리사이징 이미지(432) 및 제3 리사이징 이미지(434) 각각에 관심객체가 많이 검출된 즉, 기 설정된 횟수 이상 보팅된 영역을 포함하는 모든 화소행을 제1 관심영역(431), 제2 관심영역(433) 및 제3 관심영역(435)으로 설정한다.
관심영역 학습장치(120)는 객체검출 이미지를 선별하는 특정 사이즈에 대한 정보 및 관심영역에 대한 정보를 객체 이벤트룰로 설정하여 저장하고, 이후 영상 프레임이 입력되는 경우, 관심영역 학습장치(120)는 기 저장된 객체 이벤트룰을 기반으로 관심영역만을 윈도우 슬라이딩하여 관심객체를 빠르게 검출할 수 있다.
도 5는 본 실시예에 따른 관심영역 학습장치에서 설정된 관심영역을 나타낸 예시도이다.
도 5의 (a)에 도시된 바와 같이, 본 실시예에 따른 각각의 객체검출 이미지에 설정된 관심영역을 원본 크기의 영상 프레임에 모두 결합하여 적용하는 경우, 관심영역들이 결합된 크기가 전체영역을 커버한다. 예컨대, 제1 관심영역(431), 제2 관심영역(433) 및 제3 관심영역(435)을 원본 크기의 영상 프레임에 적용하는 경우, 그 결합된 관심영역들의 크기가 영상 프레임의 전체영역과 동일하다.
한편, 도 5의 (a)에 도시된 바와 같이, 각각의 관심영역들은 서로 중첩되는 영역이 존재하는 형태로 영상 프레임의 전체영역을 커버할 수 있다. 예컨대, 제1 관심영역(431), 제2 관심영역(433) 및 제3 관심영역(435)을 원본 크기의 영상 프레임에 적용하는 경우, 제1 관심영역(431)과 제2 관심영역(433) 간에 제1 중첩영역(520)이 형성될 수 있고, 제2 관심영역(433)과 제3 관심영역(435) 간에 제2 중첩영역(510)이 형성될 수 있다.
관심영역 학습장치(120)는 전술한 중첩영역이 다수 존재하는 것이 관심객체를 중복하여 검출함으로써, 검출 정확도를 높일 수 있다. 하지만, 그에 따른 연산량이 늘어남으로 검출 속도는 저하될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
이상에서 설명한 바와 같이 본 실시예는 객체 검출분야에 적용되어, 영상 프레임을 리사이징하는 계산상의 효율을 높일 수 있고, 실시간과 같이 빠르게 객체 검출을 요하는 작업을 수행하여 객체를 검출하는 기술의 효율을 증가시킬 수 있는 효과를 발생하는 유용한 발명이다.
110: 영상 촬영장치 120: 관심영상 학습장치
130: 영상 획득부 140: 이미지 변환부
150: 객체 검출부 160: 이벤트룰 설정부
162: 보팅부 164: 관심영역 설정부
CROSS-REFERENCE TO RELATED APPLICATION
본 특허출원은 2014년 05월 26일 한국에 출원한 특허출원번호 제 10-2014-0063319 호에 대해 미국 특허법 119(a)조(35 U.S.C 119(a))에 따라 우선권을 주장하면, 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다. 아울러, 본 특허출원은 미국 이외에 국가에 대해서도 위와 동일한 이유로 우선권을 주장하면 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다.

Claims (18)

  1. 영상 촬영모듈로부터 영상 프레임을 획득하는 획득과정;
    상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 변환과정;
    상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 검출과정;
    상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅(Voting)하는 보팅과정; 및
    상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 적어도 하나의 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역(ROI: Region of Interest)을 설정하는 관심영역 설정과정
    을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  2. 제 1 항에 있어서,
    상기 관심영역 설정과정은,
    상기 복수의 리사이징 이미지를 연속되는 사이즈별로 구분하여 그룹을 형성하는 과정;
    상기 그룹 각각에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 상기 객체검출 이미지로 선별하는 과정; 및
    상기 최고 보팅 결과에 근거하여 상기 객체검출 이미지에 상기 관심영역을 설정하는 과정
    을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  3. 제 2 항에 있어서,
    상기 관심영역 설정과정은,
    상기 최고 보팅 결과를 갖는 영역을 포함하는 화소행을 모두 상기 관심영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  4. 제 2 항에 있어서,
    상기 관심영역 설정과정은,
    상기 복수의 리사이징 이미지에 각각 설정된 상기 관심영역의 합을 상기 영상 프레임의 전체영역이 커버되는 영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  5. 제 4 항에 있어서,
    상기 관심영역 설정과정은,
    상기 복수의 리사이징 이미지에 각각 설정된 상기 관심영역이 서로 중첩되는 영역을 갖도록 하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  6. 제 1 항에 있어서,
    상기 보팅과정은,
    상기 복수의 리사이징 이미지 각각에 대응하는 상기 윈도우 맵을 생성하는 과정; 및
    상기 검출 결과정보에 근거하여 검출된 상기 관심객체에 대응하는 상기 윈도우 맵의 함수값을 증가시켜 보팅하는 과정
    을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  7. 제 6 항에 있어서,
    상기 보팅과정은,
    상기 검출 결과정보에 대응하는 영역의 위치값을 확인하고, 상기 위치값에 대응하는 상기 윈도우 맵의 함수값에 소정의 가중치값을 증가시켜 보팅하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  8. 제 6 항에 있어서,
    상기 보팅과정은,
    상기 관심객체가 검출된 상기 단위 윈도우의 중심영역에 대응하는 상기 윈도우 맵의 함수값에 보팅하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  9. 제 6 항에 있어서,
    상기 보팅과정은,
    상기 관심객체가 검출된 상기 단위 윈도우의 전체영역에 대응하는 상기 윈도우 맵의 함수값에 보팅하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  10. 제 1 항에 있어서,
    상기 검출과정은,
    상기 복수의 리사이징 이미지의 전체영역에 상기 단위 윈도우를 기 설정된 경로로 슬라이딩하여 상기 관심객체를 검출하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  11. 제 10 항에 있어서,
    상기 검출과정은,
    상기 단위 윈도우를 상기 전체영역의 일측에서 타측 방향으로 슬라이딩하는 이동과정; 및
    상기 단위 윈도우에 대한 특징벡터 화소값을 산출하고, 상기 특징벡터 화소값과 기 설정된 기준 화소값을 비교하여 상기 검출 결과정보를 생성하는 결과정보 생성과정
    을 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  12. 제 11 항에 있어서,
    상기 검출과정은,
    HOG(Histogram of oriented Gradient), Haar-Like Feature, CS-LBP(Center-Symmetric Local Binary Pattern) 및 Gabor Filter Response 중 적어도 하나의 방식을 이용하여 상기 특징벡터 화소값과 상기 기준 화소값을 비교하여 상기 검출 결과정보를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  13. 제 1 항에 있어서,
    상기 변환과정은,
    상기 영상 프레임을 일정한 영상크기의 차이를 갖는 사이즈별로 변환하여 상기 복수의 리사이징 이미지를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  14. 제 1 항에 있어서,
    상기 변환과정은,
    상기 관심영역이 설정된 후 신규 영상 프레임이 획득되면, 상기 신규 영상 프레임을 상기 특정 사이즈로만 변환한 리사이징 이미지를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  15. 제 14 항에 있어서,
    상기 검출과정은,
    상기 특정 사이즈로만 변환한 리사이징 이미지에 대해 설정된 상기 관심영역 내에서만 상기 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 상기 관심영역 내의 이미지 영역에서 검출된 관심객체에 대응하는 상기 검출 결과정보를 생성하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습방법.
  16. 영상 촬영모듈로부터 영상 프레임을 획득하는 영상 획득부;
    상기 영상 프레임을 기 설정된 사이즈별로 변환하여 복수의 리사이징 이미지를 생성하는 이미지 변환부;
    상기 복수의 리사이징 이미지 각각에 단위 윈도우를 슬라이딩하여, 상기 단위 윈도우에 해당하는 이미지 영역에서 관심객체를 검출한 검출 결과정보를 생성하는 객체 검출부;
    상기 복수의 리사이징 이미지 각각에 대응하는 윈도우 맵마다 상기 검출 결과정보에 대응하는 영역에 대해 보팅하고, 상기 보팅에 대한 결과를 기초로 상기 복수의 리사이징 이미지 중 특정 사이즈를 갖는 객체검출 이미지를 선별하고, 상기 객체검출 이미지 각각에 관심영역을 설정하는 이벤트룰 설정부
    를 포함하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치.
  17. 제 16 항에 있어서,
    상기 이벤트룰 설정부는,
    상기 복수의 리사이징 이미지를 연속되는 사이즈별로 구분하여 그룹을 형성하고, 상기 그룹 각각에서 최고 보팅 결과를 갖는 윈도우 맵에 대응하는 리사이징 이미지를 상기 객체검출 이미지로 선별하며, 상기 최고 보팅 결과를 갖는 영역을 포함하는 화소행을 모두 상기 관심영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치.
  18. 제 16 항에 있어서,
    상기 이벤트룰 설정부는,
    상기 복수의 리사이징 이미지에 각각 설정된 상기 관심영역의 합을 상기 영상 프레임의 전체영역이 커버되는 영역으로 설정하는 것을 특징으로 하는 관심객체 검출을 위한 관심영역 학습장치.
PCT/KR2015/004808 2014-05-26 2015-05-13 관심객체 검출을 위한 관심영역 학습장치 및 방법 WO2015182904A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140063319A KR102199094B1 (ko) 2014-05-26 2014-05-26 관심객체 검출을 위한 관심영역 학습장치 및 방법
KR10-2014-0063319 2014-05-26

Publications (1)

Publication Number Publication Date
WO2015182904A1 true WO2015182904A1 (ko) 2015-12-03

Family

ID=54699185

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/004808 WO2015182904A1 (ko) 2014-05-26 2015-05-13 관심객체 검출을 위한 관심영역 학습장치 및 방법

Country Status (2)

Country Link
KR (1) KR102199094B1 (ko)
WO (1) WO2015182904A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180055070A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 재질 인식 및 재질 트레이닝을 수행하는 방법 및 장치
KR101890612B1 (ko) * 2016-12-28 2018-08-23 (주)에이다스원 적응적 관심영역 및 탐색창을 이용한 객체 검출 방법 및 장치
KR102645202B1 (ko) 2017-01-03 2024-03-07 한국전자통신연구원 기계 학습 방법 및 장치
KR101993729B1 (ko) * 2017-02-15 2019-06-27 동명대학교산학협력단 다중채널 가버 필터와 중심대칭지역 이진 패턴기반 얼굴인식기술
KR102628058B1 (ko) * 2018-08-01 2024-01-22 삼성에스디에스 주식회사 관심 영역 검출 방법 및 그 장치
KR102314038B1 (ko) * 2019-12-18 2021-10-19 한국항공우주연구원 인공 신경망 기반으로 광학적 항법을 위하여 특이 영역을 결정하는 방법, 온보드 맵 생성 장치, 및 착륙선의 방향을 결정하는 방법
KR20210130330A (ko) 2020-04-21 2021-11-01 삼성전자주식회사 호스트 차량을 제어하는 전자 장치 및 이의 동작 방법
KR200494796Y1 (ko) 2020-04-22 2021-12-29 박병조 골프용 볼마커

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006228199A (ja) * 2005-01-20 2006-08-31 Matsushita Electric Ind Co Ltd 顔抽出装置、半導体集積回路
KR20100134085A (ko) * 2008-04-01 2010-12-22 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 디지털 이미지에서 객체 검출 속도 향상을 위한 시스템 및 방법
KR20110032537A (ko) * 2009-09-23 2011-03-30 한양대학교 산학협력단 배경 제거와 그래프 컷을 이용한 비교사 영상 분할 방법 및 시스템
US20130070096A1 (en) * 2011-06-02 2013-03-21 Panasonic Corporation Object detection device, object detection method, and object detection program
KR20130120041A (ko) * 2012-04-25 2013-11-04 (주)아이머큐리 차선 검출장치 및 그 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010539623A (ja) 2007-09-19 2010-12-16 パナソニック株式会社 位置情報を使用して画像内のオブジェクトを識別するシステムおよび方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006228199A (ja) * 2005-01-20 2006-08-31 Matsushita Electric Ind Co Ltd 顔抽出装置、半導体集積回路
KR20100134085A (ko) * 2008-04-01 2010-12-22 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 디지털 이미지에서 객체 검출 속도 향상을 위한 시스템 및 방법
KR20110032537A (ko) * 2009-09-23 2011-03-30 한양대학교 산학협력단 배경 제거와 그래프 컷을 이용한 비교사 영상 분할 방법 및 시스템
US20130070096A1 (en) * 2011-06-02 2013-03-21 Panasonic Corporation Object detection device, object detection method, and object detection program
KR20130120041A (ko) * 2012-04-25 2013-11-04 (주)아이머큐리 차선 검출장치 및 그 방법

Also Published As

Publication number Publication date
KR20150136225A (ko) 2015-12-07
KR102199094B1 (ko) 2021-01-07

Similar Documents

Publication Publication Date Title
WO2015182904A1 (ko) 관심객체 검출을 위한 관심영역 학습장치 및 방법
WO2019132589A1 (ko) 다중 객체 검출을 위한 영상 처리 장치 및 방법
WO2017039259A1 (ko) 열화상 카메라를 이용한 전력설비 진단 장치 및 방법
EP3756160A1 (en) System and method for fast object detection
WO2014035103A1 (ko) 촬영영상으로부터 객체를 감시하기 위한 장치 및 방법
WO2019132592A1 (ko) 영상 처리 장치 및 방법
JP2011003180A (ja) 画像収集装置に用いる天空検出装置及び方法
WO2019132588A1 (ko) 영상의 특징 및 맥락에 기초한 영상 분석 장치 및 방법
WO2019132093A1 (ko) 바코드 검출 장치 및 이를 이용한 바코드 검출 방법
WO2016064107A1 (ko) 팬틸트줌 카메라 기반의 영상 재생방법 및 장치
WO2015069063A1 (en) Method and system for creating a camera refocus effect
WO2014058165A1 (ko) 단일객체의 크기를 추정하는 영상 감시장치 및 방법
JP2010140315A (ja) 物体検出装置
KR101426418B1 (ko) 객체 계수 장치 및 방법
WO2016104842A1 (ko) 카메라의 왜곡을 고려한 물체 인식 시스템 및 방법
JP2019027882A (ja) 物体距離検出装置
WO2017043945A1 (ko) 얼굴의 미세 표정 인식 방법 및 장치
CN111696143A (zh) 一种事件数据的配准方法与系统
WO2023096133A1 (ko) 경량화된 자세 추정 모델 제공 장치 및 방법
WO2022131720A1 (ko) 건축물 이미지를 생성하는 장치 및 방법
WO2022191424A1 (ko) 전자 장치 및 그 제어 방법
WO2021071258A1 (ko) 인공지능 기반의 휴대용 보안영상 학습장치 및 방법
WO2018084381A1 (ko) 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법
JP6467994B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
WO2016013881A1 (ko) 3차원 볼륨 영상의 빅 데이터 데이터베이스 구축 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15800369

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15800369

Country of ref document: EP

Kind code of ref document: A1