KR19990086856A - Object detection device and method using hierarchical neural network - Google Patents

Object detection device and method using hierarchical neural network Download PDF

Info

Publication number
KR19990086856A
KR19990086856A KR1019980020028A KR19980020028A KR19990086856A KR 19990086856 A KR19990086856 A KR 19990086856A KR 1019980020028 A KR1019980020028 A KR 1019980020028A KR 19980020028 A KR19980020028 A KR 19980020028A KR 19990086856 A KR19990086856 A KR 19990086856A
Authority
KR
South Korea
Prior art keywords
image
block
neural network
unit
resolution
Prior art date
Application number
KR1019980020028A
Other languages
Korean (ko)
Other versions
KR100316784B1 (en
Inventor
조유신
기석철
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019980020028A priority Critical patent/KR100316784B1/en
Publication of KR19990086856A publication Critical patent/KR19990086856A/en
Application granted granted Critical
Publication of KR100316784B1 publication Critical patent/KR100316784B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 계층적 신경망을 이용한 물체 감지 장치 및 방법에 관한 것으로, 계층적 신경망을 이용한 물체 감지 장치는 입력 영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 입력 영상을 전처리하는 전처리부; 전처리된 영상을 저해상도를 갖는 영상으로 변환하는 저해상도 변환부; 저해상도 영상을 소정의 블록단위로 탐색하되, 블록내의 각 픽셀 값을 입력으로하는 제1신경망의 출력으로부터 물체가 있을 가능성이 있는 블록을 찾는 물체 후보 블록 검사부; 물체 후보 지역 검사부에서 찾아진 물체 후보 블록의 위치를 저장하는 물체 후보 블록의 위치 저장부; 전처리된 영상에서 위치 저장부에 저장된 위치에 해당하는 블록만을 선택하여 선택된 블록에 해당하는 영상을 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하는 고해상도 변환부; 및 고해상도로 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력값에 따라 물체를 감지하는 물체 감지부를 포함한다.The present invention relates to an apparatus and method for detecting an object using a hierarchical neural network. The apparatus for detecting an object using a hierarchical neural network includes: a preprocessing unit configured to preprocess an input image to reduce an influence of noise and ambient light changes mixed in the input image; A low resolution conversion unit for converting the preprocessed image into an image having a low resolution; An object candidate block inspection unit which searches a low resolution image by a predetermined block unit and finds a block in which an object may exist from an output of the first neural network that inputs each pixel value in the block; A position storing unit of the object candidate block for storing the position of the object candidate block found by the object candidate region inspecting unit; A high resolution converting unit for converting an image corresponding to the selected block into an image having a higher resolution than the low resolution image by selecting only a block corresponding to a position stored in the position storing unit in the preprocessed image; And an object detecting unit configured to detect an object according to an output value of the second neural network that receives each pixel value of the image converted into a high resolution.

본 발명에 의하면, 낮은 해상도의 영상에 대해 물체가 있을 가능성이 있는 블록을 탐색하고 탐색된 블록에 대해서만 해상도를 높여서 물체를 감지하게 되므로 영상에서 물체 감지 속도가 빠르다.According to the present invention, the object detection speed is high in the image because the object is detected by searching for a block in which there may be an object in a low resolution image, and the object is detected by increasing the resolution only in the searched block.

Description

계층적 신경망을 이용한 물체 감지 장치 및 방법Object detection device and method using hierarchical neural network

본 발명은 계층적 신경망을 이용한 물체 감지 장치 및 방법에 관한 것으로, 특히 계층적 신경망을 이용하여 입력영상내의 물체의 유무 및 위치를 감지하는 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for detecting an object using a hierarchical neural network, and more particularly, to an apparatus and method for detecting the presence and position of an object in an input image using the hierarchical neural network.

컴퓨터를 사용한 물체 감지 기술은 컴퓨터에서 시각적으로 자동화된 기능을 부여하여 목표하는 물체를 스스로 발견하게하는 기술이다. 군사분야에서의 무인 정찰기, 무인 탱크, 로봇의 시각 제어부분, 일반 개인용 컴퓨터에서 사용자의 움직임을 발견하기 위한 시각적 인터페이스 또는 공장 자동화 등 많은 분야에서 인간의 시각과 유사한 기능을 필요로 하고있다. 근래에 들어 신경망을 이용한 패턴인식, 물체인식 또는 물체 감지 기술들이 실제로 제품에 응용되고있다. 신경망은 대상 물체의 부분적인 왜곡에도 강력한 성능을 발휘하며 다른 기술보다 고도로 발달된 일반화/추상화 능력(비슷한 예제들을 보고 공통되며 중요한 특징을 추출/파악하는 능력)을 지닌다.Object detection technology using a computer is a technology that allows a computer to find a target object by providing a visually automated function. Many fields require functions similar to human vision, such as unmanned reconnaissance aircraft, unmanned tanks, visual control parts of robots, visual interfaces for detecting user movements in general personal computers, or factory automation. Recently, pattern recognition, object recognition or object detection techniques using neural networks have been applied to products. Neural networks are powerful against partial distortions of objects and have a more advanced generalization / abstraction capability (the ability to extract and identify common and important features from similar examples).

신경망을 사용한 물체 감지에 있어서, 종래의 방법으로는 방(R, Bang) 등의 비디오 이미지에서 얼굴을 감지하는 장치 및 방법(Appratus and method for detecting a face in a video image, 미국 특허 5,715,325) 및 포지오(T. Poggio) 등의 네트웍을 기반으로하는 얼굴 감지 시스템 및 방법(Network-based system anf method for detection of faces and the like, 미국 특허번호 5,642,431) 등이 있다.In the object detection using a neural network, conventional methods include an apparatus and method for detecting a face in a video image of a room (R, Bang) and the like (US Pat. No. 5,715,325) and Po. Network-based system anf method for detection of faces and the like (US Pat. No. 5,642,431), such as T. Poggio.

그러나, 방 등의 방법은 신경망을 사용하지않고 영상을 이진화한 후 목표 물체를 감지하는 방법이며, 주변의 심한 조명 변화로 인하여 물체 표면에 생기는 밝기 정보의 변화에 따라 감지 성능이 크게 좌우되는 문제점이 있다.However, the room method is a method of sensing a target object after binarizing an image without using a neural network, and the detection performance is greatly influenced by the change of brightness information generated on the surface of the object due to a severe change in the surrounding light. have.

포지오 등의 방법은 신경망을 한 단계만 적용하므로 물체 감지의 정확도를 높이기위해서는 감지속도가 느려진다는 문제점이 있다. 왜냐하면 감지의 정확도를 높이기 위해서는 입력 영상의 해상도가 높아야하며 이와 함께 신경망이 처리해야할 영상 정보가 늘어나기 때문이다.The method of Poggio et al. Has a problem that the detection speed is slow to increase the accuracy of object detection because the neural network applies only one step. This is because the resolution of the input image must be high to increase the accuracy of the detection, and the image information that the neural network needs to process increases.

이를 좀 더 구체적으로 설명하면, MxN 해상도의 입력 영상에 mxn 해상도로 예상되는 목표물체를 찾는 경우, 신경망의 입력층을 mxn 해상도로 구성한다면 가장 고해상도의 신경망을 적용하는 것이다. 이 경우, MxN의 입력 영상에 특별히 잡음이 많지않다면 가장 정확한 감지 성능을 갖게된다. 그러나, mxn 신경망 필터를 이용하여 MxN 입력영상 전역을 탐색해야하므로 가장 많은 계산시간을 요하게 된다. 실제로 MxN 입력 영상에는 카메라 혹은 조명 특성에 기인한 잡음이 존재하여 영상 감지 및 인식 성능을 저하시키기도 한다. 따라서, 일반적으로 mxn보다 작은 pxq의 해상도를 처리하는 신경망을 이용한다. 이 경우, MxN 해상도의 입력 영상 전체를 수평방향으로 m/p. 수직방향으로 n/q 만큼 축소하여 신경망의 입력층에 입력한다. 그러나, 이러한 방법은 최소한 pxq 해상도의 신경망 필터를 MxN 해상도의 입력영상 전역에서 탐색하는 탐색시간이 요구되며 이는 시간당 처리해야 할 영상 프레임 수가 많아질수록 한계점에 다다른다.In more detail, when a target object expected to be mxn resolution is found in an MxN resolution input image, when the input layer of the neural network is configured at mxn resolution, the neural network having the highest resolution is applied. In this case, if the input image of MxN is not particularly noisy, it has the most accurate sensing performance. However, since the mxn neural network filter has to search the entire MxN input image, it requires the most computation time. In fact, MxN input video has noise due to camera or lighting characteristics, which may degrade image sensing and recognition performance. Therefore, in general, a neural network that handles a resolution of pxq smaller than mxn is used. In this case, the entire input image of MxN resolution is m / p. It is reduced by n / q in the vertical direction and inputted to the input layer of the neural network. However, this method requires a search time for searching the neural network filter of at least pxq resolution over the input image of MxN resolution, which reaches a limit as the number of image frames to be processed per hour increases.

본 발명이 이루고자하는 기술적 과제는 저해상도의 영상을 입력으로하는 제1신경망을 이용하여 물체가 있을 가능성이 있는 위치를 대략 감지한 다음, 감지된 위치에서 고해상도의 영상을 입력으로하는 제2신경망을 이용하여 물체를 감지하는 계층적 신경망을 이용한 물체 감지 장치 및 방법을 제공하는데 있다.The technical problem to be achieved by the present invention is to approximately detect a position where there is a possibility of an object using a first neural network that inputs a low-resolution image, and then uses a second neural network that inputs a high-resolution image at the detected position. To provide an object detecting apparatus and method using a hierarchical neural network to detect an object.

도 1은 본 발명에 따른 계층적 신경망을 이용한 물체 감지 장치에 대한 블록도이다.1 is a block diagram of an apparatus for detecting an object using a hierarchical neural network according to the present invention.

도 2는 저해상도 영상을 탐색하는 과정을 도시한 것이다.2 illustrates a process of searching for a low resolution image.

도 3은 목표 물체에 대해 서로 다른 해상도를 갖는 영상에 대한 신경망의 학습과정을 도시한 것이다.3 is a diagram illustrating a neural network learning process for images having different resolutions with respect to a target object.

도 4는 고해상도 영상에 대한 도 1의 물체 감지부의 동작을 도시한 것이다.4 illustrates an operation of the object detector of FIG. 1 for a high resolution image.

도 5는 세 단계의 신경망을 사용하여 물체를 감지하는 방법을 도시한 것이다.5 illustrates a method of detecting an object using a neural network of three stages.

상기 기술적 과제를 이루기 위한, 본 발명에 따른 계층적 신경망을 이용한 물체 감지 장치는 입력 영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 상기 입력 영상을 전처리하는 전처리부; 상기 전처리된 영상을 저해상도를 갖는 영상으로 변환하는 저해상도 변환부; 상기 저해상도 영상을 소정의 블록단위로 탐색하되, 상기 블록내의 각 픽셀 값을 입력으로하는 제1신경망의 출력으로부터 물체가 있을 가능성이 있는 블록을 찾는 물체 후보 블록 검사부; 상기 물체 후보 지역 검사부에서 찾아진 물체 후보 블록의 위치를 저장하는 물체 후보 블록의 위치 저장부; 상기 전처리된 영상에서 상기 위치 저장부에 저장된 위치에 해당하는 블록만을 선택하여 상기 선택된 블록에 해당하는 영상을 상기 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하는 고해상도 변환부; 및 상기 고해상도로 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력값에 따라 물체를 감지하는 물체 감지부를 포함한다.According to an aspect of the present invention, there is provided an apparatus for detecting an object using a hierarchical neural network, the pre-processing unit configured to preprocess the input image to reduce the influence of noise and ambient light changes mixed in the input image; A low resolution conversion unit for converting the preprocessed image into an image having a low resolution; An object candidate block inspection unit which searches the low resolution image by a predetermined block unit and finds a block in which an object may exist from an output of a first neural network that inputs each pixel value in the block; A position storing unit of an object candidate block for storing the position of the object candidate block found by the object candidate area inspecting unit; A high resolution converting unit for converting an image corresponding to the selected block into an image having a higher resolution than the low resolution image by selecting only a block corresponding to a position stored in the position storing unit from the preprocessed image; And an object detecting unit detecting an object according to an output value of a second neural network that receives each pixel value of the image converted into the high resolution.

상기 기술적 과제를 이루기 위한, 본 발명에 따른 계층적 신경망을 이용한 물체 감지 방법은 입력영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 상기 입력 영상을 전처리하는 단계; 상기 전처리된 영상을 저해상도를 갖는 영상으로 변환하고 소정 크기의 블록단위로 상기 저해상도 영상을 탐색하되, 상기 블록의 각 픽셀값을 입력으로하는 제1신경망의 출력이 소정 값 이상이면 상기 블록의 위치를 저장하는 단계; 및 상기 전처리된 영상으로부터 상기 저장된 위치의 블록에 해당하는 영상을 추출하고 상기 추출된 영상을 상기 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하여 상기 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력값에 따라 물체를 감지하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method of detecting an object using a hierarchical neural network, the method comprising: preprocessing the input image so as to reduce the influence of noise and ambient light changes mixed in the input image; The preprocessed image is converted into an image having a low resolution, and the low resolution image is searched in units of blocks of a predetermined size, and if the output of the first neural network that inputs each pixel value of the block is a predetermined value or more, the position of the block is changed. Storing; And a second neural network configured to extract an image corresponding to the block of the stored position from the preprocessed image, convert the extracted image into an image having a higher resolution than the low resolution image, and input each pixel value of the converted image as an input. Detecting an object according to an output value of the;

상기 기술적 과제를 이루기 위한, 본 발명에 따른 계층적 신경망을 이용한 물체 감지 방법은 입력영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 상기 입력 영상을 전처리하는 단계; 상기 전처리된 영상을 상기 전처리된 영상보다 저해상도를 갖는 영상으로 변환하고 소정 크기의 블록단위로 상기 저해상도 영상을 탐색하되, 상기 입력영상과 같은 크기의 저장부를 구비하여 상기 블록내의 각 픽셀값을 입력으로하는 제1신경망의 출력값이 소정 값 이상일 때 상기 출력값을 상기 블록의 중심 픽셀 위치에 해당하는 저장부에 저장하는 단계; 상기 저장된 값들이 소정의 범위내에서 이웃해있으면, 상기 이웃한 값들을 포함하도록 상기 블록을 형성하여 상기 블록 위치를 저장하는 단계; 및 상기 전처리된 영상으로부터 상기 저장된 위치의 블록에 해당하는 영상을 추출하고 상기 추출된 영상을 상기 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하여 상기 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력으로부터 물체를 감지하는 단계를 포함한다.According to an aspect of the present invention, there is provided a method of detecting an object using a hierarchical neural network, the method comprising: preprocessing the input image so as to reduce the influence of noise and ambient light changes mixed in the input image; The preprocessed image is converted into an image having a lower resolution than the preprocessed image, and the low resolution image is searched in units of blocks of a predetermined size, and the storage unit having the same size as the input image is provided to input each pixel value in the block. Storing the output value in a storage unit corresponding to a center pixel position of the block when the output value of the first neural network is equal to or greater than a predetermined value; If the stored values are neighboring within a predetermined range, forming the block to include the neighboring values and storing the block position; And a second neural network configured to extract an image corresponding to the block of the stored position from the preprocessed image, convert the extracted image into an image having a higher resolution than the low resolution image, and input each pixel value of the converted image as an input. Detecting the object from the output of the.

이하에서 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 계층적 신경망을 이용한 물체 감지 장치에 대한 블록도이다. 도 1에 따른 장치는 전처리부(100), 저해상도 변환부(102), 물체 후보 블록 검사부(104), 후보 블록의 위치 저장부(106), 블록 선택부(108), 고해상도 변환부(110) 및 물체 감지부(112)를 포함한다.1 is a block diagram of an apparatus for detecting an object using a hierarchical neural network according to the present invention. The apparatus according to FIG. 1 includes a preprocessor 100, a low resolution converter 102, an object candidate block checker 104, a position storing unit 106 of a candidate block, a block selector 108, and a high resolution converter 110. And an object detector 112.

그 동작은 다음과 같다. 전처리부(100)는 입력 영상에 혼입된 잡음 및 주변 조명 변화에 의한 영향을 줄이도록 히스토그램 평활화와 같은 전처리를 수행한다. 저해상도 변환부(102)는 전처리부(100)에서 전처리된 영상을 저해상도를 갖는 영상으로 변환한다. 물체 후보 블록 검사부(104)는 저해상도 영상을 소정의 블록단위로 탐색하여 믈체가 있을 가능성이 있는 블록을 찾는다. 탐색은 신경망을 이용한다. 상술한 블록을 이루는 각 픽셀값을 입력으로하는 신경망의 출력값으로부터 물체가 있는지를 결정한다. 탐색된 블럭에 물체가 있을 가능성이 있다면, 후보 블록의 위치 저장부(106)는 해당 블록의 위치를 저장한다. 저장되는 블록의 위치는 블록의 각 꼭지점에 해당하는 픽셀 위치이다. 블록 선택부(108)는 저장된 블록 위치에 해당하는 영상을 전처리된 영상으로부터 얻는다. 고해상도 변환부(110)는 블록 선택부(108)에서 선택된 블록 영상을 전처리된 영상의 해상도보다 낮고, 상술한 저해상도 영상보다는 높은 해상도를 갖는 영상으로 변환한다. 물체 감지부(112)는 고해상도의 블록 영상의 각 픽셀값을 입력으로하는 신경망의 출력값에 따라 물체를 감지한다.The operation is as follows. The preprocessor 100 performs preprocessing such as histogram smoothing to reduce the effects of noise mixed in the input image and changes in ambient lighting. The low resolution converter 102 converts an image preprocessed by the preprocessor 100 into an image having a low resolution. The object candidate block inspection unit 104 searches for a low-resolution image in predetermined block units to find a block in which there is a possibility. Search uses neural networks. It is determined whether there is an object from the output value of the neural network which takes as input each pixel value constituting the above-described block. If there is a possibility that an object exists in the searched block, the position storing unit 106 of the candidate block stores the position of the block. The position of a block to be stored is a pixel position corresponding to each vertex of the block. The block selector 108 obtains an image corresponding to the stored block position from the preprocessed image. The high resolution converter 110 converts the block image selected by the block selector 108 into an image having a resolution lower than that of the preprocessed image and higher than the above-described low resolution image. The object detector 112 detects an object according to an output value of a neural network that receives each pixel value of a high resolution block image.

각 구성요소의 동작을 좀 더 자세히 설명하면 다음과 같다. 저해상도 변환부(102)는 예를 들어 MxN 해상도의 전처리된 영상을 M'xN'(M'<M, N'<N) 해상도의 영상으로 변환한다. 물체 후보 블록 검사부(104)는 저해상도 변환부(102)에서 변환된 M'xN' 해상도의 영상을 LwxLh 크기의 블록단위로 탐색하여 물체가 있을 가능성이 있는 블록을 찾는다. 탐색은 소정의 픽셀씩 블록을 중첩(overlap)하여 이루어지도록 한다. 도 2는 이러한 과정을 도시한 것이다. 참조번호 200은 M'xN' 해상도로 변환된 영상이며, 202는 LwxLh 해상도의 블록이다. 204는 탐색한 결과 물체가 있을 가능성이 있는 블록을 나타낸다.The operation of each component is explained in more detail as follows. The low resolution converter 102 converts, for example, a pre-processed image having MxN resolution into an image having M'xN '(M' <M, N '<N) resolution. The object candidate block inspecting unit 104 searches for a block having an object by searching the M'xN 'resolution image converted by the low resolution converting unit 102 in a LwxLh size block unit. The search is performed by overlapping blocks by predetermined pixels. 2 illustrates this process. Reference numeral 200 is an image converted to M'xN 'resolution, and 202 is a block of LwxLh resolution. 204 indicates a block in which there may be an object as a result of the search.

LwxLh 해상도의 블록내에 있는 각 픽셀값들은 물체 후보 블록 검사부(104)를 구성하는 제1신경망(미도시)의 각 입력노드에 입력된다. 제1신경망은 이미 학습한 바에 따라 소정의 값을 출력한다.Each pixel value in a block of LwxLh resolution is input to each input node of a first neural network (not shown) constituting the object candidate block checker 104. The first neural network outputs a predetermined value as already learned.

학습은 공지된 역전파(Back Propagation) 방법 등에 따라 이루어진다. 도 3은 목표 물체에 대해 서로 다른 해상도를 갖는 영상에 대한 신경망의 학습과정을 도시한 것이다. 도 3(a)는 10x10 해상도의 입력노드를 갖는 신경망을 학습시키는 과정이고, 도 3(b) 및 도 3(c)는 차례로 해상도가 높은 영상에 대해 각각 입력노드를 증가시켜서 학습시키는 과정을 설명한 것이다.Learning is performed according to a known back propagation method. 3 is a diagram illustrating a neural network learning process for images having different resolutions with respect to a target object. FIG. 3 (a) illustrates a process of learning a neural network having an input node having a 10 × 10 resolution, and FIGS. 3 (b) and 3 (c) illustrate a process of increasing an input node and learning an input node with respect to an image having a high resolution. will be.

물체가 있을 가능성에 대한 판단의 한 방법은 제1신경망의 출력값이 임계치보다 큰가 작은가에 따라 이루어진다. 즉, 신경망의 출력값이 임계치보다 크다면 물체가 있을 가능성이 있다고 판단하여 후보 블록의 위치 저장부(106)에 현재 탐색중인 블록 위치를 저장한다.One method of determining the likelihood of an object is based on whether the output of the first neural network is greater or less than the threshold. That is, if the output value of the neural network is larger than the threshold, it is determined that there is an object, and the block position currently being searched is stored in the position storing unit 106 of the candidate block.

물체가 있을 가능성에 대한 판단의 다른 방법은 상술한 영상과 동일한 크기의 저장부를 구비하여 제1신경망의 출력값이 제2임계치보다 크면, 현재 탐색중인 블록의 중심에 해당하는 픽셀 위치에 상응하는 저장부의 위치에 그 출력값을 저장한다. 저해상도 영상에 대한 탐색이 완료되면, 저장된 값들이 소정의 범위내에서 이웃해있는지를 점검한다. 만일 이웃한 값들이 있다면, 이 부분에 물체가 있을 가능성이 있다고 판단하여 이웃한 값들을 중심으로 소정 크기의 블록을 형성하고 그 블록 위치를 후보 블록의 위치 저장부(106)에 저장한다.Another method of determining whether there is an object includes a storage unit having the same size as the above-described image, and when the output value of the first neural network is larger than the second threshold, the storage unit corresponding to the pixel position corresponding to the center of the block currently being searched is provided. Store the output in place. When the search for the low resolution image is completed, it is checked whether the stored values are neighboring within a predetermined range. If there are neighboring values, it is determined that there is a possibility that an object exists in this portion, and a block having a predetermined size is formed around the neighboring values, and the block position is stored in the position storing unit 106 of the candidate block.

블록 선택부(108)는 후보 블록의 위치 저장부(106)에 저장된 블록 위치를 읽어서 전처리부(100)의 출력 영상으로부터 해당 블록 영상을 얻는다. 고해상도 변환부(110)는 블록 선택부(108)에서 얻어진 영상으로부터 상술한 저해상도의 영상보다 높은 해상도를 갖는 영상으로 변환한다. 물체 감지부(112)는 고해상도로 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망을 통해 물체를 감지한다. 제1신경망의 경우와 마찬가지로 그 출력값이 소정 이상이면 물체라고 판단된다. 제2신경망의 학습방법과 동작은 상술한 제1신경망의 경우와 동일하다.The block selector 108 reads the block position stored in the position storage unit 106 of the candidate block and obtains the corresponding block image from the output image of the preprocessor 100. The high resolution converter 110 converts an image obtained by the block selector 108 into an image having a higher resolution than the above-described low resolution image. The object detecting unit 112 detects an object through a second neural network that inputs each pixel value of the image converted into high resolution. As in the case of the first neural network, if the output value is a predetermined value or more, it is determined as an object. The learning method and operation of the second neural network are the same as those of the first neural network described above.

도 4는 고해상도 영상에 대한 물체 감지부(112)의 동작을 도시한 것이다. 참조번호 402는 블록 선택부(108)에 의해 전처리된 영상으로부터 선택되고 고해상도로 변환된 영상이고, 404는 물체 감지부(112)이다.4 illustrates an operation of the object detector 112 for a high resolution image. Reference numeral 402 denotes an image selected from an image preprocessed by the block selector 108 and converted into high resolution, and 404 denotes an object detector 112.

도 5는 세 단계의 신경망을 사용하여 물체를 감지하는 방법을 도시한 것이다. 여기서, 감지하고자하는 물체는 사람의 얼굴이다. 도 5(a)는 전처리된 영상을 40x30의 해상도를 갖는 영상(500)으로 변환하고, 10x10 크기의 입력노드를 갖는 제1신경망(502)을 사용하여 물체가 있을 가능성이 있는 블록을 탐색하여 제1물체 후보위치(504)와 제2물체 후보위치(506)를 저장한다. 도 5(b)는 도 5(a)단계에서 저장된 물체 후보위치에 대해서 해상도를 80x60으로 높여서 20x20 크기의 입력노드를 갖는 제2신경망을 이용하여 물체를 얼굴을 감지한다. 감지결과 제1물체 후보(510)만이 물체로 감지된다. 512는 물체 후보에서 제외된다. 도 5(c)는 도 5(b)에 대해 좀 더 정확하게 감지하기위해 제1물체 후보에 대해서만 해상도를 320x240으로 높여서 80x80 크기의 입력노드를 갖는 제3신경망(520)을 이용하여 물체(520)를 감지한다.5 illustrates a method of detecting an object using a neural network of three stages. Here, the object to be detected is the face of a person. FIG. 5 (a) illustrates a process of converting a preprocessed image into an image 500 having a resolution of 40 × 30 and searching for a block in which an object may exist using a first neural network 502 having an input node having a size of 10 × 10. One object candidate position 504 and a second object candidate position 506 are stored. 5 (b) detects an object face using a second neural network having an input node having a size of 20x20 by increasing the resolution to 80x60 with respect to the object candidate position stored in FIG. 5 (a). As a result of detection, only the first object candidate 510 is detected as an object. 512 is excluded from the object candidate. FIG. 5 (c) shows the object 520 using the third neural network 520 having an input node of 80x80 size by increasing the resolution to 320x240 only for the first object candidate to detect more accurately with respect to FIG. 5 (b). Detect it.

본 발명에 의하면, 낮은 해상도의 영상에 대해 물체가 있을 가능성이 있는 블록을 탐색하고 탐색된 블록에 대해서만 해상도를 높여서 물체를 감지하게 되므로 영상에서 물체 감지 속도가 빠르다. 또한, 물체 감지에 신경망을 사용하므로 유지보수가 간편하고, 새로운 물체를 감지하기 위한 성능조절이 간단하며 제품별 감지성능을 제작자가 조정/정의할 수 있다.According to the present invention, the object detection speed is high in the image because the object is detected by searching for a block in which there may be an object in a low resolution image, and the object is detected by increasing the resolution only in the searched block. In addition, the neural network is used for object detection, so maintenance is simple, performance control for detecting new objects is simple, and the detection performance of each product can be adjusted / defined by the manufacturer.

본 발명은 사용자-컴퓨터의 시각 인터페이스에 사용되어 사용자의 움직임, 표정인식을 위한 기본 기술로 사용될 수 있다. 예를 들어, 자동차나 항공기 또는 우주선내에서 운전자/조종사의 눈 응시 방향 또는 눈의 개폐여부에 따른 졸음 감지 등과 같은 운전자/조종사의 상태를 감지한다. 또는 눈 응시에 따른 마우스 포인터 조정 등과 같은 일반 컴퓨터 사용자 인터페이스에 적용될 수 있고, 공항이나 은행에서 특정 인물 또는 물체 추적, 일정한 공간내에 무질서하게 위치해있는 개체수 파악과 같은 보안용으로도 적용가능하다.The present invention can be used in the visual interface of the user-computer can be used as a basic technology for the user's movement, facial expression recognition. For example, the driver / pilot detects a driver's / pilot's condition such as a drowsiness detection according to the driver's / pilot's eye gaze direction or whether the eyes are opened or closed in a car, an aircraft, or a spacecraft. Or it can be applied to a general computer user interface such as adjusting the mouse pointer according to the eye gaze, and also for security purposes such as tracking a specific person or object at an airport or a bank, and identifying a randomly located number of objects in a certain space.

Claims (3)

입력 영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 상기 입력 영상을 전처리하는 전처리부;A preprocessor preprocessing the input image so as to reduce the effects of noise and ambient light changes incorporated into the input image; 상기 전처리된 영상을 저해상도를 갖는 영상으로 변환하는 저해상도 변환부;A low resolution conversion unit for converting the preprocessed image into an image having a low resolution; 상기 저해상도 영상을 소정의 블록단위로 탐색하되, 상기 블록내의 각 픽셀 값을 입력으로하는 제1신경망의 출력으로부터 물체가 있을 가능성이 있는 블록을 찾는 물체 후보 블록 검사부;An object candidate block inspection unit which searches the low resolution image by a predetermined block unit and finds a block in which an object may exist from an output of a first neural network that inputs each pixel value in the block; 상기 물체 후보 지역 검사부에서 찾아진 물체 후보 블록의 위치를 저장하는 물체 후보 블록의 위치 저장부;A position storing unit of an object candidate block for storing the position of the object candidate block found by the object candidate area inspecting unit; 상기 전처리된 영상에서 상기 위치 저장부에 저장된 위치에 해당하는 블록만을 선택하여 상기 선택된 블록에 해당하는 영상을 상기 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하는 고해상도 변환부; 및A high resolution converting unit for converting an image corresponding to the selected block into an image having a higher resolution than the low resolution image by selecting only a block corresponding to a position stored in the position storing unit from the preprocessed image; And 상기 고해상도로 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력값에 따라 물체를 감지하는 물체 감지부를 포함함을 특징으로하는 계층적 신경망을 이용한 물체 감지 장치.And an object detecting unit detecting an object according to an output value of a second neural network which receives each pixel value of the image converted into the high resolution. 입력영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 상기 입력 영상을 전처리하는 단계;Preprocessing the input image to reduce the effects of noise incorporated into the input image and changes in ambient lighting; 상기 전처리된 영상을 저해상도를 갖는 영상으로 변환하고 소정 크기의 블록단위로 상기 저해상도 영상을 탐색하되, 상기 블록의 각 픽셀값을 입력으로하는 제1신경망의 출력이 소정 값 이상이면 상기 블록의 위치를 저장하는 단계; 및The preprocessed image is converted into an image having a low resolution, and the low resolution image is searched in units of blocks of a predetermined size, and if the output of the first neural network that inputs each pixel value of the block is a predetermined value or more, the position of the block is changed. Storing; And 상기 전처리된 영상으로부터 상기 저장된 위치의 블록에 해당하는 영상을 추출하고 상기 추출된 영상을 상기 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하여 상기 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력값에 따라 물체를 감지하는 단계를 포함함을 특징으로하는 계층적 신경망을 이용한 물체 감지 방법.Extracting an image corresponding to the block of the stored position from the preprocessed image, converting the extracted image into an image having a higher resolution than the low resolution image, and inputting each pixel value of the converted image as an input; And detecting an object according to an output value. 입력영상에 혼입된 잡음 및 주변 조명 변화의 영향을 감소하도록 상기 입력 영상을 전처리하는 단계;Preprocessing the input image to reduce the effects of noise incorporated into the input image and changes in ambient lighting; 상기 전처리된 영상을 상기 전처리된 영상보다 저해상도를 갖는 영상으로 변환하고 소정 크기의 블록단위로 상기 저해상도 영상을 탐색하되, 상기 입력영상과 같은 크기의 저장부를 구비하여 상기 블록내의 각 픽셀값을 입력으로하는 제1신경망의 출력값이 소정 값 이상일 때 상기 출력값을 상기 블록의 중심 픽셀 위치에 해당하는 저장부에 저장하는 단계;The preprocessed image is converted into an image having a lower resolution than the preprocessed image, and the low resolution image is searched in units of blocks of a predetermined size, and the storage unit having the same size as the input image is provided to input each pixel value in the block. Storing the output value in a storage unit corresponding to a center pixel position of the block when the output value of the first neural network is equal to or greater than a predetermined value; 상기 저장된 값들이 소정의 범위내에서 이웃해있으면, 상기 이웃한 값들을 포함하도록 상기 블록을 형성하여 상기 블록 위치를 저장하는 단계; 및If the stored values are neighboring within a predetermined range, forming the block to include the neighboring values and storing the block position; And 상기 전처리된 영상으로부터 상기 저장된 위치의 블록에 해당하는 영상을 추출하고 상기 추출된 영상을 상기 저해상도 영상보다 높은 해상도를 갖는 영상으로 변환하여 상기 변환된 영상의 각 픽셀값을 입력으로하는 제2신경망의 출력으로부터 물체를 감지하는 단계를 포함함을 특징으로하는 계층적 신경망을 이용한 물체 감지 방법.Extracting an image corresponding to the block of the stored position from the preprocessed image, converting the extracted image into an image having a higher resolution than the low resolution image, and inputting each pixel value of the converted image as an input; Detecting an object from an output; using a hierarchical neural network.
KR1019980020028A 1998-05-30 1998-05-30 Device and method for sensing object using hierarchical neural network KR100316784B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980020028A KR100316784B1 (en) 1998-05-30 1998-05-30 Device and method for sensing object using hierarchical neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980020028A KR100316784B1 (en) 1998-05-30 1998-05-30 Device and method for sensing object using hierarchical neural network

Publications (2)

Publication Number Publication Date
KR19990086856A true KR19990086856A (en) 1999-12-15
KR100316784B1 KR100316784B1 (en) 2002-03-21

Family

ID=37531727

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980020028A KR100316784B1 (en) 1998-05-30 1998-05-30 Device and method for sensing object using hierarchical neural network

Country Status (1)

Country Link
KR (1) KR100316784B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100883632B1 (en) * 2008-08-13 2009-02-12 주식회사 일리시스 System and method for intelligent video surveillance using high-resolution video cameras
CN106980871A (en) * 2016-01-13 2017-07-25 福特全球技术公司 It is applied to the Lo-Fi grader and high-fidelity grader of road scene image
KR20190005045A (en) * 2017-07-05 2019-01-15 주식회사 케이티 Apparatus for detecting object and method thereof
KR20200017607A (en) * 2018-08-03 2020-02-19 한국과학기술원 Image segmentation method using artificial neural network and apparatus therefor
CN111369489A (en) * 2018-12-24 2020-07-03 Tcl集团股份有限公司 Image identification method and device and terminal equipment

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247136B1 (en) * 2011-11-03 2013-04-01 한양대학교 산학협력단 Object recognition method of robot
US10127439B2 (en) 2015-01-15 2018-11-13 Samsung Electronics Co., Ltd. Object recognition method and apparatus
KR20210061146A (en) 2019-11-19 2021-05-27 삼성전자주식회사 Electronic apparatus and control method thereof

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100883632B1 (en) * 2008-08-13 2009-02-12 주식회사 일리시스 System and method for intelligent video surveillance using high-resolution video cameras
CN106980871A (en) * 2016-01-13 2017-07-25 福特全球技术公司 It is applied to the Lo-Fi grader and high-fidelity grader of road scene image
US11200447B2 (en) 2016-01-13 2021-12-14 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
CN106980871B (en) * 2016-01-13 2022-07-26 福特全球技术公司 Low-fidelity classifier and high-fidelity classifier applied to road scene images
US11734786B2 (en) 2016-01-13 2023-08-22 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
KR20190005045A (en) * 2017-07-05 2019-01-15 주식회사 케이티 Apparatus for detecting object and method thereof
KR20200017607A (en) * 2018-08-03 2020-02-19 한국과학기술원 Image segmentation method using artificial neural network and apparatus therefor
CN111369489A (en) * 2018-12-24 2020-07-03 Tcl集团股份有限公司 Image identification method and device and terminal equipment
CN111369489B (en) * 2018-12-24 2024-04-16 Tcl科技集团股份有限公司 Image identification method and device and terminal equipment

Also Published As

Publication number Publication date
KR100316784B1 (en) 2002-03-21

Similar Documents

Publication Publication Date Title
CN100504910C (en) Detection method and apparatus of human
Milanese et al. Attentive mechanisms for dynamic and static scene analysis
KR100474848B1 (en) System and method for detecting and tracking a plurality of faces in real-time by integrating the visual ques
US7957560B2 (en) Unusual action detector and abnormal action detecting method
US5912980A (en) Target acquisition and tracking
Murase et al. Moving object recognition in eigenspace representation: gait analysis and lip reading
Reinders et al. Locating facial features in image sequences using neural networks
US20020126876A1 (en) Tracking and gesture recognition system particularly suited to vehicular control applications
CN110929593A (en) Real-time significance pedestrian detection method based on detail distinguishing and distinguishing
Chetverikov et al. Dynamic texture as foreground and background
JP2006146626A (en) Pattern recognition method and device
EP2100256A1 (en) Target recognition system and method
JP2007156655A (en) Variable region detection apparatus and its method
Patel et al. Hand gesture recognition system using convolutional neural networks
Utaminingrum et al. Image processing for rapidly eye detection based on robust haar sliding window
US20100177932A1 (en) Object detection apparatus and object detection method
Silanon Thai Finger‐Spelling Recognition Using a Cascaded Classifier Based on Histogram of Orientation Gradient Features
KR100316784B1 (en) Device and method for sensing object using hierarchical neural network
Apolloni et al. Machine learning and robot perception
Gal Automatic obstacle detection for USV’s navigation using vision sensors
KR100390569B1 (en) Scale and Rotation Invariant Intelligent Face Detection
Saptharishi et al. Agent-based moving object correspondence using differential discriminative diagnosis
Kang et al. Real-time pedestrian detection using support vector machines
Kane et al. Sign Language apprehension using convolution neural networks
Jmaa et al. A new approach for digit recognition based on hand gesture analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080918

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee