KR20030044437A - An object recognition method via network control - Google Patents

An object recognition method via network control Download PDF

Info

Publication number
KR20030044437A
KR20030044437A KR1020010075175A KR20010075175A KR20030044437A KR 20030044437 A KR20030044437 A KR 20030044437A KR 1020010075175 A KR1020010075175 A KR 1020010075175A KR 20010075175 A KR20010075175 A KR 20010075175A KR 20030044437 A KR20030044437 A KR 20030044437A
Authority
KR
South Korea
Prior art keywords
vector
image
camera
calculated
motion vector
Prior art date
Application number
KR1020010075175A
Other languages
Korean (ko)
Inventor
문승진
이철웅
Original Assignee
(주)혜림
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)혜림 filed Critical (주)혜림
Priority to KR1020010075175A priority Critical patent/KR20030044437A/en
Publication of KR20030044437A publication Critical patent/KR20030044437A/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/04Physical realisation
    • G06N7/046Implementation by means of a neural network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

PURPOSE: An image object recognizing method based on a control network is provided to extract an object and control a camera in real time using a motion vector. CONSTITUTION: Video information captured by a plurality of cameras constructing a network is received(S1). A stream header from the received video information is analyzed to extract a motion vector(S2). Competition learning and neural network learning with respect to the motion vector are performed(S3). Average and deviation values of pseudo weight vector are computed(S4). An index function value is calculated(S5). It is judged whether or not the calculated index value exceeds a threshold(S6). A separate object is generated or the object of the captured video information is merged with existing objects according as the index value exceeds the threshold or not(S7-1,S7-2). A representative vector of the object and image position are calculated(S8). A camera target focus point is obtained according to the calculated values to output a signal for controlling the postures of the cameras(S9,S10).

Description

제어 네트워크를 기반으로 하는 영상 객체 인식방법{An object recognition method via network control}An object recognition method via network control

본 발명은 제어 네트워크상에서 영상객체 추출 및 인식 방법 및 이 방법을 이용한 다수 카메라의 제어기술에 관한 것으로서, 보다 상세하게는 본 발명에 적용된 객체 추출 기술과 카메라 제어 기술은 최근 빠르게 발전하고 있는 멀티미디어 컨텐츠 기술과 신경망으로 대표되는 지능형 정보처리 기술을 기반으로 한 독창적인 기술로서 지금까지의 정지영상처리 기술을 기반으로 하는 영상신호 처리 방법대신 동영상 처리에서 기본적으로 제공되는 모션벡터(Motion vector)를 사용하여 실시간으로 객체 추출 및 카메라 제어를 실현할 수 있는 방법에 관한 것이다.The present invention relates to a method of extracting and recognizing an image object on a control network and a control technique of a plurality of cameras using the method. More specifically, the object extraction technique and the camera control technique applied to the present invention are a multimedia content technology that is rapidly developing recently. It is an original technology based on intelligent information processing technology represented by the network and neural network. Instead of the video signal processing method based on the still image processing technology up to now, it uses the motion vector basically provided in video processing in real time. The present invention relates to a method for realizing object extraction and camera control.

종래의 방법은 영상 후처리 방식을 사용하여 영상객체를 추출하는 것이 일반적이다. 기존의 기술이 영상복원 후 후처리에 의한 영상객체 추출을 사용함으로서 많은 계산시간을 필요로 하여 고속처리가 어려웠다. 즉, 이전까지의 지능형 감시 시스템의 경우 동영상 정보를 정지영상으로 치환한 후 기존의 영상처리 방식을 사용했기 때문에 알고리즘이 매우 방대했으며 대량의 복잡한 연산을 반복함에 따라 시스템의 사양이 매우 높았고 그에 따라 시스템의 가격이 매우 높았으며 지식 집약적인 기술적 난해함에 의해 선진각국에서도 몇 개 국가에서만 제품화되어 있는 실정이다.Conventional methods typically extract image objects using image post-processing. Existing techniques use image object extraction by post-processing after image restoration, which requires a lot of computation time, making high-speed processing difficult. In other words, the previous intelligent surveillance system replaced the video information with a still image and used the existing image processing method, so the algorithm was very large. The price of is very high, and due to the knowledge-intensive technical difficulty, it is commercialized only in a few countries in developed countries.

본 발명은 동영상 처리에서 기본적으로 제공되는 모션벡터(Motion vector)를 사용하여 실시간으로 객체 추출 및 카메라 제어를 실현할 수 있는 방법을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a method for realizing object extraction and camera control in real time using a motion vector basically provided in video processing.

본 발명의 다른 목적은 동영상의 고속 처리를 통한 카메라 제어를 수행할 수 있는 영상 객체 인식방법을 제공하는 것이다.Another object of the present invention is to provide a method for recognizing an image object that can perform camera control through high speed processing of a video.

본 발명의 또 다른 목적은 동영상 정보의 처리에서 프로세서의 연산량을 크게 줄여 실시간 처리가 용이한 객체 인식 방법을 제공하는 것이다.Still another object of the present invention is to provide an object recognition method which is easy to process in real time by greatly reducing the amount of computation of a processor in processing video information.

본 발명의 또 다른 목적은 신경망 기법을 사용하여 간단한 연산을 반복함으로써 복잡한 객체를 동영상 정보로부터 직접 추출할 수 있는 객체 인식 방법을 제공하는 것이다.It is still another object of the present invention to provide an object recognition method capable of directly extracting a complex object from video information by repeating a simple operation using a neural network technique.

본 발명의 또 다른 목적은 동영상 부호화에 의해 나타나는 움직임 벡터를 별도의 복호화 과정 없이 사용하여 경쟁학습 신경회로망을 통해 영상객체를 추출하여 카메라를 제어하는 방법을 제공하는 것이다.Another object of the present invention is to provide a method of controlling a camera by extracting an image object through a competitive learning neural network using a motion vector represented by video encoding without a separate decoding process.

이러한 목적들을 달성하기 위한 본 발명에 따른 영상 객체 인식 방법은 네트워크를 이루고 있는 다수의 카메라에 의해 취득된 영상정보를 수신하는 과정과, 수신된 영상정보로부터 스트림헤더(stream header)를 분석하여 움직임 벡터를 추출하는 과정과, 움직임 벡터에 대한 경쟁학습 및 신경망 학습을 수행하는 과정과, 의사가중치 벡터의 평균 및 편차값을 산출하는 과정과, 인덱스 함수 값을 계산하는 과정과, 계산된 인덱스 값의 임계치 초과 여부를 판단하는 과정과, 초과여부에 따라 별도의 객체를 생성하거나 기존 객체에 병합하는 과정과, 객체의 대표 벡터 및 영상 위치를 계산하는 과정과, 계산된 값에 의한 카메라 목표 초점 위치를 산출하여 카메라의 자세를 제어하기 위한 신호를 출력하는 과정을 포함하여 이루어지는 것을 특징으로 한다.In accordance with an aspect of the present invention, there is provided a method of recognizing a video object, the process of receiving image information acquired by a plurality of cameras in a network, and analyzing a stream header from the received image information to obtain a motion vector. Extraction process, competition learning and neural network learning for motion vectors, calculating mean and deviation values of pseudoweight vector, calculating index function value, threshold of calculated index value The process of determining whether there is an excess, the process of creating a separate object or merging into an existing object according to the excess, calculating a representative vector and image position of the object, and calculating a camera target focus position based on the calculated value And outputting a signal for controlling the posture of the camera.

도 1은 시간 t와 t+h에서 들어오는 실제 영상,1 shows an actual image coming in at time t and t + h,

도 2는 영상으로 도시된 MPEG 스트림에서의 모션벡터(Motion vector) 정보,2 shows motion vector information in an MPEG stream shown as an image;

도 3은 객체추출 알고리즘을 통해 추출된 객체,3 is an object extracted through the object extraction algorithm,

도 4는 Threshold값보다 큰 교란된 객체,4 is a disturbed object larger than the Threshold value,

도 5는 분산에 의해 추출된 객체영역,5 is an object region extracted by variance,

도 6은 다수의 객체가 존재할 경우의 영상,6 is an image when a plurality of objects exist,

도 7은 다수 객체가 존재하는 경우, 3개의 가중치 벡터로 개체를 구별하는 경우,FIG. 7 illustrates a case in which a plurality of objects are present, and objects are distinguished by three weight vectors.

도 8은 신경망을 사용한 객체의 병합,8 shows merging of objects using neural networks;

도 9는 화면상에 위치하는 두 개의 객체,9 shows two objects located on the screen;

도 10은 각 객체의 평균 값 위치,10 is an average value position of each object,

도 11은 선택된 객체의 대표벡터,11 is a representative vector of the selected object,

도 12는 대표벡터를 사용한 제어신호 추출,12 is a control signal extraction using a representative vector,

도 13은 영상 공유시 개별 카메라에 대한 대표벡터 할당,13 is a representative vector allocation for individual cameras in video sharing;

도 14는 다수 카메라에 대한 대표벡터 할당에 의한 제어개념,14 is a control concept by assigning a representative vector for a plurality of cameras,

도 15는 카메라 시스템의 제어 개념도,15 is a control conceptual diagram of a camera system,

도 16은 본 발명에 따른 영상 객체 인식 방법을 나타낸 흐름도이다.16 is a flowchart illustrating a method of recognizing an image object according to the present invention.

이하, 첨부된 도면을 참조로하여 본 발명에 따른 제어 네트워크 기반 영상객체 인식 시스템을 설명하기로 한다.Hereinafter, a control network based image object recognition system according to the present invention will be described with reference to the accompanying drawings.

본 발명에 따른 객체 인식 방법은 다수의 카메라가 네트워크을 기반으로 제어되는 시스템을 중심으로 이루어진다.The object recognition method according to the present invention is made around a system in which a plurality of cameras are controlled based on a network.

개발을 위해서는 획득된 MPEG 스트림내에 있는 모션벡터(Motion vector)를 통해 감시대상인 객체 추출이 필수적이다. 일반적으로 카메라에 잡히는 영상을 도 1과 같다고 가정한다. 도 1에서 시간 t (a)와 t+h (b)사이에는 움직이는 사람에 대하여 영상의 변화가 있으나 뒷 배경 부분에는 영상의 변화가 없다. 그러므로 어떤 특정구역에 대한 감시 시스템을 구성할 경우 침입자나 혹은 인증되지 않은 사용자가 특정 구역에 들어올 경우 배경에 해당되는 특정구역의 영상정보는 변화가 없다. 그러나 침입자에 해당되는 영상은 많은 변화를 일으키게 되므로 이러한 변화를 적절히 추출하여 처리하게 되면 제어 네트워크를 기반으로 하는 영상객체 인식시스템을 구축할 수 있다.For development, it is necessary to extract the object to be monitored through the motion vector in the obtained MPEG stream. In general, it is assumed that an image captured by a camera is the same as that of FIG. 1. In FIG. 1, there is a change in the image of the moving person between the times t (a) and t + h (b), but there is no change in the image at the back background. Therefore, if you configure a surveillance system for a certain area, if an intruder or unauthorized user enters a certain area, the video information of the specific area in the background will not change. However, since the image corresponding to the intruder causes a lot of changes, if the appropriate change is extracted and processed, the image object recognition system based on the control network can be constructed.

본 발명에서는 이러한 영상정보를 MPEG-1/MPEG-2 스트림으로 처리하므로 MPEG 스트림에서는 그림 1과 같은 영상에 대하여 시간 t와 t+h사이에 모션벡터(Motion vector)정보를 가지게 되며 이를 영상으로 재 구성하면 도 2 와 같다. 도 2 에서 점으로 표시된 부분은 모션벡터(Motion vector)가 영 벡터임를 의미하며 화살표가 나타나는 부분은 시간 t와 t+h 사이에 해당하는 벡터크기 만큼의 영상 변화가 있었음을 의미한다. 그러므로 h가 충분히 작다면 다음과 같이 간단하게 객체를 추출할 수 있다.In the present invention, such image information is processed as an MPEG-1 / MPEG-2 stream, so the MPEG stream has motion vector information between the times t and t + h for the image shown in Fig. 2 is configured. A portion indicated by a dot in FIG. 2 indicates that a motion vector is a zero vector, and a portion where an arrow appears indicates that there is an image change corresponding to a vector size corresponding to a time t and t + h. So if h is small enough, we can simply extract the object as

,…식 1 , … Equation 1

식 1에서는 (i, j)번째 마크로 블럭(Macro Block)에서 (x,y)의 정보를 가지는 모션 벡터(Motion vector)를 의미한다. 즉, 상위첨자(ij)는 모션벡터(Motion vector)의 인덱스(Index) 정보를 가리키며, 하위첨자(xy)는 모션벡터(Motion vector)의 내용이다. 도 3은 객체추출 알고리즘을 통해 추출된 객체를 나타낸 예시도이다.In equation 1 Denotes a motion vector having information of (x, y) in the (i, j) -th macro block. That is, the upper subscript ij indicates index information of the motion vector, and the lower subscript xy is the content of the motion vector. 3 is an exemplary diagram illustrating an object extracted through an object extraction algorithm.

Ο는 객체(Object)를 의미하며 객체는 어떤 특정한 모션벡터(Motion vector)의 집합으로 생각한다. 쓰레스홀드(Thresh hold) 값은 모션벡터(Motion vector)의 위치벡터(i, j)가 객체 Ο에 포함되는가를 결정하는 값으로 n·m 크기의 영상에 대하여 다음과 같이 놓는다.Ο means an object, which is considered to be a specific set of motion vectors. The threshold value is a value that determines whether the position vectors i and j of the motion vector are included in the object Ο and is set as follows for an image of size n · m.

…식 2 … Equation 2

식 2에서 α는 비례상수로 1보다 작은 값을 사용하며 영상의 특징등을 통해 경험적으로 산정한다. 도 4는 쓰레스홀드(Thresh hold)값보다 큰 교란된 객체를 추출한 경우의 예시도이다.In Equation 2, α uses a value smaller than 1 as the proportional constant, and it is empirically estimated by the characteristics of the image. 4 illustrates an example of extracting a disturbed object larger than a threshold hold value.

식 1에 의한 객체추출의 경우, 노이즈나 그 이외의 이유로 인하여 객체추출이 올바르지 않을 수도 있다. 이러한 경우, 올바른 객체추출은 필터링 문제가 되나 객체자체가 모션벡터(Motion vector)의 위치집합이므로 위치에 대한 간단한 필터링을 통해 문제를 해결할 수 있다. 객체로 잡힌 모션벡터(Motion vector)들의 집합을 Ο라 하면 다음 식을 통해 근사 중심점을 구한다,In the case of object extraction by Equation 1, object extraction may not be correct due to noise or other reasons. In this case, correct object extraction is a filtering problem, but since the object itself is a set of positions of a motion vector, the problem can be solved through simple filtering on the position. If we call the set of motion vectors captured as an object, we obtain the approximate center point by

…식 3 … Expression 3

I(i,j)∈Ο는 Index 함수로서 (i,j)∈Ο이면 1이며,이면 0이다. 위 식 3에서 구해진 m을 사용하여 객체위치에 대한 분산을 다음 식을 사용하여 구한다.I (i, j) ∈Ο is an Index function, and if (i, j) ∈Ο is 1, Is 0. Using m obtained in Equation 3, the variance of the object position is obtained using the following equation.

… 식 4 … Equation 4

σ는 객체 범위에 대한 분산으로서 도 5에서 원의 반지름에 해당한다. 그러므로 다음 식에 의하여 교란된 객체를 제거할 수 있다.σ corresponds to the radius of the circle in FIG. Therefore, the disturbed object can be removed by

,…식 5 , … Equation 5

위 식 5에서 β는 β≤1인 양수로서 분산의 크기를 조절하기 위한 인수이며 감시대상 환경등에 의해 경험적으로 결정된다.In Equation 5, β is a positive number β≤1, which is a factor for controlling the size of variance, and is empirically determined by the environment to be monitored.

보다 복잡한 영상의 경우 위에서 언급한 간단한 객체추출 방법으로 객체가 추출되지 않을 수 있다. 예를들어 도 6 과 같은 영상의 경우에는 다수의 모션벡터(Motion vector)들이 혼합되어 간단한 객체추출 알고리즘을 적용하기 어렵다. 도 6 과 같은 경우 두가지 종류의 영 벡터가 아닌 모션벡터(Motion vector)가 영상에 나타나는 경우로서 이러한 경우에는 패턴인식 기술을 사용하여 각 모션벡터(Motion vector)들을 Class별로 구별지어야 한다. 이러한 패턴인식 도구로서 간단하게 구현 할 수 있으며 패턴 분류 성능이 뛰어난 경쟁학습 신경망 알고리즘을 도입하여 복잡한 영상의 객채추출을 행한다. 본 시스템에서 경쟁학습 신경망의 학습 방정식은 다음과 같다.In the case of more complex images, the objects may not be extracted by the simple object extraction method mentioned above. For example, in the case of an image as shown in FIG. 6, a plurality of motion vectors are mixed to make it difficult to apply a simple object extraction algorithm. In the case of FIG. 6, two kinds of motion vectors appear in the image. In this case, each motion vector must be distinguished by class using a pattern recognition technique. It can be easily implemented as such a pattern recognition tool and extracts complex images by introducing a competitive learning neural network algorithm with excellent pattern classification performance. In this system, the learning equation of competitive learning neural network is as follows.

…식 6 … Equation 6

식 6에서 Wr(t)은 시간 t에서의 r번째 가중치 벡터(Weight Vector)로서 특정 객체집합을 대표하는 대표벡터가 된다. 경쟁학습 신경망의 학습은 10 수회의 학습으로도 충분히 대표성 있는 가중치 벡터를 만들어 낼 수 있으며 가중치 벡터를 사용하여 다수의 객체를 생성해 낼 수 있다. 이를 그림으로 도시하면 도 7 과 같다. 신경망의 가중치 벡터를 사용하여 객체를 구별하는 공식은 다음과 같으며 이론상 r개의 가중치 벡터가 있다면 r-1개의 객체를 구별할 수 있다.In Equation 6, W r (t) is the r-th weight vector at time t and becomes a representative vector representing a specific set of objects. The training of the competitive learning neural network can generate a weight vector that is sufficiently representative in 10 times of training, and can generate a large number of objects using the weight vector. This is illustrated in FIG. 7. The formula for distinguishing objects using the weight vector of the neural network is as follows. In theory, if there are r weight vectors, r-1 objects can be distinguished.

…식 7 … Equation 7

식 7 에서 Λ는 Macro Block의 Index 집합으로서 R2와 위상이 같으며 Οr은 r번째 객체를 의미하며 가중치 벡터의 인덱스와 같다.In Equation 7, Λ is the macro block's index set, which is in phase with R 2 , Ο r means the r th object, and is equal to the index of the weight vector.

신경망에 Index 함수를 부여하면 도 8에서 보는 바와 같이, 객체의 병합이 가능하다. 동일한 객체에 서로다른 모션벡터(Motion vector)가 있을 경우, 예를들어 사람의 사지와 몸통의 경우 사지를 포괄하는 매크로 블럭(Macro Block)의 움직임이 몸통의 그것보다 더 많이 움직일 가능성이 높다. 도 8 에서 모두 6개의 객체가 신경망에 의해 분류 되었다고 가정하고 이 중에서 w1, w2, w3으로 대표되는 객체와 w4,w5,w6으로 대표되는 객체의 병합문제를 살펴보면, 감시 시스템의 경우 각 객체들의 의미에 대한 사전 지식이 없으므로 가중치 벡터의 유사성을 통해 객체를 병합시키는 방법외에는 없다. 따라서 전체 가중치 벡터의 편차를 사용하여 유사한 가중치 벡터를 편차를 기준으로하는 인덱스 함수를 구축하여 객체를 병합할 수 있다. 도 9는 도 8의 객체가 화면 상에 위치한 예시도이다.When the Index function is given to the neural network, as shown in FIG. 8, objects can be merged. If there are different motion vectors on the same object, for example, in the human limbs and torso, the movement of the macro block encompassing the limbs is more likely to move than that of the torso. In FIG. 8, it is assumed that all six objects are classified by neural networks, and the merging problem of objects represented by w1, w2, and w3 and objects represented by w4, w5, and w6 among them is the meaning of each object in the monitoring system. Since there is no prior knowledge of, there is no other way to merge objects through similarity of weight vectors. Therefore, the object can be merged by constructing an index function based on the deviation of the similar weight vector using the deviation of the overall weight vector. 9 is an exemplary diagram in which an object of FIG. 8 is located on a screen.

가중치 벡터의 편차를 구하기 위해 의사 가중치 벡터 평균을 가중치 벡터의 수가 r이라 할 때 다음과 같이 구한다.To find the deviation of the weight vector, the pseudo weight vector mean is calculated as follows when the number of weight vectors is r.

…식 8 … Equation 8

식 8 에 의해 의사 가중치 벡터의 평균이 구해지면 이를 사용하여 다음과 같이 가중치 벡터의 편차를 구한다.When the average of the pseudo weight vectors is obtained by Equation 8, the deviation of the weight vectors is obtained as follows.

…식 9 … Equation 9

이때 인덱스 함수를 아래와 같이 놓고,Put the index function as below,

…식 10 … Equation 10

식 10 에서 0<λ≤1는 편차에 대한 파라미터로 경험적으로 결정되는 값이다. 도 10은 도 9의 각 객체의 평균값의 위치를 나타낸 예시도이다. 이 값이 크면 객체가 적게 생성되고 이 값이 작으면 객체가 많이 생성된다. 식 10 의 인덱스 함수가 어떤 임계값보다 크면 다음과 같이하여 객체를 병합한다.In Equation 10, 0 <λ≤1 is a value determined empirically as a parameter for the deviation. FIG. 10 is an exemplary diagram illustrating a position of an average value of each object of FIG. 9. Larger values create fewer objects; smaller values create more objects. If the index function in Eq. 10 is greater than a certain threshold, merge the objects as follows:

…식 11 … Equation 11

동영상위의 객체가 추출된 다음에는 객체를 대표하는 대표벡터를 사용하여 시스템을 위한 카메라 팬-틸트 제어를 행한다. 영상이 단순할 경우에는 추출된 객체에 포함되는 위치벡터의 모션 벡터(Motion Vetor)들의 평균값을 사용하여 도 11에서와 같이 대표벡터를 생성한다.After the object on the video is extracted, camera pan-tilt control for the system is performed using the representative vector representing the object. If the image is simple, a representative vector is generated as shown in FIG. 11 by using average values of motion vectors of the position vectors included in the extracted object.

…식 12 … Equation 12

영상이 복잡하여 다수의 객체가 나타나는 경우 각 객체에 대한 대표벡터들은 신경망의 가중치 벡터가 된다. 이는 경쟁학습 신경망의 경우 가중치 벡터들은 VQ 효과에 의해 가중치 벡터들이 가중치의 벡터의 리셉터블(Receptive Field)의 평균벡터가 되는 성질을 사용하는 것이다.When multiple objects appear due to complex images, the representative vectors for each object become the weight vector of the neural network. In the case of the competitive learning neural network, the weight vectors use the property that the weight vectors become an average vector of the receptive field of the weight vector due to the VQ effect.

…식 13 … Equation 13

객체 병합에 의해 다수의 가중치 벡터가 동일한 객체를 대표할 때는 동일한 객체를 나타내는 가중치 벡터의 산술평균을 객체의 대표벡터로 사용한다.When multiple weight vectors represent the same object by merging objects, the arithmetic mean of the weight vectors representing the same object is used as the representative vector of the object.

…식 14 … Equation 14

효율적인 감시를 위해서 다수의 감시 시스템이 사용되는 경우, 특정 카메라는 카메라 초점 위치에 가장 가까운 객체만을 추적하도록 한다. 따라서 각 객체의 모션벡터(Motion vector) 위치 (i,j)의 산술평균을 구하여 특정 카메라의 초점위치를 결정한다.When multiple surveillance systems are used for efficient surveillance, certain cameras allow tracking only the object closest to the camera focus position. Therefore, the arithmetic mean of the motion vector position (i, j) of each object is obtained to determine the focus position of a specific camera.

카메라의 목표 촛점위치 =…식 15Target focal point of camera = … Equation 15

식 15에서 C(t)∈R2는 카메라의 현재 초점위치를 말한다.In Equation 15, C (t) ∈R 2 is the current focus position of the camera.

초점위치를 통해 추적할 객체가 결정되면 위에서 구한 객체의 대표벡터를 사용하여 제어 입력을 구한다. 일반적으로 화상의 샘플링(Sampling) 시간을 δτ라 하고 제어 입력에 대한 샘플링 시간은 h라 하면가 되어 화상 입력에 대하여 다운샘플링(Down Sampling)이 된다. 카메라의 팬-틸트 제어는 카메라의 초점을 객체의 중심점에 맞추도록 하는 것으로서 객체의 대표벡터 방향으로 팬-틸트를 움직이는 것으로 구현된다. 도 12에서 나타나는 Wrx,Wry벡터는 각각 팬,틸트 제어신호가 된다. 그러므로 상태벡터를 객체 중심점의 화면상의 위치로 놓으면 상태벡터의 시간에 대한 1차 미분치는 대표벡터가 된다. 제어 대상의 출력은 객체 중심점이 되므로 다음과 같이 시스템을 모델링 할 수 있다.When the object to be tracked is determined through the focal position, the control input is obtained by using the representative vector of the object obtained above. In general, a sampling time of an image is δ τ and a sampling time of a control input is h. To be down-sampling with respect to the image input. The pan-tilt control of the camera is performed by moving the pan-tilt in the direction of the representative vector of the object by adjusting the focus of the camera to the center point of the object. The Wr x and Wr y vectors shown in FIG. 12 become pan and tilt control signals, respectively. Therefore, when the state vector is placed on the screen of the object center point, the first derivative with respect to the time of the state vector becomes the representative vector. Since the output of the control object becomes the object center point, the system can be modeled as follows.

x(t=δτ)=A(t)x(t)+u(t)x (t = δτ) = A (t) x (t) + u (t)

y(t)=x(t)y (t) = x (t)

…식 16 … Equation 16

식 16에서 x는 객체의 중심점을 나타낸다. 식 16 의 선형 모델에서 A(t)의 추정이 매우 중요하며 δτ의 값이 매우 작다면 식 17 과 같이 구할 수 있다.In equation 16, x represents the center point of the object. Estimation of A (t) is very important in the linear model of Eq. 16, and if δτ is very small, Eq.

이렇게 추정된 모델을 사용하여 LQ 제어기법을 사용, 제어입력 u(t)를 구하게 되면 제어입력과 반대방향의 제어신호를 팬-틸트에 인가하여 객체를 추적할 수 있게 된다.When the control input u (t) is obtained using the LQ control method using the estimated model, the object can be tracked by applying a control signal in the opposite direction to the control input to the pan-tilt.

각 카메라는 객체의 대표벡터의 추종을 목표로 제어가 이루어진다. 한편 다수의 카메라가 시스템에 존재하게 되면 각 카메라에 알맞은 대표벡터를 할당하는 것이 다수 카메라 제어기술의 핵심이 된다. 각 카메라가 대상 영상을 공유하지 않고 있다고 가정하면 다수 카메라 제어는 각 카메라가 잡은 영상에 대하여 대표벡터를 추종하면 된다. 그러나 도 13에서 보는 바와 같이 다수 카메라가 같은 영상을 전체 혹은 일부 공유하고 있다면 영상의 대표벡터를 각 카메라에 적절히 할당하여야 한다. 대표벡터의 영상할당은 대표벡터의 시작점과 영상의 초점과의 거리를 통해 가장 가까운 거리에 있는 대표벡터를 추종하는 것으로 한다. 이렇게 하면 각 카메라는 영상에서 객체가 사라진다 하더라도 다른 카메라에서 객체를 추종할 수 있으므로 효율적인 제어가 가능해진다. 도 14 의 좌측 카메라에는 대표벡터가 존재하므로 초점에서 가까운 벡터를 추종하는 제어가 이루어진다. 그런데, 탐색영역을 객체가 벗어나게 되면 객체는 시간 t+h에서 다른 카메라의 영상에 나타나게 된다. 이때 시간 t에서 대표벡터가 존재하지 않아 제어중지 상태인 우측 카메라는 t+h에서 대표벡터가 나타나므로 제어가 시작된다. 좌측 카메라는 대표벡터가 사라졌으므로 제어중지가 된다. 도 15는 객체의 움직임에 따라 카메라의 동작 제어를 나타내고 있다.Each camera is controlled to follow the representative vector of the object. On the other hand, if multiple cameras exist in the system, assigning a representative vector to each camera becomes the core of the multiple camera control technology. Assuming that each camera does not share the target image, multiple camera control may follow the representative vector with respect to the image captured by each camera. However, as shown in FIG. 13, when multiple cameras share the same or all of the same image, a representative vector of the image should be appropriately assigned to each camera. The image allocation of the representative vector follows the representative vector at the closest distance through the distance between the starting point of the representative vector and the focal point of the image. This allows each camera to follow an object from another camera even if the object disappears from the image, allowing for efficient control. Since a representative vector exists in the left camera of FIG. 14, a control for following a vector close to the focus is performed. However, when the object leaves the search area, the object appears on the image of another camera at time t + h. At this time, since the representative vector does not exist at time t and the control is stopped, the right vector shows the representative vector at t + h. The left camera stops controlling because the representative vector disappears. 15 illustrates control of the camera according to the movement of the object.

도 16은 본 발명에 따른 영상 객체 인식 방법을 나타낸 흐름도이다. 네트워크를 이루고 있는 다수의 카메라에 의해 취득된 영상정보를 수신하는 과정(S1)과, 수신된 영상정보로부터 스트림헤더(stream header)를 분석하여 움직임 벡터를 추출하는 과정(S2)과, 움직임 벡터에 대한 경쟁학습 및 신경망 학습을 수행하는 과정(S3)과, 의사 가중치 벡터의 평균 및 편차값을 산출하는 과정(S4)과, 인덱스 함수 값을 계산하는 과정(S5)과, 계산된 인덱스 값의 임계치 초과 여부를 판단하는 과정(S6)과, 초과여부에 따라 별도의 객체를 생성(S7-1)하거나 기존 객체에 병합하는 과정(S7-2)과, 객체의 대표 벡터 및 영상 위치를 계산하는 과정(S8)과, 계산된 값에 의한 카메라 목표 초점 위치를 산출(S9)하여 카메라의 자세를 제어하기 위한 신호를 출력하는 과정(S10)을 포함하여 이루어진다.16 is a flowchart illustrating a method of recognizing an image object according to the present invention. Receiving image information acquired by a plurality of cameras forming a network (S1), analyzing a stream header from the received image information (S2), and extracting a motion vector (S2). Competitive learning and neural network learning (S3), calculating the mean and deviation value of the pseudo-weight vector (S4), calculating the index function value (S5), and the threshold of the calculated index value The process of determining whether the excess (S6), the process of creating a separate object (S7-1) or merging into an existing object (S7-2) according to the excess, and the process of calculating the representative vector and image position of the object And a step S10 of calculating a camera target focal position based on the calculated value (S9) and outputting a signal for controlling the attitude of the camera (S10).

이상에서 설명한 바와 같이, 본 발명은 이와 같은 기술적 난해함을 새로이 개발된 신기술들을 사용하여 선진각국의 시스템과 전혀 다른 방식으로 시스템을 구현되었으며 이에 따라 가격 경쟁력 확보 및 구현 시 확보될 지적 재산권 등의 확보에도 매우 유리하다. 또한, 본 발명은 동영상정보를 따로 정지영상 등으로 후 처리하지 않고 직접 사용하여 객체추출 및 카메라 자세 제어를 구현함으로서 프로세서의 연산량을 크게 줄여 실시간 처리가 보다 용이하게 이루어질 수 있어 시스템의 성능을 크게 높일 수 있다. 아울러, 대표적인 지능형 정보처리 방법인 신경망 기법을 사용하여 간단한 연산의 수 회 반복으로 복잡한 객체를 동영상 정보로부터 직접 추출 할 수 있으므로 시스템의 안정성과 신뢰성을 크게 높일 수 있으며, 고가의 높은 성능을 가진 특성화 된 시스템이 불필요하며 저렴하게 구입할 수 있는 저가의 상용화된 시스템으로 구현이 가능하다. 현재, 우리나라의 경우 사회가 발전됨에 따라 보안 및 감시 시스템의 자동화가 절실히 요구되고 있으나 국산화된 자체장비가 없는 관계로 영국 등에서 매우 높은 가격의 지능형 감시 시스템을 수입하고 있는 실정이므로 막대한 수입대체 효과와 인텔리전트 빌딩, 금융기관 등 높은 수준의 보안체제가 필요한 산업분야에서 새로운 신 시장을 창출할 수 있을 것으로 예상된다.As described above, the present invention implements this technical difficulty in a manner completely different from those of developed countries by using newly developed new technologies, thereby securing price competitiveness and securing intellectual property rights to be implemented. Very advantageous. In addition, the present invention implements object extraction and camera posture control by directly using video information without post-processing as a still image, thereby greatly reducing the amount of computation of the processor, thereby making it easier to perform real-time processing, thereby greatly improving the performance of the system. Can be. In addition, using the neural network technique, a representative intelligent information processing method, complex objects can be directly extracted from video information with a few iterations of simple operations, which greatly increases the stability and reliability of the system, and is characterized by high performance. The system is unnecessary and can be implemented as a low-cost commercial system that can be purchased at low cost. Currently, in Korea, as the society develops, there is an urgent need for the automation of security and surveillance systems, but since there are no localized domestic equipment, the import of very high priced intelligent surveillance systems from the United Kingdom, etc., enormous import substitution effect and intelligent It is expected that new markets will be created in industries that require high levels of security, such as buildings and financial institutions.

Claims (1)

네트워크를 이루고 있는 다수의 카메라에 의해 취득된 영상정보를 수신하는 과정과,Receiving image information acquired by a plurality of cameras in a network; 수신된 영상정보로부터 스트림헤더(stream header)를 분석하여 움직임 벡터를 추출하는 과정과,Extracting a motion vector by analyzing a stream header from the received image information; 움직임 벡터에 대한 경쟁학습 및 신경망 학습을 수행하는 과정과,The process of performing competitive learning and neural network learning on motion vectors, 의사 가중치 벡터의 평균 및 편차값을 산출하는 과정과,Calculating average and deviation values of the pseudo weight vector; 인덱스 함수 값을 계산하는 과정과,Calculating index function values, 계산된 인덱스 값의 임계치 초과 여부를 판단하는 과정과,Determining whether the calculated index value exceeds a threshold; 초과여부에 따라 별도의 객체를 생성하거나 기존 객체에 병합하는 과정과,Creating separate objects or merging them into existing objects, 객체의 대표 벡터 및 영상 위치를 계산하는 과정과,Calculating a representative vector and image position of the object; 계산된 값에 의한 카메라 목표 초점 위치를 산출하여 카메라의 자세를 제어하기 위한 신호를 출력하는 과정을 포함하는 것을 특징으로 하는 제어 네트워크를 기반으로 하는 영상 객체 인식 방법.And calculating a camera target focal point position based on the calculated value and outputting a signal for controlling the pose of the camera.
KR1020010075175A 2001-11-30 2001-11-30 An object recognition method via network control KR20030044437A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010075175A KR20030044437A (en) 2001-11-30 2001-11-30 An object recognition method via network control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010075175A KR20030044437A (en) 2001-11-30 2001-11-30 An object recognition method via network control

Publications (1)

Publication Number Publication Date
KR20030044437A true KR20030044437A (en) 2003-06-09

Family

ID=29572214

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010075175A KR20030044437A (en) 2001-11-30 2001-11-30 An object recognition method via network control

Country Status (1)

Country Link
KR (1) KR20030044437A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114762316A (en) * 2019-12-09 2022-07-15 索尼集团公司 Image processing apparatus, image processing system, and image processing method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114762316A (en) * 2019-12-09 2022-07-15 索尼集团公司 Image processing apparatus, image processing system, and image processing method

Similar Documents

Publication Publication Date Title
Ding et al. Investigation of different skeleton features for cnn-based 3d action recognition
Wang et al. Multi-person 3d motion prediction with multi-range transformers
Bultmann et al. Real-time multi-view 3D human pose estimation using semantic feedback to smart edge sensors
CN111178284A (en) Pedestrian re-identification method and system based on spatio-temporal union model of map data
CN111414797A (en) System and method for gesture sequence based on video from mobile terminal
Ding et al. Simultaneous body part and motion identification for human-following robots
CN115035158A (en) Target tracking method and device, electronic equipment and storage medium
Dockstader et al. Tracking multiple objects in the presence of articulated and occluded motion
Liu et al. Online human action recognition with spatial and temporal skeleton features using a distributed camera network
Weinrich et al. Appearance-based 3D upper-body pose estimation and person re-identification on mobile robots
Mohanty et al. A survey on moving object detection using background subtraction methods in video
Serrano-Cuerda et al. Efficient people counting from indoor overhead video camera
Barioni et al. Human pose tracking from rgb inputs
Nie et al. A child caring robot for the dangerous behavior detection based on the object recognition and human action recognition
JP4201958B2 (en) Moving image object extraction device
Deotale et al. Optimized hybrid RNN model for human activity recognition in untrimmed video
KR20030044437A (en) An object recognition method via network control
Yuan et al. Real-Time Human Falling Recognition via Spatial and Temporal Self-Attention Augmented Graph Convolutional Network
CN114820723A (en) Online multi-target tracking method based on joint detection and association
Puchała et al. Feature engineering techniques for skeleton-based two-person interaction classification in video
Delahoz et al. A deep-learning-based floor detection system for the visually impaired
Zhu et al. What and how? jointly forecasting human action and pose
Yeasin et al. A multiobject tracking framework for interactive multimedia applications
Kwak et al. Human action recognition using accumulated moving information
Losada et al. Identification and tracking of robots in an intelligent space using static cameras and an XPFCP

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid