KR101313644B1 - reuse methode for descriptor of image - Google Patents

reuse methode for descriptor of image Download PDF

Info

Publication number
KR101313644B1
KR101313644B1 KR1020110125237A KR20110125237A KR101313644B1 KR 101313644 B1 KR101313644 B1 KR 101313644B1 KR 1020110125237 A KR1020110125237 A KR 1020110125237A KR 20110125237 A KR20110125237 A KR 20110125237A KR 101313644 B1 KR101313644 B1 KR 101313644B1
Authority
KR
South Korea
Prior art keywords
keypoint
descriptor
frame
keypoints
current frame
Prior art date
Application number
KR1020110125237A
Other languages
Korean (ko)
Other versions
KR20130059102A (en
Inventor
이혁재
김응섭
홍주현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020110125237A priority Critical patent/KR101313644B1/en
Publication of KR20130059102A publication Critical patent/KR20130059102A/en
Application granted granted Critical
Publication of KR101313644B1 publication Critical patent/KR101313644B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description

Abstract

본 발명에는 연속되는 복수의 프레임들로 형성되는 동영상에서 현재의 프레임과 다음의 프레임을 비교하여 유사성이 높은 경우에 상기 현재 프레임에서 생성된 디스클립터 (descriptor)를 재사용함으로써 SIFT (Scale-Invariant Feature Transform)에서 처리되는 연산량을 줄일 수 있도록 하는 동영상 디스클립터 재활용 방법이 개시된다.The present invention compares a current frame with a next frame in a video formed of a plurality of consecutive frames, and reuses a descriptor generated in the current frame when the similarity is high. Disclosed is a method for recycling a movie diskette that can reduce the amount of processing performed in a transform.

Description

동영상 디스클립터 재활용 방법{reuse methode for descriptor of image} Recycle methode for descriptor of image

본 발명은 유사성이 높은 연속되는 프레임들로 이루어진 동영상에서 현재 프레임의 디스클립터를 다음 디스클립터로 사용하도록 함으로써 처리 연산량을 대폭 감소시키도록 한 동영상 디스클립터 재활용 방법에 관한 것이다.The present invention relates to a video clipper recycling method for significantly reducing processing throughput by using the current frame's splitter as the next clipper in a video having a series of similarities.

컴퓨팅 기술이 나날이 발전하면서 영상 처리의 양과 질도 계속 개선되어 왔고, 군사 및 우주 탐사 같은 특수 분야에서만 사용되던 것이 영상 압축, 얼굴 인식 등 실생활에 유용한 분야로 점차 퍼져나가고 있다.As computing technology advances, the quantity and quality of image processing continues to improve, and what has been used only in special fields such as military and space exploration is spreading to real life applications such as image compression and face recognition.

영상 처리의 세부 분야 중에서, 영상 인식은 다른 세부 분야에 비해 상대적으로 실생활에 적용된 응용이 많지 않았지만, 많은 연구를 통해 얼굴 인식을 필두로 점차 실생활에 적용되는 응용 및 구현이 속속 등장하고 있다. 하지만, 영상 인식 문제는 까다롭고 복잡하며, 영상 인식 알고리즘들은 매우 복잡한 연산 과정이 필요하고, 많은 양의 데이터베이스 또는 메모리를 요구하기 때문에, 이를 구현하는데 많은 어려움이 따른다.Among the detailed fields of image processing, image recognition has not been applied to real life relatively much compared to other detailed fields, but many studies have shown that applications and implementations that are gradually applied to real life, such as face recognition, have emerged one after another. However, the problem of image recognition is difficult and complicated, and since image recognition algorithms require very complicated computational processes and require a large amount of database or memory, it is difficult to implement them.

물체 인식은 영상 인식의 가장 주가 되는 응용 중에 하나로, 카메라로부터 영상을 입력 받아, 그 영상에 찾고자 하는 물체가 있는 지와 물체의 위치가 어디인지를 찾는 것을 말하며, 물체의 종류 및 특성이 매우 다양하고, 입력되는 영상의 질 또한 매우 다양하기 때문에, 각각의 특성을 위한 수많은 물체 인식 알고리즘들이 연구되어 왔다.Object recognition is one of the most important applications of image recognition. It receives an image from a camera and finds out whether there is an object to be found in the image and where the object is located. Since the quality of the input image is also very diverse, numerous object recognition algorithms for each characteristic have been studied.

물체 인식의 처리 절차는 응용 및 알고리즘에 따라 많은 차이가 있지만, 일반적으로 도 1과 같이 이미지 인핸스먼트(image enhancement), 특징추출(Feature extraction), 탐지(detection)+ 부분화(localization)의 단계로 이루어진다.The process of object recognition varies greatly depending on the application and algorithm. However, in general, image recognition, feature extraction, and detection + localization are performed as shown in FIG. 1. Is done.

이미지 인핸스먼트(image enhancement)에서는 입력된 영상의 노이즈를 줄이고, 뒷단계에서 사용될 특징을 부각시키기 위한 여러 가지 필터링을 수행한다. 예를 들어, 입력 이미지의 밝기를 고르게 하기 위한 히스토그램 평활화(Histogram equalization) 등이 있다. 특징추출(feature extraction) 단계에서는 인헨스(enhanced) 된 영상에서 주목할 만한 특징(feature)들을 추출하여 벡터 형태로 만든다. 이 단계 이후의 연산은 입력된 이미지가 아닌, 특징 벡터(feature vector)를 갖고 이루어진다. 이 단계에서는, 필요한 정보만을 추출하기 위해 수많은 입력 픽셀에 대한 연산을 수행해야 하기 때문에 매우 많은 연산량이 필요하다. 또한, 이 단계는, 필요한 정보만을 남기고 나머지는 버리기 때문에 물체 인식 결과에 미치는 영향이 매우 크다. 따라서 물체 인식 처리 절차에서 이 단계가 매우 중요하며, 수많은 연구가 이루어져 왔다. 마지막 단계는 특징추출단계 이후의 모든 인식 절차를 표현한 것이며, 이는 응용에 따라 달라진다.In image enhancement, various filtering is performed to reduce noise of an input image and to highlight a feature to be used in a later step. For example, histogram equalization for equalizing the brightness of the input image. In the feature extraction step, noteworthy features are extracted from the enhanced image into a vector form. The operation after this step is performed with the feature vector, not the input image. In this step, a large amount of computation is required because it is necessary to perform operations on numerous input pixels to extract only necessary information. In addition, this step has a great influence on the object recognition result because only necessary information is left and the rest is discarded. Therefore, this step is very important in the object recognition process, and a lot of research has been done. The final stage represents all recognition procedures after the feature extraction phase, which depends on the application.

물체 인식에서 사용되는 특징 벡터는 다른 물체에서 추출된 특징과 구별 가능(discriminative)해야 하고, 같은 물체에서 나온 것이라면 이미지가 변형되거나 시점이 바뀌더라도 되도록이면 변하지 않는(invariant) 것이 좋다.Feature vectors used in object recognition should be discriminant from features extracted from other objects, and invariant if the image is deformed or if the viewpoint changes if it comes from the same object.

초기에는, 물체 외곽선의 기하학적인 모양을 나타내는 특징이나, 외곽선의 길이, 둥근 정도 등을 나타내는 특징들과 같이, 물체의 글로벌한 특성을 표현하는 특징들이 주로 연구되었다. 그러나, 실생활의 이미지에서 물체 인식을 하기 위해서 글로벌한 특징들을 사용하는 것은 적합하지 않은 경우가 많다. 배경이 복잡하여(cluttered background) 물체의 외곽선을 추출하기 쉽지 않을 수 있고, 물체의 일부분이 다른 물체에 의해 가려지는 경우(occlusion)도 많다.In the early years, features that express the global characteristics of objects, such as those that represent the geometric shape of the object outline, or the features such as the length of the outline, the degree of rounding, etc., were mainly studied. However, it is often not appropriate to use global features for object recognition in real life images. A cluttered background may not be easy to extract the outline of an object, and a portion of the object is often occluded by another object.

이런 문제를 개선하기 위해, 지난 몇 년간, 이미지의 부분(local patch)을 나타내는 특징(feature)을 이용하는 연구들이 활발히 진행되어 왔다. 물체를 나타내는 local feature들을 만드는 방법으로, 먼저 영상에서 두드러지는 포인트들을 찾는데, 이 포인트들을 키포인트(keypoint) 혹은 관심 포인트(interest point)라고 부른다. 그 후에, 각 keypoint 주변의 local patch를 나타내는 특징 벡터(feature vector)를 만드는데, 이를 region descriptor 혹은 descriptor라고 부른다. 이와 같이 입력 이미지에서 만들어진 다수의 descriptor들을 모델 영상의 descriptor들과 매칭시킴으로써 물체 인식을 수행한다. 이런 local patch들을 이용하면 물체의 일부가 가려진 경우나 복잡한 배경에 의해 일부 feature들이 사라지더라도, 나머지 feature들에 의해 물체 인식을 하는 것이 가능하다.In order to remedy this problem, research has been actively carried out over the last few years using features that represent local patches of an image. By creating local features that represent objects, we first look for prominent points in the image, which are called keypoints or interest points. After that, we create a feature vector representing the local patch around each keypoint, which is called a region descriptor or descriptor. As described above, object recognition is performed by matching a plurality of descriptors made from an input image with descriptors of a model image. With these local patches, it is possible to recognize objects by the remaining features, even if some of the objects are hidden or due to complex background.

이런 전략을 따라 만들어지는 local feature들 중에서 SIFT (Scale-Invariant Feature Transform)가, 여러 가지 이미지 변형에서도 강인한 특성을 보이기 때문에, 널리 사용되고 있다.Among the local features created according to this strategy, SIFT (Scale-Invariant Feature Transform) is widely used because of its robustness in various image transformations.

SIFT는 D. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision , vol. 2, no. 60, pp. 91-110, 2004. (이하 'Lowe' 한다)에서 제안된 Local feature의 한 종류로, 여러 가지 조건 하에서도 다른 local feature에 비해 상대적으로 나은 성능을 보이기 때문에, 물체 인식에 널리 사용된다. 이름에 나타나있듯이, 물체의 scale이 변하거나 회전하더라도 feature가 잘 변하지 않는 특성을 보인다.SIFT, D. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision , vol. 2, no. 60, pp. 91-110, 2004. This is a kind of local feature proposed in (Lowe), and it is widely used for object recognition because it shows better performance than other local features under various conditions. As the name suggests, features do not change well when the object's scale changes or rotates.

도 2는 SIFT feature 연산 절차를 설명한다. 연산 절차는 크게 keypoint detection과 descriptor generation으로 나누어진다. 첫 번째 부분인 keypoint detection에서는 입력 이미지에서 주목할만한 특징을 갖는 포인트들을 찾고, 이를 keypoint로 삼는다. 두 번째 부분인 descriptor generation에서는 찾은 keypoint 각각에 대해, 그 주변 local image patch에 대한 descriptor를 생성한다. 이 descriptor는 각 keypoint의 local patch에 대한 gradient histogram으로 이루어진다.2 illustrates a SIFT feature calculation procedure. The computation procedure is largely divided into keypoint detection and descriptor generation. The first part, keypoint detection, finds points with noteworthy features in the input image and uses them as keypoints. The second part, descriptor generation, creates a descriptor for each local image patch that it finds for each keypoint it finds. This descriptor consists of a gradient histogram for the local patch of each keypoint.

Keypoint detection은 scale-space generation, local extrema detection, keypoint detection의 3개의 작은 연산 부분으로 이루어져 있으며, Descriptor generation은 orientation assignment와 descriptor generation의 2개의 작은 연산 부분으로 이루어져 있다. Keypoint detection consists of three small operations, scale-space generation, local extrema detection, and keypoint detection. Descriptor generation consists of two small operations, orientation assignment and descriptor generation.

이와 같이 수행되는 SIFT는 pixel-by-pixel 연산에 바탕을 두고 있기 때문에 영상의 크기가 커질수록 연산량도 따라서 증가한다. 게다가, 각 픽셀에 대한 연산량도 매우 크다. 이런 문제점들 때문에, SIFT 알고리즘을 최적화 하여 연산 속도를 높이는 연구가 이루어져 왔다. 또한, V. Bonato, E. Marques, and G. Constantinides,"A Parallel Hardware Architecture for Scale and Rotation Invariant Feature Detection," Circuits and Systems for Video Technology , IEEE Transactions on, vol. 18, no. 12, pp. 1703-1712, Dec 01, 2008.(이하, 'Bonato' 라 함)에 기술된 바와 같이 FPGA와 같은 하드웨어 가속 장치들에 SIFT 연산의 일부를 구현하여 연산 속도를 높이는 연구들도 이루어져 왔다. 그러나, Bonato에서도 하드웨어 및 메모리 사용량이 여전히 많은 문제가 있다. Since the SIFT performed in this way is based on pixel-by-pixel operation, the amount of computation increases as the size of the image increases. In addition, the amount of computation for each pixel is also very large. Because of these problems, research has been conducted to optimize the SIFT algorithm to speed up the computation. See also V. Bonato, E. Marques, and G. Constantinides, "A Parallel Hardware Architecture for Scale and Rotation Invariant Feature Detection," Circuits and Systems for Video Technology , IEEE Transactions on, vol. 18, no. 12, pp. As described in 1703-1712, Dec 01, 2008 (hereinafter referred to as 'Bonato'), studies have been made to speed up the computation by implementing some of the SIFT operations on hardware accelerators such as FPGAs. However, hardware and memory usage is still a problem in Bonato.

본 발명은 동영상이 프레임과 프레임 사이에 유사점이 매우 크기 때문에, 현재 프레임에서 생성된 descriptor들은 이전 프레임에서 생성된 descriptor와 매우 비슷하고, 특히, 배경과 같이 변하지 않는 부분에서 생성된 descriptor는 이전 프레임에서 생성된 descriptor와 거의 일치한다는 점을 이용하여, 고정된 위치에서 촬영된 동영상에서, 이전 프레임에서 생성된 descriptor를 재사용 함으로써, SIFT descriptor 생성 연산량을 대폭 줄이도록 하고 메모리를 줄이기 위한 것이다.In the present invention, since the similarity between the frame and the frame is very large, the descriptors generated in the current frame are very similar to the descriptors generated in the previous frame. By using the almost identical to the generated descriptors, by reusing the descriptors generated in the previous frame in the video photographed from a fixed position, it is possible to significantly reduce the amount of SIFT descriptor generation operation and reduce the memory.

상기 과제를 해결하기 위한 해결수단은 연속되는 복수의 프레임들로 형성되는 동영상에서 현재 프레임에서 생성된 디스클립터(descriptor)를 재사용함으로써 SIFT (Scale-Invariant Feature Transform)에서 처리되는 연산량을 줄일 수 있도록 하는 동영상 디스클립터 재활용 방법에 있어서: 상기 현재 프레임에서는 상기 SIFT에 의하여 키포인트(keypoint)들을 검출하고 각 키포인트들에 대해 디스클립터를 생산하는 단계; 다음의 프레임에서 상기 SIFT에 의하여 키포인트들을 생성하는 단계; 상기 다음의 프레임에서 생성된 키포인트들과 상기 현재 프레임의 키포인트들을 비교하여 상기 다음의 프레임에서 생성된 키포인트들이 기설정된 재사용조건을 만족하는 경우 상기 현재 프레임에서 생성된 디스클립터를 상기 다음의 프레임에 재사용하는 단계를 포함하고, 상기 기 설정된 재사용 조건은 1) 상기 다음 프레임에서 생성된 각각의 키포인트 위치와 같은 위치에 있는 키포인트가 상기 현재 프레임에 존재해야 하고, 2) 상기 다음 프레임과 상기 현재 프레임의 keypoint의 스케일(scale)이 같아야 하는 것이다.The solution for solving the above problems is to reuse the descriptor generated in the current frame in the video formed of a plurality of consecutive frames to reduce the amount of computation processed in the Scale-Invariant Feature Transform (SIFT) A method for recycling a video clipper, the method comprising: detecting keypoints by the SIFT in the current frame and producing a splitter for each keypoint; Generating keypoints by the SIFT in a next frame; Comparing keypoints generated in the next frame with keypoints in the current frame, if the keypoints generated in the next frame satisfy a preset reuse condition, the splitter generated in the current frame is assigned to the next frame. And reusing, wherein the preset reuse condition includes: 1) a keypoint at the same position as each keypoint position generated in the next frame must exist in the current frame; and 2) the next frame and the current frame. The keypoints must be the same scale.

또한 본 발명에서 상기 기설정된 재사용 조건은 1) 상기 다음 프레임에서 생성된 각각의 키포인트 위치와 같은 위치에 있는 키포인트가 상기 현재 프레임에 존재해야 하고, 2) 상기 다음 프레임과 상기 현재 프레임의 keypoint의 스케일(scale)이 같아야 하는 것이 바람직하다. In addition, in the present invention, the predetermined reuse condition is that 1) a keypoint at the same position as each keypoint position generated in the next frame must exist in the current frame, and 2) the scale of the next frame and the keypoint of the current frame. It is desirable that the scales be the same.

또한 본 발명에서 상기 기설정된 재사용 조건은 3) 움직이는 물체의 근처에 있는 키포인트인 경우에는 현재 디스클립터를 재사용하지 않는 조건을 더 포함하는 것이 바람직하다.In addition, in the present invention, the predetermined reuse condition may further include 3) a condition of not reusing the current diskette in the case of a keypoint near the moving object.

또한 본 발명에서 상기 현재 프레임의 키포인트들 각각에 '나이(age)'를 부여하고, 상기 키포인트들의 위치와 디스클립터를 기억하고, 연속되는 프레임수로 결정되는 수명이 다하기 전까지 후속되는 프레임들에 상기 현재 프레임과 동일한 위치에 키포인트들이 존재하면 상기 후속되는 프레임들에 상기 현재 프레임과 동일한 위치의 키포인트들의 디스클립터를 재사용하고, 상기 키포인트가 재사용되면 재사용된 키포인트를 초기화하는 것이 바람직하다.In addition, in the present invention, each of the keypoints of the current frame is assigned an 'age', the position and the clipper of the keypoints are stored, and subsequent frames until the end of a lifetime determined by the number of consecutive frames. If keypoints are present at the same position as the current frame at, it is preferable to reuse a discarder of keypoints at the same position as the current frame in the subsequent frames and to initialize the reused keypoint if the keypoint is reused.

또한 본 발명에서 상기 수명의 연소되는 프레임수는 3인 것이 바람직하다.In addition, in the present invention, the number of burned frames of the lifetime is preferably three.

상기 과제와 해결수단을 갖는 본 발명에 따르면, 동영상의 프레임들에서 배경을 포함된 부분에 대하여 특정 조건하에서 디스크립터를 재사용하도록 함으로써 STIF 알고리즘의 연산량을 대폭줄이도록 하는 효과를 갖으며, 이를 나이를 부여하고 일정 수명하에서 운영하도록 함으로써 개선된 효과를 얻을 수 있다.According to the present invention having the above-mentioned problems and solutions, it has the effect of significantly reducing the amount of computation of the STIF algorithm by reusing the descriptor under a specific condition for the part including the background in the frames of the video, giving age The improved effect can be obtained by operating in a certain life.

도 1은 일반적인 물체의 인식의 처리절차를 나타내는 순서도이다.
도 2는 일반적인 SIFT의 연산 과정을 설명하는 순서도이다.
도 3은 본 발명에서 프레임 간의 keypoint 위치 관계를 설명하는 그림이다.
도 4는 본 발명에서 Descriptor 재사용 연산 절차의 순서도이다.
도 5는 본 발명에서 Descriptor 오류가 큰 keypoint의 위치를 나타내는 영상이다.
도 6은 본 발명에서 겹쳐진 local patch를 설명하는 것으로 : (a) 배경 patch가 움직이는 물체에 의해 변경된 경우; (b) 배경 patch가 움직이는 물체에 의해 변경되지 않은 경우를 도시한다.
도 7은 본 발명에서 Descriptor 재사용 결과를 나타낸 것이다.
도 8a, b, c, d는 본 발명에서 움직이는 keypoint와의 거리에 따른 Descriptor distance를나타내는 그래프이다.
도 9a는 본 발명에서 움직이는 keypoint와의 거리에 따른 오류 축적율 및 재사용율을 [weather]영상에 적용한 그래프이다.
도 9b는 본 발명에서 움직이는 keypoint와의 거리에 따른 오류 축적율 및 재사용율을 [Paris]영상에 적용한 그래프이다.
도 10 a는 본 발명에서 Descriptor 수명에 따른 재사용율을 설명하는 그래프이다. 도 10b는 본 발명에서 Descriptor 재사용율에 따른 descriptor 오류를 설명하는 그래프이다.
도 10는 본 발명에서 Descriptor 재사용율에 따른 descriptor mismatch를 설명하는 그래프이다.
도 11a는 본 발명에서 예시적으로 사용되는 'akiyo' 영상이다.
도 11b는 본 발명에서 예시적으로 사용되는 'container' 영상이다.
도 11c는 본 발명에서 예시적으로 사용되는 'deadline' 영상이다.
도 11d는 본 발명에서 예시적으로 사용되는 'paris' 영상이다.
도 11는 본 발명에서 예시적으로 사용되는 'wash dc'영상이다.
1 is a flowchart illustrating a processing procedure of recognizing a general object.
2 is a flowchart illustrating a calculation process of a general SIFT.
3 is a view for explaining the keypoint positional relationship between frames in the present invention.
4 is a flowchart of a Descriptor reuse operation procedure in the present invention.
5 is an image showing the location of a keypoint having a large Descriptor error in the present invention.
Figure 6 illustrates the overlapping local patch in the present invention: (a) when the background patch is changed by a moving object; (b) shows a case where the background patch is not changed by a moving object.
Figure 7 shows the Descriptor reuse results in the present invention.
8a, b, c, d is a graph showing the Descriptor distance according to the distance to the moving keypoint in the present invention.
9A is a graph in which an error accumulation rate and a reuse rate according to a distance from a moving keypoint are applied to a weather image.
9B is a graph in which the error accumulation rate and the reuse rate according to the distance from the moving keypoint in the present invention are applied to the [Paris] image.
Figure 10a is a graph illustrating the reuse rate according to the Descriptor life in the present invention. 10B is a graph illustrating a descriptor error according to the reuse rate of the descriptor in the present invention.
FIG. 10 is a graph illustrating descriptor mismatch according to a reuse rate of a descriptor in the present invention. FIG.
11A is an 'akiyo' image used as an example in the present invention.
11B is a 'container' image used by way of example in the present invention.
11C is a 'deadline' image used by way of example in the present invention.
11D is a 'paris' image used as an example in the present invention.
11 is a 'wash dc' image used by way of example in the present invention.

동영상은 프레임과 프레임 사이에 유사점이 매우 크기 때문에(temporal correlation이 크다), 현재 프레임에서 생성된 descriptor들은 이전 프레임에서 생성된 descriptor와 매우 비슷하다. 특히, 배경과 같이 변하지 않는 부분에서 생성된 descriptor는 이전 프레임에서 생성된 descriptor와 거의 일치한다. 본 발명에서는 이 점을 이용하여, 고정된 위치에서 촬영된 동영상에서, 이전 프레임에서 생성된 descriptor를 재사용 함으로써, SIFT descriptor 생성 연산량을 줄일 수 있다.Since video has a lot of similarities between frames (high temporal correlation), the descriptors generated in the current frame are very similar to the descriptors generated in the previous frame. In particular, the descriptor created in the part that does not change like the background is almost identical to the descriptor generated in the previous frame. According to the present invention, the amount of SIFT descriptor generation can be reduced by reusing a descriptor generated in a previous frame in a video photographed at a fixed position.

1.11.1 프레임 간의 Interframe keypointkeypoint 위치 관계 Positional relationship

고정된 위치에서 촬영된 동영상에서는 배경 부분은 거의 같고, 움직이는 물체와 그 주변 부분이 변한다. 도 3은 whether 동영상의 예를 보여주고 있다. 도 3 (a)는 첫 번째 프레임을 보여주고, 도 3 (b)는 두 번째 프레임을 보여주고 있다. 각 프레임에서 원으로 표시한 부분이 검출된 keypoint를 나타낸다. 도 3 (c)에는 두 번째 프레임에 대해, 이전 프레임과 같은 위치에서 검출된 keypoint는 파란색 원으로, 다른 위치에서 검출된 keypoint는 빨간색 원으로 표시하였다. 도 3 (d)는 다른 위치에서 검출된 keypoint들만을 빨간색 원으로 표시하였다. 이 동영상에서는 배경은 변하지 않고, 사람만 움직이는데, 도 3 (d)에 표시된 점들이 움직이는 물체인 사람의 실루엣을 보여준다.In a movie shot at a fixed position, the background is almost the same, and the moving object and its surroundings change. 3 shows an example of the whether video. FIG. 3 (a) shows the first frame, and FIG. 3 (b) shows the second frame. The circled portion of each frame represents the detected keypoint. In FIG. 3 (c), for the second frame, keypoints detected at the same position as the previous frame are indicated by blue circles, and keypoints detected at other positions are indicated by red circles. 3 (d) shows only the keypoints detected at different positions by red circles. In this video, the background does not change, only the person moves, and the points shown in FIG. 3 (d) show the silhouette of the person, which is a moving object.

본 발명에서는 이런 성질을 이용하여 descriptor를 재사용하는 방법을 제안한다.
The present invention proposes a method of reusing a descriptor using such a property.

1.21.2 DescriptorDescriptor 재사용 알고리즘 Reuse algorithm

도 4는 본 발명에서 제안되는 Descriptor 재사용 알고리즘을 설명한다. 첫 번째 프레임에서는 원래의 SIFT 알고리즘 대로 keypoint를 검출하고 각 keypoint에 대해 descriptor를 생성한다. 이어지는 프레임에서는, keypoint는 원래의 SIFT 알고리즘 대로 생성한다. 생성된 각 keypoint에 대해, 이전 프레임에 같은 위치, 같은 scale의 keypoint가 존재하는지 등의 재사용 조건을 확인한다(재사용 조건에 대해서는 이어지는 세부 항목들에서 설명한다). 재사용 조건을 만족한다면 descriptor를 재사용하고, 그렇지 않다면 원래의 SIFT 알고리즘 대로 descriptor를 생성한다. 최종 keypoint와 descriptor는 다음 프레임에 사용하기 위해 저장한다.4 illustrates a descriptor reuse algorithm proposed in the present invention. In the first frame, keypoints are detected using the original SIFT algorithm and a descriptor is created for each keypoint. In the following frame, keypoints are generated according to the original SIFT algorithm. For each keypoint created, check the reuse conditions, such as whether keypoints of the same scale, same scale exist in the previous frame (reuse conditions are described in the following subsections). If the reuse condition is satisfied, the descriptor is reused. Otherwise, the descriptor is created according to the original SIFT algorithm. The final keypoint and descriptor are stored for use in the next frame.

1.31.3 SIFTSIFT descriptordescriptor 재사용 조건 Reuse condition

SIFT 연산량을 줄이기 위해, 제안하는 방법에서는 각각의 keypoint에 대해, 그것의 descriptor를 새로 생성할 것인지, 이전 프레임에서 생성된 descriptor를 재사용 할 것인지를 결정한다.In order to reduce the amount of SIFT computation, the proposed method decides whether to create a new descriptor or reuse a descriptor created in a previous frame for each keypoint.

Descriptor를 재사용 하려면, 이전 프레임과 같은 위치에 생성된 현재 프레임의 keypoint에 대해, 그것의 descriptor와 이전 프레임에서 생성된 descriptor가 일치하거나 매우 비슷해야 한다. 본 발명에서는 descriptor 재사용 조건들을 아래에 제시한다.To reuse the Descriptor, for the keypoint of the current frame created in the same location as the previous frame, its descriptor and the descriptor created in the previous frame must match or be very similar. In the present invention, descriptor reuse conditions are presented below.

조건 1: 현재 프레임에서 생성된 각각의 Keypoint 위치와 같은 위치에 있는 keypoint가 이전 프레임에 존재해야 한다. 존재하면 같은 위치에 있는 keypoint의 descriptor를 재사용하며, 그렇지 않으면, 재사용하지 않고 descriptor를 새로 생성한다. Condition 1: A keypoint must exist in the previous frame at the same position as each Keypoint position created in the current frame. If present, the descriptor of the keypoint in the same location is reused. Otherwise, the descriptor is created without reuse.

조건 2: 현재 프레임과 같은 위치에, 이전 프레임의 keypoint가 존재하더라도, 이전 프레임의 keypoint와 현재 프레임의 keypoint의 scale이 다르면 descriptor를 재사용하지 않고 새로 생성한다. Condition 2: If the keypoint of the previous frame is different at the same position as the current frame, if the scale of the keypoint of the previous frame and the keypoint of the current frame are different, a new descriptor is created without reuse.

조건 3: 움직이는 물체의 근처에 있는 keypoint의 경우에는, 조건 1, 2에 의해 재사용 가능하다고 판정이 되더라도 descriptor를 재사용하지 않는다. Condition 3: For keypoints in the vicinity of moving objects, the descriptor should not be reused even if it is determined to be reusable under conditions 1 and 2.

배경 부분의 경우에, 이어지는 프레임 간의 차이가 매우 적다. 따라서, 이어지는 프레임 간에, keypoint 위치와 그것의 descriptor의 차이는 매우 적고, descriptor를 재사용에 의한 오류도 매우 적다. 반면, 움직이는 물체에서 생성된 keypoint의 경우에는, 프레임이 바뀌면 그것의 위치도 바뀐다. 따라서, descriptor는 재사용되지 않고 새로 생성되므로, 오류는 전혀 없다.In the case of the background part, the difference between the following frames is very small. Therefore, the difference between the keypoint position and its descriptor between subsequent frames is very small, and there is very little error by reusing the descriptor. On the other hand, for keypoints created from moving objects, their position changes as the frame changes. Therefore, the descriptor is not reused and newly created, so there is no error at all.

도 5에서 빨간 원으로 표시된 것은 이전 프레임과 다른 위치에 검출된 keypoint이며, 파란 원으로 표시된 것은 이전 프레임과 같은 위치에 검출된 keypoint이다. 하얀색 원으로 표시된 것은, 재사용한 descriptor와 원래의 SIFT 알고리즘으로 만든 descriptor의 차이가 큰 keypoint이다. 도 5에 의하면, descriptor 재사용으로 인한 오류는 움직이는 물체 주변에서 주로 발생한다. 이것은 keypoint가 배경에 위치하고 이전 프레임에서 같은 위치에 있는 keypoint가 존재한다 하더라도 마찬가지이다. 이것은 움직이는 물체의 근처에 있는 keypoint의 경우에는 그것의 local patch가 움직이는 물체에 의해 변경됐을 가능성이 높기 때문이다. 따라서, 조건 1, 2에 따라 재사용 가능하다고 판정이 되더라도, 이런 경우에 descriptor 재사용을 하는 것은 상당한 오류를 불러일으킬 수 있다.In FIG. 5, the red circle indicates a keypoint detected at a different position from the previous frame, and the blue circle indicates a keypoint detected at the same position as the previous frame. The white circle is a keypoint with a large difference between the reused descriptor and the descriptor created by the original SIFT algorithm. According to FIG. 5, an error due to descriptor reuse mainly occurs around a moving object. This is true even if the keypoint is in the background and there is a keypoint at the same position in the previous frame. This is because in the case of a keypoint near a moving object, its local patch is likely changed by the moving object. Therefore, even if it is determined to be reusable according to the conditions 1 and 2, reusing the descriptor in such a case may cause considerable error.

연산량의 큰 증가 없이 움직이는 물체를 파악하기 위하여, 본 발명에서는 위치가 변하는 keypoint는 움직이는 물체를 나타낸다고 가정한다. 움직이는 물체를 파악하고 나면, 이것이 주변에 있는 keypoint의 local patch에 변화를 주었는지를 테스트 해야 한다. 이 테스트를 위해서, 움직이는 물체의 경계를 알아야 한다. G. Bradski, and A. Kaehler, Learning OpenCV: O'Reilly Media, 2008.에 기재된 바와 같이 Object segmentation은 물체의 경계를 나누는 알고리즘이다. Object segmentation을 통해 물체의 경계를 파악했다고 가정하면, keypoint의 local patch가 주변의 움직이는 물체와 겹쳐졌는지를 확인할 수 있다. 만약 keypoint의 local patch가 움직이는 물체에 의해 겹쳐지지 않았다면, 이전 프레임에서 생성된 descriptor를 재사용하는 것이 가능하다.In order to grasp the moving object without a great increase in the amount of calculation, the present invention assumes that the keypoint whose position is changed represents the moving object. Once you have identified the moving object, you should test whether it has changed the local patch of the surrounding keypoint. For this test, we need to know the boundaries of the moving object. G. Bradski, and A. Kaehler, Learning As described in OpenCV : O'Reilly Media, 2008. Object segmentation is an algorithm that divides the boundary of an object. Assuming object boundaries are identified through object segmentation, we can verify that the local patch of the keypoint overlaps with the surrounding moving objects. If the local patch of the keypoint is not overlapped by a moving object, it is possible to reuse the descriptor created in the previous frame.

도 6은 위에서 설명한 descriptor 재사용 조건을 설명하고 있다. 배경에 있는 keypoint가 'x'로 표시되어 있고, 움직이는 물체 위에 있는 keypoint가 'y'로 표시되어 있다. 'x'는 이전 프레임과 같은 위치에서 검출되었다고 가정하고, 'y'는 이전 프레임과 같은 위치에 있지 않다고 가정한다. 또한 그림 4.4 (b)에서는, object segmentation 결과를 사용 가능하다고 가정한다. 'x'의 local patch는 keypoint 주변의 사각형으로 표시되어 있다. 도 6의 (a)에서, 'x'의 local patch는 움직이는 물체와 겹쳐있기 때문에, 이전 프레임의 descriptor를 재사용 할 수 없고, 원래의 SIFT 알고리즘에 의해 descriptor를 새로 생성해야 한다. 반면, 도 6의 (b)에서, 'x '의 local patch는 움직이는 물체와 겹쳐있지 않기 때문에, 이전 프레임에서 생성된 descriptor를 재사용하는 것이 가능하다.6 illustrates the descriptor reuse condition described above. The keypoint in the background is marked with an 'x' and the keypoint on the moving object is marked with a 'y'. It is assumed that 'x' is detected at the same position as the previous frame, and 'y' is not assumed to be at the same position as the previous frame. Figure 4.4 (b) also assumes that the object segmentation results are available. The local patch of 'x' is indicated by the rectangle around the keypoint. In FIG. 6 (a), since the local patch of 'x' overlaps with the moving object, the descriptor of the previous frame cannot be reused, and the descriptor must be newly generated by the original SIFT algorithm. On the other hand, in FIG. 6B, since the local patch of 'x' does not overlap with the moving object, it is possible to reuse the descriptor generated in the previous frame.

도 7은 object segmentation을 사용한 실제의 descriptor 재사용 결과를 보여주고 있다. 도 7 (a)는 'weather◎영상의 첫 번째 프레임에서 추출된 keypoint를 파란색 원으로 표시하고 있다. 도 7 (b)는 두 번째 프레임을 L. Vincent, and P. Soille, ◎atersheds in digital spaces: an efficient algorithm based on immersion simulations,◎Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 13, no. 6, pp. 583-598, 1991.과 J.-W. Jang, and H.-J. Lee, ◎lock-Based Predictive Watershed Transform for Parallel Video Segmentation,Journal of Semiconductor Technology and Science (Submitted), 2011.에 기재된 watershed 알고리즘을 이용하여 object segmentation한 결과를 보여주고 있다. 원본 이미지 위에 각 segment를 임의의 색으로 입혀놓았다. 도 7의 (c)는 descriptor 겹침 테스트의 일부분을 보여주고 있다. 녹색 사각형으로 표시된 것이 움직이는 오브젝트 위에서 추출된 keypoint의 local patch이다. 상단에 붉은색 박스로 표시된 패치는 배경에서 추출된 패치로 그것의 상당부분이 움직이는 오브젝트와 겹친 것을 알 수 있다. 따라서 이 배경 패치는 재사용하지 않는다. 반면, 파란색 박스로 표시된 패치는 배경에서 추출된 패치로 아래쪽에 표시된 녹색 박스와 겹치지만, 움직이는 오브젝트와는 겹쳐지지 않은 것을 알 수 있다. 따라서 이 배경 패치는 재사용한다. 도 7 (d)는 두 번째 프레임의 descriptor 재사용 결과를 보여준다. 파란색 원으로 표시된 것은 descriptor를 재사용한 keypoint를 붉은색 원으로 표시한 것은 재사용 하지 않은 keypoint를 나타낸다.7 shows the actual descriptor reuse result using object segmentation. FIG. 7 (a) shows keypoints extracted from the first frame of the weather ◎ image as blue circles. 7 (b) shows a second frame in L. Vincent, and P. Soille,? Atersheds in digital spaces: an efficient algorithm based on immersion simulations,? Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 13, no. 6, pp. 583-598, 1991. and J.-W. Jang, and H.-J. Lee, ◎ lock-Based Predictive Watershed Transform for Parallel Video Segmentation, Journal of Semiconductor Technology and Science (Submitted) , 2011. Each segment is overlaid on the original image with a random color. 7 (c) shows a part of the descriptor overlap test. Shown by the green rectangle is the local patch of the keypoint extracted on the moving object. The patch marked with a red box at the top is a patch extracted from the background and you can see that much of it overlaps the moving object. Therefore, this background patch is not reused. On the other hand, the patch marked with a blue box is a patch extracted from the background and overlaps the green box shown below but does not overlap with the moving object. Therefore, this background patch is reused. 7 (d) shows a result of reusing a descriptor of a second frame. Blue circles indicate keypoints reused by descriptors and red circles indicate keypoints not reused.

Object segmentation은 영상 인식 분야에서 중요한 연산 중에 하나로, 고사양의 영상처리 프로세서에 구현되어 있다. 이 경우에, 재사용 조건 3을 판별하기 위해 object segmentation을 사용하는 것은 하드웨어 비용을 크게 증가시키지 않는다. 반면에, object segmentation이 구현되어 있지 않은 환경에서는 재사용 조건 3을 판별하기 위해 많은 연산량이 요구 된다. 따라서 재사용 조건 3의 판별을 위한 간소화된 테스트 방법을 본 발명에서 제안한다. 본 발명에서는 object segmentation을 이용하지 않고 재사용 조건 3을 판단하는데, 자세한 방법은 이후에 이어지는 세부 항목에서 설명한다.Object segmentation is one of the important operations in the field of image recognition, and is implemented in high-end image processing processors. In this case, using object segmentation to determine reuse condition 3 does not significantly increase hardware cost. On the other hand, in an environment where object segmentation is not implemented, a large amount of computation is required to determine reuse condition 3. Therefore, the present invention proposes a simplified test method for the determination of reuse condition 3. In the present invention, the reuse condition 3 is determined without using object segmentation. A detailed method will be described later in detail.

4.간소화된 4.Simplified overlapoverlap 테스트 방법 Test method

Object segmentation을 사용 할 수 없는 환경에서는, 움직이는 물체의 경계를 파악할 수 없기 때문에, 물체에 경계에 의해서는 주변에 있는 keypoint의 local patch가 변했는지를 판단할 수 없다. 이번 항목에서는 object segmentation 대신에 사용 가능한 간소화된 overlap 테스트 방법을 제안한다.In an environment where object segmentation is not available, the boundary of a moving object cannot be determined, so the boundary cannot determine whether the local patch of the surrounding keypoint has changed. In this section, we propose a simplified overlap test method that can be used instead of object segmentation.

도 8은 weather 영상의 두 번째 프레임에 대해, 재사용 조건 1, 2만 사용하여 descriptor를 재사용 했을 때의 descriptor 오류를 보여준다. 도 8a의 x축은 가장 가까운 움직이는 keypoint (이전 프레임과 다른 위치 에 검출된 keypoint)와의 거리를, y축은 재사용한 descriptor와 원래의 SIFT 알고리즘을 통해 생성한 descriptor 사이의 Euclidean distance를 나타낸다. Descriptor는 정규화 되어 있기 때문에 descriptor 사이의 Euclidean distance는 최대 를 가질 수 있다. 도 8b는 도 8a의 범위를 좁혀서 확대한 것이다. 도 8에서 볼 수 있듯이 움직이는 keypoint와의 거리가 가까운 곳에 descriptor 오류를 많이 갖는 keypoint들이 몰려 있는 것을 알 수 있다.8 shows a descriptor error when a descriptor is reused using only reuse conditions 1 and 2 for the second frame of the weather image. The x-axis of FIG. 8a represents the distance from the nearest moving keypoint (the keypoint detected at a different position from the previous frame), and the y-axis represents the Euclidean distance between the reused descriptor and the descriptor generated by the original SIFT algorithm. Since the descriptor is normalized, Euclidean distance between descriptors can have a maximum. FIG. 8B is an enlargement by narrowing the range of FIG. 8A. As shown in FIG. 8, it can be seen that keypoints having a large number of descriptor errors are gathered near the moving keypoint.

도 8c는 x축을 따라, 움직이는 keypoint와의 거리가 가까운 것부터 먼 것까지 차례 대로 배치하여, descriptor 오류를 y축에 나타낸 것이다. 도 8d에서, 움직이는 keypoint와의 거리에 따른 descriptor 오류의 축적된 값을 실선으로 표시하였다. 이때 y축은 전체 오류에 대한 비율을 나타낸다. 또한, 움직이는 keypoint와의 거리가, x축에 표시된 값보다 큰 descriptor수의 비를 점선으로 표시하고 있다.8C shows descriptor errors on the y-axis along the x-axis, arranged sequentially from the closest to the farthest distance from the moving keypoint. In FIG. 8D, the accumulated value of the descriptor error according to the distance from the moving keypoint is indicated by a solid line. In this case, the y-axis represents the ratio of the overall error. In addition, the dotted line indicates the ratio of the number of descriptors whose distance from the moving keypoint is larger than the value indicated on the x-axis.

도 8c와 도 8d는, 전체 descriptor 오류 중의 대부분이 움직이는 keypoint와의 가까운 곳에 몰려 있다는 것을 더 직관적으로 보여준다.8C and 8D show more intuitively that most of the overall descriptor errors are concentrated close to the moving keypoint.

도 9는 4개의 동영상(도 3의 weather, 도 11a의 paris, 도 11b의 deadline, 도 11의 container)에 대해, 움직이는 keypoint와의 거리에 따른 descriptor 오류의 축적된 값을 실선으로 표시하였다. 이때 y축은 전체 오류에 대한 비율을 나타낸다. 또한, 움직이는 keypoint와의 거리가, x축에 표시된 값보다 큰 descriptor 수의 비를 점선으로 표시하고 있다. 이것은 x축에 표시된 값보다 작게 움직이는 keypoint로부터의 거리를 갖는 keypoint들을 재사용하지 않았을 때, 전체 재사용 가능한 keypoint 중에서 재사용하는 descriptor 수의 비를 의미한다. 도 9a, b는 각각 weather, paris 동영상에 대한 결과이다.FIG. 9 shows accumulated values of descriptor errors according to distances to moving keypoints for four moving pictures (weather in FIG. 3, paris in FIG. 11A, deadline in FIG. 11B, and container in FIG. 11). In this case, the y-axis represents the ratio of the overall error. In addition, the ratio of the number of descriptors whose distance from the moving keypoint is larger than the value indicated on the x-axis is indicated by a dotted line. This is the ratio of the number of descriptors to be reused among the total reusable keypoints when keypoints with a distance from the keypoint moving smaller than the value indicated on the x-axis are not reused. 9A and 9B are results for the weather and paris videos, respectively.

이 결과에 따르면, descriptor 수의 비는 동영상마다 제 각각의 범위를 갖는데 반해, descriptor 오류의 축적된 값은, 움직이는 keypoint와의 거리가 10~20일 때, 0.6~0.8 정도로 비슷한 값을 갖는 것을 알 수 있다. 따라서, 이 범위의 값을 threshold로 정하면 거의 일정한 descriptor 오류율을 얻을 수 있다.According to this result, while the ratio of the descriptor number has its own range for each video, the accumulated value of the descriptor error has a similar value as 0.6-0.8 when the distance from the moving keypoint is 10-20. have. Therefore, if the value of this range is set as threshold, a nearly constant descriptor error rate can be obtained.

표 1에는 일정한 descriptor 오류율에 대한, 움직이는 keypoint와의 거리와 descriptor 재사용율을 동영상 별로 보여주고 있다. 본 발명에서는 이 표의 결과에 따라, 움직이는 keypoint와의 거리에 대한 threshold를 12로 정한다. 이 threshold보다 작은 거리에 위치한 keypoint의 descriptor는 재사용하지 않는다.Table 1 shows the distance of moving keypoint and descriptor reuse rate by video for a certain descriptor error rate. In the present invention, according to the result of this table, the threshold for the distance from the moving keypoint is set to 12. Descriptors for keypoints located less than this threshold are not reused.

Descriptor 오류 축적율에 따른 움직이는 keypoint와의 거리 및 descriptor 재사용율 Distance from moving keypoint and descriptor reuse rate according to Descriptor error accumulation rate Error acc.
Seq.
Error acc.
Seq.
70%70% 80%80%
DistanceDistance Reuse [%]Reuse [%] DistanceDistance Reuse [%]Reuse [%] weatherweather 11.8211.82 85.6385.63 12.7512.75 83.9883.98 parisparis 9.819.81 53.0453.04 11.7211.72 43.4843.48 deadlinedeadline 14.0114.01 38.5838.58 17.5317.53 24.9324.93 containercontainer 12.1712.17 25.2725.27 14.0314.03 16.1316.13

5.5. KeypointKeypoint 위치 비교 범위 확장 Extended location comparison

동영상의 특성에 따라, 배경이 거의 변하지 않아 보이는 경우에도, 같은 위치에 keypoint가 계속 검출되지 않는 경우가 있다. 이것은 동영상에 존재하는 잡음 등의 이유로 keypoint가 안정되게 검출되지 않는 경우이다. 이런 경우에는, 눈으로 보기에 배경이 변하지 않음에도 불구하고, descriptor 재사용율이 떨어져, 연산량 감소 효과를 충분히 보지 못한다. 그러나, 같은 위치의 keypoint가 연속된 프레임에 나타나지 않지만, 한 프레임 또는 두 프레임 건너서 같은 위치에 나오는 경우가 있다.Depending on the characteristics of the video, even if the background looks almost unchanged, the keypoint may not be continuously detected at the same position. This is a case where the keypoint cannot be stably detected due to noise or the like present in the video. In this case, even though the background does not change visually, the descriptor reuse rate is low, and the amount of computation reduction is not sufficiently seen. However, in some cases, keypoints at the same location do not appear in successive frames, but at the same location across one or two frames.

이런 경우에 대비하기 위해 본 발명에서는 descriptor 재사용을 확장하는 방법을 제안한다. Keypoint마다 '나이(age)'를 부여하고, 프레임수의 경과에 따라서 수명을 다하기 전까지는 keypoint가 재사용 되지 않더라도 그것의 위치와 descriptor를 기억한다. 수명을 다한 keypoint는 메모리에서 삭제한다. 현재 프레임에 대해 keypoint를 구하고 나면 저장된 모든 keypoint와 위치 비교를 하여 같은 위치에 있는 keypoint가 있으면 그것의 descriptor를 재사용한다. 저장된 keypoint의 descriptor가 재사용 되면, 그것의 나이를 초기화 한다.In order to prepare for such a case, the present invention proposes a method for extending descriptor reuse. Age is assigned to each keypoint, and its location and descriptor are remembered even if the keypoint is not reused until the end of its lifespan as the number of frames elapses. At the end of its lifetime, keypoints are deleted from memory. After a keypoint is obtained for the current frame, the position is compared against all stored keypoints, and if there is a keypoint at the same position, the descriptor is reused. When the descriptor of a stored keypoint is reused, its age is initialized.

도 10a는 수명에 따른 descriptor 재사용율을 보여주고 있으며, 도 10b는 재사용율에 따른 descriptor 오류를 보여주고 있다. 이때, descriptor 오류는 원래의 SIFT 알고리즘으로 만든 descriptor와의 Euclidean distance를 의미한다.FIG. 10A shows a descriptor reuse rate according to the lifetime, and FIG. 10B shows a descriptor error according to the reuse rate. At this time, the descriptor error means Euclidean distance from the descriptor created by the original SIFT algorithm.

Descriptor mismatch는 원래의 SIFT 알고리즘으로 생성한 descriptor set과 재사용을 이용하여 생성한 descriptor set을 Lowe에서 기재된 nearest neighbor search로 매칭시켰을 때, 같은 keypoint로 매칭이 안 되고 다른 keypoint로 매칭이 되는 것의 비를 의미한다. 도 10c는 재사용율에 따른 descriptor mismatch를 보여준다.Descriptor mismatch is the ratio of matching the same keypoint but not the same keypoint when matching the descriptor set generated by the original SIFT algorithm and the descriptor set created by reuse with the nearest neighbor search described in Lowe. do. 10c shows a descriptor mismatch according to the reuse rate.

도 10a에 따르면, 수명이 길수록 재사용율이 증가하나, 수명이 3프레임보다 커질 때, 재사용율의 증가가 둔화되는 것을 알 수 있다. 또한, 수명이 커지면 keypoint의 위치와 그것의 descriptor를 저장하는 메모리가 커지고, 도 10b와 도 10c에서 보는 것과 같이 descriptor 오류도 증가하는 것을 알 수 있다. 따라서 수명을 3프레임보다 크게 했을 때의 이득은 크지 않다는 것을 알 수 있다. 따라서 본 발명에서는 확장된 descriptor 재사용 방법을 위해, 수명을 3으로 제한한다.According to FIG. 10A, the reuse rate increases as the life is longer, but when the life is larger than 3 frames, the increase in reuse rate is slowed down. In addition, as the lifetime increases, the memory storing the location of the keypoint and its descriptor increases, and as shown in FIGS. 10B and 10C, the descriptor error also increases. Therefore, it can be seen that the gain when the lifetime is larger than 3 frames is not large. Therefore, in the present invention, for the extended descriptor reuse method, the lifetime is limited to three.

Claims (5)

연속되는 복수의 프레임들로 형성되는 동영상에서 현재 프레임에서 생성된 디스클립터(descriptor)를 재사용함으로써 SIFT (Scale-Invariant Feature Transform)에서 처리되는 연산량을 줄일 수 있도록 하는 동영상 디스클립터 재활용 방법에 있어서:
상기 현재 프레임에서는 상기 SIFT에 의하여 키포인트(keypoint)들을 검출하고 각 키포인트들에 대해 디스클립터를 생산하는 단계;
다음의 프레임에서 상기 SIFT에 의하여 키포인트들을 생성하는 단계;
상기 다음의 프레임에서 생성된 키포인트들과 상기 현재 프레임의 키포인트들을 비교하여 상기 다음의 프레임에서 생성된 키포인트들이 기설정된 재사용조건을 만족하는 경우 상기 현재 프레임에서 생성된 디스클립터를 상기 다음의 프레임에 재사용하는 단계를 포함하고,
상기 기 설정된 재사용 조건은 1) 상기 다음 프레임에서 생성된 각각의 키포인트 위치와 같은 위치에 있는 키포인트가 상기 현재 프레임에 존재해야 하고, 2) 상기 다음 프레임과 상기 현재 프레임의 keypoint의 스케일(scale)이 같아야 하는 것을 특징으로 하는 동영상 디스클립터 재활용 방법.
In the video clipper recycling method to reduce the amount of computation processed in the Scale-Invariant Feature Transform (SIFT) by reusing the descriptor generated in the current frame in a video formed of a plurality of consecutive frames :
Detecting keypoints by the SIFT in the current frame and producing a discarder for each keypoint;
Generating keypoints by the SIFT in a next frame;
Comparing keypoints generated in the next frame with keypoints in the current frame, if the keypoints generated in the next frame satisfy a preset reuse condition, the splitter generated in the current frame is assigned to the next frame. Reusing,
The preset reuse condition is that 1) a keypoint at the same position as each keypoint position generated in the next frame must exist in the current frame, and 2) the scale of the keyframe of the next frame and the current frame is The method of recycling a movie diskette, characterized in that it must be the same.
삭제delete 청구항1에서, 상기 기설정된 재사용 조건은 3) 움직이는 물체의 근처에 있는 키포인트인 경우에는 현재 디스클립터를 재사용하지 않는 조건을 더 포함하는 것을 특징으로 하는 동영상 디스클립터 재활용 방법.The method of claim 1, wherein the preset reuse condition further comprises: 3) a condition of not reusing the current decoder when the keypoint is located near the moving object. 청구항1에서, 상기 현재 프레임의 키포인트들 각각에 '나이(age)'를 부여하고, 상기 키포인트들의 위치와 디스클립터를 기억하고, 연속되는 프레임수로 결정되는 수명이 다하기 전까지 후속되는 프레임들에 상기 현재 프레임과 동일한 위치에 키포인트들이 존재하면 상기 후속되는 프레임들에 상기 현재 프레임과 동일한 위치의 키포인트들의 디스클립터를 재사용하고, 상기 키포인트가 재사용되면 재사용된 키포인트를 초기화하는 것을 특징으로 하는 동영상 디스클립터 재활용 방법. The method according to claim 1, wherein each of the keypoints of the current frame is assigned an age, the position and the clipper of the keypoints are stored, and subsequent frames are reached until the end of a lifetime determined by the number of consecutive frames. A keypoint at the same position as the current frame in the second frame, reuses a diskette of keypoints at the same position as the current frame in the subsequent frames, and initializes the reused keypoint if the keypoint is reused. How to recycle the diskette. 청구항4에서, 상기 수명의 프레임수는 3인 것을 특징으로 하는 동영상 디스클립터 재활용 방법. 5. The method of claim 4, wherein the frame life of the frame is three.
KR1020110125237A 2011-11-28 2011-11-28 reuse methode for descriptor of image KR101313644B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110125237A KR101313644B1 (en) 2011-11-28 2011-11-28 reuse methode for descriptor of image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110125237A KR101313644B1 (en) 2011-11-28 2011-11-28 reuse methode for descriptor of image

Publications (2)

Publication Number Publication Date
KR20130059102A KR20130059102A (en) 2013-06-05
KR101313644B1 true KR101313644B1 (en) 2013-10-14

Family

ID=48858127

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110125237A KR101313644B1 (en) 2011-11-28 2011-11-28 reuse methode for descriptor of image

Country Status (1)

Country Link
KR (1) KR101313644B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009225211A (en) * 2008-03-18 2009-10-01 Sony Corp Information processing apparatus and method, and program
KR20100126262A (en) * 2007-10-12 2010-12-01 도요타 모터 유럽 Methods and systems for processing of video data
JP2011053823A (en) * 2009-08-31 2011-03-17 Tokyo Institute Of Technology Featured value extraction device and method and position estimation device and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100126262A (en) * 2007-10-12 2010-12-01 도요타 모터 유럽 Methods and systems for processing of video data
JP2009225211A (en) * 2008-03-18 2009-10-01 Sony Corp Information processing apparatus and method, and program
JP2011053823A (en) * 2009-08-31 2011-03-17 Tokyo Institute Of Technology Featured value extraction device and method and position estimation device and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
권오설 외3, '칼라 불변 기반의 특징점을 이용한 영상 모자이킹', 대한전자공학회, 전자공학회논문지-SP 46(2), 2009.3, 89-98. *
권오설 외3, '칼라 불변 기반의 특징점을 이용한 영상 모자이킹', 대한전자공학회, 전자공학회논문지-SP 46(2), 2009.3, 89-98.*

Also Published As

Publication number Publication date
KR20130059102A (en) 2013-06-05

Similar Documents

Publication Publication Date Title
Mao et al. Voxel transformer for 3d object detection
Aldoma et al. Multimodal cue integration through hypotheses verification for rgb-d object recognition and 6dof pose estimation
US9202126B2 (en) Object detection apparatus and control method thereof, and storage medium
Suga et al. Object recognition and segmentation using SIFT and Graph Cuts
US9256802B2 (en) Object or shape information representation method
Lin et al. Efficient detection and tracking of moving objects in geo-coordinates
Sargent et al. Feature detector and descriptor for medical images
Xie et al. Fast detecting moving objects in moving background using ORB feature matching
KR101195978B1 (en) Method and apparatus of processing object included in video
JP2016171558A (en) Method and apparatus for generating superpixels for multi-view images
CN109785367B (en) Method and device for filtering foreign points in three-dimensional model tracking
KR101313644B1 (en) reuse methode for descriptor of image
US9646386B2 (en) Method and apparatus for generating temporally consistent superpixels
Cai et al. Shape-based image segmentation using normalized cuts
Safdarnejad et al. Robust Global Motion Compensation in Presence of Predominant Foreground.
Mentzer et al. Self-calibration of wide baseline stereo camera systems for automotive applications
US20060291726A1 (en) Object pattern detection method and its apparatus
Sala et al. Contour grouping and abstraction using simple part models
Tu et al. Robust vehicle tracking based on scale invariant feature transform
Nagahashi et al. Video segmentation using iterated graph cuts based on spatio-temporal volumes
Vantaram et al. An adaptive bayesian clustering and multivariate region merging based technique for efficient segmentation of color images
Tsai et al. Real-time upper body pose estimation from depth images
Samel et al. An Empirical Study on Copy-Move Forgery Detection Techniques in Images
Gaudillière et al. Region-Based Epipolar and Planar Geometry Estimation in Low─ Textured Environments
Hayashi et al. Fast and accurate template matching with silhouette masking

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170824

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180820

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190917

Year of fee payment: 7