KR20220018336A - Method of spectrum-space generation for image recognition - Google Patents

Method of spectrum-space generation for image recognition Download PDF

Info

Publication number
KR20220018336A
KR20220018336A KR1020200098752A KR20200098752A KR20220018336A KR 20220018336 A KR20220018336 A KR 20220018336A KR 1020200098752 A KR1020200098752 A KR 1020200098752A KR 20200098752 A KR20200098752 A KR 20200098752A KR 20220018336 A KR20220018336 A KR 20220018336A
Authority
KR
South Korea
Prior art keywords
image recognition
spectral
space pattern
image
frequency component
Prior art date
Application number
KR1020200098752A
Other languages
Korean (ko)
Other versions
KR102387437B1 (en
Inventor
김배훈
Original Assignee
주식회사 영국전자
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 영국전자 filed Critical 주식회사 영국전자
Priority to KR1020200098752A priority Critical patent/KR102387437B1/en
Publication of KR20220018336A publication Critical patent/KR20220018336A/en
Application granted granted Critical
Publication of KR102387437B1 publication Critical patent/KR102387437B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06K9/00523
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

According to the present invention, a method for generating a spectrum-space pattern for image recognition performed by an edge computer performing a series of processes including pre-processing for image recognition, feature extraction, feature expression, and image recognition comprises: a step of preparing an input image including space information and frequency information; a step of splitting the input image into a block unit; a step of extracting a frequency component from the block; a step of removing a high-frequency component by performing quantization into a certain constant; and a step of generating a spectrum-space pattern by connecting the same frequency component including a DC component to the same block in a block unit frequency component.

Description

영상인식을 위한 스펙트럼-공간 패턴생성 방법{Method of spectrum-space generation for image recognition}Method of spectrum-space generation for image recognition

본 발명은 영상인식을 위한 스펙트럼-공간 패턴생성 방법에 관한 것으로서, 더욱 상세하게는 에지 컴퓨터에서 일정한 크기로 분할한 공간영역을 주파수영역으로 변환하여 스펙트럼-공간 패턴을 생성하는 알고리즘에 관한 것이다. The present invention relates to a method for generating a spectral-spatial pattern for image recognition, and more particularly, to an algorithm for generating a spectral-spatial pattern by converting a spatial domain divided into a predetermined size by an edge computer into a frequency domain.

영상인식은 전처리, 특징추출, 특징표현, 특징분류 및 인식 등의 처리를 통해 수행된다. 이러한 일련의 과정에 해당하는 새로운 알고리즘을 제안하고, 이를 성능이 우수한 시스템으로 구현하는 것은 영상처리의 분야에서는 매우 중요한 연구주제이다.Image recognition is performed through processing such as preprocessing, feature extraction, feature expression, feature classification and recognition. Proposing a new algorithm corresponding to this series of processes and implementing it as a system with excellent performance is a very important research topic in the field of image processing.

그러나 최근 들어 딥러닝, 특히 CNN(Convolutional Neural Network) 등에 관한 연구가 활성화되면서 학습모델을 설계하고 학습을 위한 영상데이터를 확보하는 것이 중요한 연구주제가 되었다.However, as research on deep learning, in particular, CNN (Convolutional Neural Network), has been activated recently, designing a learning model and securing image data for learning has become an important research topic.

CNN의 학습모델은 다수의 레이어로 구성된다. 컨볼루션 레이어, 풀링 레이어, 활성화 함수 레이어, 풀리 커넥티드 레이어 등이 반복되는 구조로 설계된다. 이러한 레이어 중에서도 특징추출 및 학습과 관련된 가장 중요한 기능은 컨볼루션 레이어에서 수행된다. 특징추출을 목적으로 학습을 한다는 것은 컨볼루션 레이어에서 사용되는 다수의 필터에 할당되는 가중치(weight)를 조정하는 것이다.CNN's learning model consists of multiple layers. The convolutional layer, pooling layer, activation function layer, and fully connected layer are designed in a repeating structure. Among these layers, the most important functions related to feature extraction and learning are performed in the convolutional layer. Learning for the purpose of feature extraction is to adjust the weights assigned to multiple filters used in the convolutional layer.

학습을 위한 훈련데이터로 화소단위의 입력영상을 사용하는 방법이 일반적으로 적용되고 있다. 또한 컨볼루션 레이어에서 수행되는 컨볼루션 처리에서는 다수의 필터와 연산이 사용된다. 그러나 이러한 방법은 고성능의 컴퓨터 자원이 확보되었을 경우에만 가능하다는 문제점이 있다.A method of using an input image in pixel units as training data for learning is generally applied. In addition, a number of filters and operations are used in the convolution processing performed in the convolution layer. However, this method has a problem that it is possible only when high-performance computer resources are secured.

Y. LeCun, K. Kavukcuoglu, and C. Farabet, "Convolutional networks and applications in vision," International Symposium in Circuits and Systems(ISCAS), IEEE, 2010.Y. LeCun, K. Kavukcuoglu, and C. Farabet, “Convolutional networks and applications in vision,” International Symposium in Circuits and Systems (ISCAS), IEEE, 2010.

상기의 문제점을 해결하고자 본 발명은 고성능의 컴퓨터 자원이 확보되지 않은 스마트폰이나 CCTV 등 컴퓨터 자원이 강력하지 않은 에지컴퓨터 분야에 CNN을 적용하기 위한 스펙트럼-공간 패턴 생성 알고리즘을 제공하고자 한다.In order to solve the above problems, the present invention is to provide a spectrum-spatial pattern generation algorithm for applying CNN to the edge computer field where computer resources are not strong, such as smartphones or CCTVs, where high-performance computer resources are not secured.

상기의 해결하고자 하는 과제를 위한 본 발명에 따른 영상인식을 위한 스펙트럼-공간 패턴생성 방법은, 영상인식을 위한 전처리, 특징추출, 특징표현 및 영상인식을 포함하는 일련의 과정을 수행하는 에지컴퓨터에서, 공간정보와 주파수정보를 포함하는 입력영상을 준비하는 단계; 상기 입력영상을 블록 단위로 분할하는 단계; 상기 블록에서 주파수 성분을 추출하는 단계; 일정한 상수로 양자화를 수행하여 고주파 성분을 제거하는 단계; 블록 단위 주파수 성분에서 직류 성분을 포함한 동일한 주파수 성분을 동일한 블록으로 연결하여 스펙트럼-공간 패턴을 생성하는 단계를 포함하는 것을 특징으로 한다.The method for generating a spectral-space pattern for image recognition according to the present invention for the above-mentioned problem is an edge computer that performs a series of processes including pre-processing, feature extraction, feature expression and image recognition for image recognition. , preparing an input image including spatial information and frequency information; dividing the input image into blocks; extracting a frequency component from the block; removing a high-frequency component by performing quantization with a constant constant; and generating a spectral-space pattern by connecting the same frequency component including the DC component in the block unit frequency component to the same block.

상기 공간정보는 화소 단위의 밝기값이고, 주파수정보는 밝기값의 변화량인 것을 특징으로 한다.The spatial information is a brightness value in units of pixels, and the frequency information is a change amount of the brightness value.

상기 블록 단위는 가변적인 것을 특징으로 한다.The block unit is characterized in that it is variable.

상기 주파수 성분 추출은 DCT를 수행하여 추출한다.The frequency component is extracted by performing DCT.

상기 전처리 과정은 그레이스케일로 이진화한다.The preprocessing process is binarized in grayscale.

상기 스펙트럼-공간 패턴은 CNN 시스템에 적용된다.The spectral-space pattern is applied to the CNN system.

종래 고성능의 컴퓨터 자원이 확보되지 않은 경우에는 학습모델이 완성된 경우라도 처리시간의 증가 때문에 적용이 불가능하였으나, 본 발명에 따른 스펙트럼-공간 패턴생성 알고리즘은 컴퓨터 자원이 확보되지 않은 스마트폰이나 CCTV 등 컴퓨터 자원이 강력하지 않은 에지컴퓨터 분야에서도 CNN을 적용할 수 있다.Conventionally, when high-performance computer resources are not secured, even when the learning model is completed, it cannot be applied due to an increase in processing time. CNN can be applied even in the field of edge computers where computer resources are not powerful.

본 발명에 따른 스펙트럼-공간 패턴은 그 자체를 특징으로 영상인식에 직접적으로 적용하거나 또는 레이어 수가 축소된 딥러닝 시스템에 적용할 수 있다.The spectral-spatial pattern according to the present invention can be applied directly to image recognition as a feature of itself or applied to a deep learning system with a reduced number of layers.

도 1은 일반적인 영상인식 시스템의 블록도이다.
도 2는 일반적인 딥러닝 시스템의 블록도이다.
도 3은 본 발명에 따른 입력영상을 블록단위로 분할하는 실시예를 보여준다.
도 4는 본 발명에 따른 DFT와 양자화 단계를 보여준다.
도 5는 본 발명에 따른 스펙트럼 패턴과 스펙트럼-공간을 보여준다.
도 6은 본 발명에 따른 일실시예의 테스트 영상이다.
도 7은 본 발명에 따른 이진화 단계와 블록분할 단계의 실시예이다.
도 8은 본 발명에 따른 블록 스펙트럼과 양자화 단계 실시예이다.
도 9는 본 발명에 따른 민들레 영상의 스펙트럼-공간 패턴이다.
도 10은 본 발명에 따른 테스트 영상의 스펙트럼-공간 패턴이다.
1 is a block diagram of a general image recognition system.
2 is a block diagram of a general deep learning system.
3 shows an embodiment in which an input image is divided into blocks according to the present invention.
4 shows the DFT and quantization steps according to the present invention.
5 shows a spectral pattern and a spectral-space according to the invention.
6 is a test image of an embodiment according to the present invention.
7 is an embodiment of the binarization step and the block division step according to the present invention.
8 is an embodiment of a block spectrum and a quantization step according to the present invention.
9 is a spectral-space pattern of a dandelion image according to the present invention.
10 is a spectral-space pattern of a test image according to the present invention.

이하, 본 발명의 실시를 위한 구체적인 실시예와 도면을 참고하여 설명한다. 본 발명의 실시예는 하나의 발명을 설명하기 위한 것으로서 권리범위는 예시된 실시예에 한정되지 아니하고, 예시된 도면은 발명의 명확성을 위하여 핵심적인 내용만 확대 도시하고 부수적인 것을 생략하였으므로 도면에 한정하여 해석하여서는 아니 된다.Hereinafter, with reference to specific examples and drawings for the practice of the present invention will be described. The embodiment of the present invention is intended to explain one invention, and the scope of rights is not limited to the illustrated embodiment, and the illustrated drawings are limited to the drawings because only the essential content is enlarged and illustrated for clarity of the invention and incidental elements are omitted should not be interpreted as such.

본 발명은 일정한 크기로 분할한 영상의 공간영역을 주파수영역으로 변환하여 스펙트럼-공간 패턴을 생성하는 방법이다. 공간정보와 주파수정보가 동시에 포함되는 패턴이다. 주파수 영역으로 변환하는 연산에는 DCT(Discrete Cosine Transform)를 사용한다. 영상에 DCT를 적용하면 고주파성분보다는 저주파성분에 집중된다. 에지를 제외한 부분에서는 화소의 밝기값이 급격하게 변화지 않기 때문이다. The present invention is a method for generating a spectral-spatial pattern by converting a spatial domain of an image divided into a certain size into a frequency domain. It is a pattern in which spatial information and frequency information are simultaneously included. DCT (Discrete Cosine Transform) is used for the operation to transform into the frequency domain. When DCT is applied to an image, it is focused on low-frequency components rather than high-frequency components. This is because the brightness value of the pixel does not change abruptly in the portion except for the edge.

따라서 양자화 처리를 수행하면 저주파 성분에 비해 상대적으로 크기가 작은 고주파 성분을 제거할 수 있기 때문이다. 데이터가 감소하면 NPU의 메모리 접근시간을 줄일 수 있다는 장점이 있다. 또한 양자화의 강도를 조정하면 다양한 스펙트럼-공간패턴을 구성할 수 있기 때문에 CNN 영상인식의 분야에서 사용하는 학습데이터를 인위적으로 생성할 수도 있다.This is because, by performing the quantization process, a high frequency component having a relatively small size compared to a low frequency component can be removed. When data is reduced, there is an advantage that the memory access time of the NPU can be reduced. In addition, by adjusting the strength of quantization, various spectral-spatial patterns can be configured, so it is also possible to artificially generate training data used in the field of CNN image recognition.

도 1은 일반적인 영상인식 시스템의 블록도이다. 전처리, 특징추출, 특징표현, 영상인식 등으로 구성되는 일련의 과정을 시스템으로 구현하는 방법이다. 그러나 CNN 등의 딥러닝 분야에서는 도 2에 나타낸 바와 같이 입출력을 제외한 부분을 학습모델을 설계하는 것이다.1 is a block diagram of a general image recognition system. It is a method to implement a series of processes consisting of preprocessing, feature extraction, feature expression, and image recognition as a system. However, in the deep learning field such as CNN, as shown in FIG. 2, the learning model is designed in a part excluding input/output.

도 2에서 학습모델은 컨볼루션(Convolution), 활성화함수(ReLU), 풀링(Pooling), 풀리 커넥티드(Fully-connected) 레이어로 구성되는 시스템이다. 각각의 컨볼루션 레이어에서는 3x3, 5x5 필터 등이 다수 사용된다. 필터의 수도 다수 사용되지만 필터 각각에서의 곱셈과 덧셈의 연산도 다수이다. 따라서 고성능의 컴퓨터 자원이 확보되지 않은 경우에는 학습모델이 완성된 경우라도 처리시간의 증가 때문에 적용이 불가능하다.In FIG. 2, the learning model is a system consisting of a convolution, an activation function (ReLU), a pooling, and a fully-connected layer. In each convolutional layer, a number of 3x3 and 5x5 filters are used. Although a large number of filters are used, the multiplication and addition operations in each filter are also large. Therefore, if high-performance computer resources are not secured, it cannot be applied because of the increase in processing time even when the learning model is completed.

따라서 본 발명에서는 학습모델의 훈련데이터로 사용되는 영상데이터를 공간-주파수 특징이 포함되는 스펙트럼-공간 패턴으로 변환하는 알고리즘을 제안한다. 생성된 스펙트럼-공간 패턴은 그 자체를 특징으로 영상인식에 직접적으로 적용하거나 또는 레이어 수가 축소된 딥러닝 시스템에 적용할 수 있다.Therefore, the present invention proposes an algorithm for converting image data used as training data of a learning model into a spectral-spatial pattern including spatial-frequency features. The generated spectral-space pattern can be directly applied to image recognition as a feature or applied to a deep learning system with a reduced number of layers.

영상인식 분야에서 특징추출을 목적으로 수행되는 필터링 연산은 컨볼루션 연산이다. 컨볼루션 연산은 공간영역에서의 처리임에도 불구하고 필터의 가중치를 조정하여 저역통과, 고역통과, 에지검출 필터 등을 구현할 수 있다. 이러한 필터를 구현할 수 있다는 것은 주파수영역에서의 처리를 포함하고 있다는 의미이다. 또한 컨볼루션 처리는 필터의 이동연산이므로 인간이 빠르게 부분 부분을 훑어보는 특성과 유사한 처리라는 특징이 있다.A filtering operation performed for the purpose of feature extraction in the image recognition field is a convolution operation. Although the convolution operation is processing in the spatial domain, low-pass, high-pass, edge detection filters, etc. can be implemented by adjusting the weight of the filter. Being able to implement such a filter means that it includes processing in the frequency domain. In addition, since convolution processing is a movement operation of the filter, it has the characteristic of processing similar to the characteristic of a human quickly scanning a part.

현재 학습과정을 거치지 않고 알고리즘을 기반으로 특징을 추출하는 기존의 방식보다는 학습모델을 사용하는 딥러닝 방식의 성능이 탁월한 것으로 평가받고 있다. 딥러닝 방식에서 성능이 우수하다는 것은 컨볼루션 필터의 가중치를 다양한 입력데이터를 기반으로 학습과정을 통해 결정하기 때문이다. 또한 딥러닝에서 사용되는 가중치는 간단한 정수데이터가 아닌 소수점 이하 다수의 자리가 포함되는 실수형 데이터(float, double)가 사용된다. 그리고 하나의 컨볼루션 레이어에는 수십여 개의 필터가 사용된다.Currently, the deep learning method using a learning model is evaluated to have superior performance than the existing method of extracting features based on an algorithm without going through a learning process. The reason that the deep learning method has excellent performance is because the weight of the convolution filter is determined through a learning process based on various input data. In addition, the weights used in deep learning are not simple integer data, but real data (float, double) containing many places after the decimal point. And dozens of filters are used in one convolutional layer.

영상인식 분야에서 딥러닝의 성능은 기존의 시스템에 비해 탁월하지만 고성능의 컴퓨터 자원이 있어야 한다는 문제점이 있다. 에지컴퓨팅의 분야에서 이러한 문제를 해결하고 딥러닝을 적용하기 위해서는 데이터 가공의 측면에서 전처리 과정을 강화하여 알고리즘의 성능을 높이거나 또는 학습모델의 복잡도를 축소시키는 것이다.In the field of image recognition, the performance of deep learning is superior to that of existing systems, but there is a problem that high-performance computer resources are required. In order to solve these problems and apply deep learning in the field of edge computing, it is to increase the performance of the algorithm or reduce the complexity of the learning model by strengthening the preprocessing process in terms of data processing.

본 발명에서는 이러한 문제를 해결하기 위하여 스펙트럼-공간 패턴 생성 알고리즘을 제안한다. In order to solve this problem, the present invention proposes a spectral-space pattern generation algorithm.

입력영상에는 공간정보와 주파수정보를 포함하고 있다. 공간정보는 화소 단위의 밝기값이고, 주파수정보는 밝기값의 변화량이다. 공간정보로 주어지는 입력영상으로부터 주파수 정보를 추출하기 위해서는 푸리에변환을 적용하는 방법이 있다. 그러나 입력영상을 푸리에 변환하면 공간정보는 사라지고 주파수정보만 남게 된다.The input image includes spatial information and frequency information. Spatial information is a brightness value in units of pixels, and frequency information is a change amount of a brightness value. In order to extract frequency information from an input image given as spatial information, there is a method of applying a Fourier transform. However, when the input image is Fourier transformed, spatial information disappears and only frequency information remains.

본 발명에서는 첫 번째 단계에서 도 3에 나타낸 바와 같이 입력영상을 블록단위로 구분한다. 블록의 크기는 가변으로 8×8, 16×16, 32×32, 64×64 등으로 설정할 수 있다.In the present invention, in the first step, the input image is divided into blocks as shown in FIG. 3 . The size of the block can be variably set to 8x8, 16x16, 32x32, 64x64, etc.

특징 블록에 포함된 주파수 성분은 푸리에 변환을 통해 구할 수 있다. 그러나 제안 알고리즘에서는 데이터양의 축소를 목적으로 DCT(Discrete Cosine Transform) 변환을 수행한다. DCT를 적용하면 푸리에 변환을 적용한 경우보다 저주파에 집중되는 경향이 있기 때문이다.The frequency component included in the feature block can be obtained through Fourier transform. However, in the proposed algorithm, DCT (Discrete Cosine Transform) transformation is performed for the purpose of reducing the amount of data. This is because, when DCT is applied, it tends to be concentrated at low frequencies than when Fourier transform is applied.

블록 내에는 영상의 특성에 직접적으로 관계되지 않는 크기가 작은 고주파성분이 존재한다. 이러한 고주파 성분을 제거함으로써 데이터양을 축소시키기 위해 양자화를 수행한다. 영상코덱에서와 같이 양자화 테이블을 적용할 수도 있지만 알고리즘의 단순화를 목적으로 일정한 상수를 사용한다. 10, 50, 100, 1000 등으로 결정되는 상수 값에 따라 데이터의 축소량이 결정된다. 응용분야에 따라 양자화 상수는 서로 다르게 사용할 수 있다.In the block, there is a small high-frequency component that is not directly related to the characteristics of the image. Quantization is performed to reduce the amount of data by removing these high-frequency components. A quantization table can be applied as in the image codec, but a constant constant is used for the purpose of simplifying the algorithm. The amount of data reduction is determined according to a constant value determined as 10, 50, 100, 1000, etc. Depending on the field of application, the quantization constant may be used differently.

데이터의 축소는 NPU(Neural Processing Unit) 설계에서 메모리 접근시간을 줄이기 위한 중요한 요소로 작용한다. 양자화 과정을 도 4에 나타냈다.Reduction of data acts as an important factor for reducing memory access time in NPU (Neural Processing Unit) design. The quantization process is shown in FIG. 4 .

블록단위의 분할, DFT, 양자화 과정을 거쳐 산출된 스펙트럼 패턴은 영상의 특징을 포함하고 있는 영상인식 시스템의 입력 데이터이다. 그러나 특정 공간의 스펙트럼 정보일 뿐 공간간의 상관관계는 포함되지 않는다. The spectral pattern calculated through block unit division, DFT, and quantization is input data of the image recognition system including image characteristics. However, it is spectral information of a specific space and does not include correlation between spaces.

스펙트럼-공간 패턴을 얻기 위해서는 공간정보를 포함하여야 한다. 본 발명에서는 블록단위로 DCT와 양자화를 통해 얻은 각각의 블록 내 주파수성분에서 직류성분, 제1고조파성분, 제2고조파성분, ..., 제n고조파성분을 추출하여 동일한 성분을 동일한 블록으로 묶는 방법으로 영상 내에서의 직류성분의 변화, 제n고조파성분의 변화에 해당하는 스펙트럼­공간 패턴을 생성한다. 스펙트럼-공간 패턴의 구성을 도 5에 나타낸다. 블록단위별 스펙트럼 패턴과 스펙트럼-공간 패턴 모두 또는 특징 규칙에 따라 선별된 패턴들이 영상인식에 사용된다.To obtain a spectral-spatial pattern, spatial information must be included. In the present invention, the DC component, the 1st harmonic component, the 2nd harmonic component, ..., the nth harmonic component is extracted from the frequency components in each block obtained through DCT and quantization in block units, and the same component is bundled into the same block. As a method, a spectral space pattern corresponding to a change in a DC component in an image and a change in an nth harmonic component is generated. The configuration of the spectral-space pattern is shown in FIG. 5 . Both spectral patterns and spectral-spatial patterns for each block or patterns selected according to feature rules are used for image recognition.

[실시예][Example]

인터넷에서 공개 데이터베이스로 제공되는 테스트 영상을 대상으로 본 발명에서 제안한 스펙트럼-공간 패턴 생성 알고리즘의 유용성을 검증하였다. 개인컴퓨터 환경에서 매트랩을 사용하여 실험을 수행하였다. 도 6에 테스트 영상의 일부를 나타냈다The usefulness of the spectral-space pattern generation algorithm proposed in the present invention was verified for test images provided as public databases on the Internet. Experiments were performed using MATLAB in a personal computer environment. Figure 6 shows a part of the test image

컬러 입력영상을 대상으로 영상을 인식하는 처리에서 일반적인 방법은 R, G, B 영상 각각을 처리하는 방법과 R, G, B 성분의 평균인 그레이 스케일 영상을 사용하는 방법이 있다. 본 발명서는 그레이스케일 영상을 사용하였다. 도 7에 테스트 영상 각각에 해당하는 그레이스케일 영상과 32X32 블록으로 구분한 영상을 나타냈다. In the process of recognizing an image from a color input image, a general method includes a method of processing each R, G, and B image, and a method of using a gray scale image that is an average of R, G, and B components. In the present invention, grayscale images were used. 7 shows a grayscale image corresponding to each test image and an image divided into 32X32 blocks.

블록으로 분할된 영상은 DCT를 통해 주파수 성분 즉 스펙트럼으로 변환된다. DCT를 적용하면 저주파성분에 집중되므로 데이터를 축소하기 위하여 양자화한다. 도 8에 특정블록의 DCT 결과와 양자화 결과를 블록 2개를 선택하여 수치 데이터로 나타냈다.The image divided into blocks is converted into a frequency component, that is, a spectrum through DCT. When DCT is applied, it is quantized to reduce data because it is concentrated on low frequency components. In Fig. 8, the DCT result and the quantization result of a specific block are shown as numerical data by selecting two blocks.

블록 스펙트럼은 입력영상에서 특정 공간에 해당하는 블록의 주파수 성분이다. 입력영상 전체에 해당하는 공간간의 연결성은 고려하지 못하고 있다. 블록단위의 주파수성분에서 직류성분 등 동일한 주파수성분을 동일한 블록으로 연결하는 방법으로 스펙트럼-공간 패턴을 생성한다. 도 9 에 테스트 영상인 민들레꽃을 대상으로 생성한 스펙트럼-공간 패턴을 나타냈다. 256×256 영상에서 블록크기를 32×32 블록으로 분할한 경우, 총 64개의 블록이 생성된다. 특정 주파수성분은 블록당 1개이므로 1차원 배열로 변환하면 1024 개의 데이터가 된다. 그러나 양자화를 수행할 경우, 고조파성분이 제거되므로 패턴 수는 일반적으로 128개 이하로 축소된다. 양자화 강도에 따라 결정할 수 있는 값이다. 실험에서는 64개의 데이터로 축소하였다.A block spectrum is a frequency component of a block corresponding to a specific space in the input image. The connectivity between spaces corresponding to the entire input image is not considered. A spectrum-space pattern is created by connecting the same frequency components, such as DC components, to the same block in the block unit frequency component. 9 shows the spectral-space pattern generated for the dandelion flower, which is a test image. When the block size of a 256×256 image is divided into 32×32 blocks, a total of 64 blocks are generated. Since there is one specific frequency component per block, it becomes 1024 pieces of data when converted into a one-dimensional array. However, when quantization is performed, the number of patterns is generally reduced to 128 or less because harmonic components are removed. It is a value that can be determined according to the quantization strength. In the experiment, it was reduced to 64 data.

스펙트럼-공간 패턴이 영상인식의 입력데이터로 사용되기 위해서는 영상영역에 존재하는 특징들이 포함되어 있는지가 매우 중요한 요소이다. 이러한 요소를 평가하기 위해 4개의 테스트 영상을 대상으로 산출한 스펙트럼-공간 패턴을 분석하였다. 도 10에 각각 블록간 직류성분의 변화량을 의미하는 직류 스펙트럼-공간 패턴 과 제32고조파 스펙트럼-공간 패턴을 나타냈다.In order for the spectral-space pattern to be used as input data for image recognition, whether features existing in the image region are included is a very important factor. In order to evaluate these factors, the spectral-space patterns calculated from the four test images were analyzed. In FIG. 10, the DC spectrum-space pattern and the 32nd harmonic spectrum-space pattern, which mean the amount of change in the DC component between blocks, respectively, are shown.

실시예를 통해 스펙트럼-공간 패턴을 생성할 수 있음을 확인하였다. 생성된 패턴은 영상에 따라 상이한 형태를 갖고, 생성할 수 있는 최대 데이터의 개수는 양자화 강도를 조절함으로써 응용분야에 따라 가변으로 조정할 수 있다. 스펙트럼­ 공간 패턴에 포함되는 정보는 블록들에 포함되는 통일 주파수성분의 상호관계 및 변화량이다. 생성된 스펙트럼-공간 패턴에 포함된 영상 특징의 유용성을 정량적으로 평가하는 것이 필요하다. It was confirmed that a spectral-space pattern could be generated through the examples. The generated pattern has a different shape depending on the image, and the maximum number of data that can be generated can be variably adjusted according to the application field by adjusting the quantization intensity. The information included in the spectral space pattern is the correlation and change amount of the unified frequency components included in the blocks. It is necessary to quantitatively evaluate the usefulness of image features contained in the generated spectral-space pattern.

본 발명에 따른 스펙트럼-공간 패턴은 에지 컴퓨터분야에서 컨볼루션-ReLu-풀링-풀리 커넥티드 레이어 등으로 구성되는 CNN 시스템에 작용할 수 있다.The spectral-space pattern according to the present invention can act on a CNN system composed of a convolution-ReLu-pooling-pully connected layer and the like in the field of edge computing.

Claims (7)

영상인식을 위한 전처리, 특징추출, 특징표현 및 영상인식을 포함하는 일련의 과정을 수행하는 에지컴퓨터에서,
공간정보와 주파수정보를 포함하는 입력영상을 준비하는 단계;
상기 입력영상을 블록 단위로 분할하는 단계;
상기 블록에서 주파수 성분을 추출하는 단계;
일정한 상수로 양자화를 수행하여 고주파 성분을 제거하는 단계;
블록 단위 주파수 성분에서 직류 성분을 포함한 동일한 주파수 성분을 동일한 블록으로 연결하여 스펙트럼-공간 패턴을 생성하는 단계를 포함하는 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
In an edge computer that performs a series of processes including preprocessing for image recognition, feature extraction, feature expression, and image recognition,
preparing an input image including spatial information and frequency information;
dividing the input image into blocks;
extracting a frequency component from the block;
removing a high-frequency component by performing quantization with a constant constant;
A method for generating a spectral-space pattern for image recognition, comprising generating a spectral-space pattern by connecting the same frequency component including the DC component in the block unit frequency component to the same block.
제1항에 있어서,
상기 공간정보는 화소 단위의 밝기값인 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
The method of claim 1,
The spatial information is a spectral-spatial pattern generating method for image recognition, characterized in that the brightness value in units of pixels.
제1항에 있어서,
상기 주파수정보는 밝기값의 변화량인 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
The method of claim 1,
The frequency information is a spectrum-space pattern generating method for image recognition, characterized in that the change amount of the brightness value.
제1항에 있어서,
상기 블록 단위는 가변적인 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
The method of claim 1,
Spectral-space pattern generation method for image recognition, characterized in that the block unit is variable.
제1항에 있어서,
상기 주파수 성분 추출은 DCT를 수행하여 추출하는 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
The method of claim 1,
The frequency component extraction is a spectrum-space pattern generation method for image recognition, characterized in that the extraction is performed by DCT.
제1항에 있어서,
상기 전처리 과정은 그레이스케일로 이진화하는 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
The method of claim 1,
The pre-processing process is a spectral-space pattern generation method for image recognition, characterized in that the grayscale binarization.
제1항에 있어서,
스펙트럼-공간 패턴은 CNN 시스템에 적용되는 것을 특징으로 하는 영상인식을 위한 스펙트럼-공간 패턴생성 방법.
The method of claim 1,
Spectral-space pattern is a spectrum-space pattern generation method for image recognition, characterized in that it is applied to a CNN system.
KR1020200098752A 2020-08-06 2020-08-06 Method of spectrum-space generation for image recognition KR102387437B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200098752A KR102387437B1 (en) 2020-08-06 2020-08-06 Method of spectrum-space generation for image recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200098752A KR102387437B1 (en) 2020-08-06 2020-08-06 Method of spectrum-space generation for image recognition

Publications (2)

Publication Number Publication Date
KR20220018336A true KR20220018336A (en) 2022-02-15
KR102387437B1 KR102387437B1 (en) 2022-04-15

Family

ID=80325713

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200098752A KR102387437B1 (en) 2020-08-06 2020-08-06 Method of spectrum-space generation for image recognition

Country Status (1)

Country Link
KR (1) KR102387437B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102616354B1 (en) * 2023-06-19 2023-12-20 영남대학교 산학협력단 Apparatus and method for generating video descriptions based on artificial neural networks

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100582595B1 (en) * 2002-12-23 2006-05-23 한국전자통신연구원 Method for detecting and classifying block edges from dct-compressed images
KR102025361B1 (en) * 2014-07-10 2019-09-25 한화테크윈 주식회사 Auto focussing system and method
KR102095335B1 (en) * 2017-11-15 2020-03-31 에스케이텔레콤 주식회사 Apparatus and method for generating and using neural network model applying accelerated computation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100582595B1 (en) * 2002-12-23 2006-05-23 한국전자통신연구원 Method for detecting and classifying block edges from dct-compressed images
KR102025361B1 (en) * 2014-07-10 2019-09-25 한화테크윈 주식회사 Auto focussing system and method
KR102095335B1 (en) * 2017-11-15 2020-03-31 에스케이텔레콤 주식회사 Apparatus and method for generating and using neural network model applying accelerated computation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y. LeCun, K. Kavukcuoglu, and C. Farabet, "Convolutional networks and applications in vision," International Symposium in Circuits and Systems(ISCAS), IEEE, 2010.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102616354B1 (en) * 2023-06-19 2023-12-20 영남대학교 산학협력단 Apparatus and method for generating video descriptions based on artificial neural networks

Also Published As

Publication number Publication date
KR102387437B1 (en) 2022-04-15

Similar Documents

Publication Publication Date Title
Huang et al. WINNet: Wavelet-inspired invertible network for image denoising
Ren et al. Dn-resnet: Efficient deep residual network for image denoising
Gu et al. Leaf recognition based on the combination of wavelet transform and gaussian interpolation
Wang et al. Blur image identification with ensemble convolution neural networks
KR102387437B1 (en) Method of spectrum-space generation for image recognition
Amaranageswarao et al. Joint restoration convolutional neural network for low-quality image super resolution
Tavassoli et al. A new method for impulse noise reduction from digital images based on adaptive neuro-fuzzy system and fuzzy wavelet shrinkage
Mbarki et al. Building a modified block matching kernel based on wave atom transform for efficient image denoising
Li et al. Deep scale-aware image smoothing
CN113962882A (en) JPEG image compression artifact eliminating method based on controllable pyramid wavelet network
Cheng et al. Adaptive feature denoising based deep convolutional network for single image super-resolution
Wang et al. Online convolutional sparse coding with sample-dependent dictionary
Xiao et al. Video denoising algorithm based on improved dual‐domain filtering and 3D block matching
Sale et al. Effective image enhancement using hybrid multi resolution image fusion
Uzun et al. A literature review on quadratic image filters
Qiao et al. Boosting Robust Multi-focus Image Fusion with Frequency Mask and Hyperdimensional Computing
Dhiman et al. An improved threshold estimation technique for image denoising using wavelet thresholding techniques
Al-Samaraie et al. Colored satellites image enhancement using wavelet and threshold decomposition
Boudechiche et al. Ensemble leaning-CNN for reducing JPEG artifacts
CN111402166A (en) Image denoising method and device, service terminal and computer readable storage medium
Nassiri et al. Texture feature extraction using Slant-Hadamard transform
Ramesha et al. Towards Faster and Efficient Lightweight Image Super Resolution Using Transformers and Fourier Convolutions
Wu et al. Two-stage Progressive Residual Dense Attention Network for Image Denoising
Kaplun et al. Using Artificial Neural Networks and Wavelet Transform for Image Denoising
Subhahan et al. An Edge-Aware Guided Filtering Technique for Multiplicative Noise Reduction in Satellite Images

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant