KR20190142856A - Data Augmentation based Robust Object Recognition Method and System - Google Patents

Data Augmentation based Robust Object Recognition Method and System Download PDF

Info

Publication number
KR20190142856A
KR20190142856A KR1020180070055A KR20180070055A KR20190142856A KR 20190142856 A KR20190142856 A KR 20190142856A KR 1020180070055 A KR1020180070055 A KR 1020180070055A KR 20180070055 A KR20180070055 A KR 20180070055A KR 20190142856 A KR20190142856 A KR 20190142856A
Authority
KR
South Korea
Prior art keywords
learning
image
rotation angle
box
rotated
Prior art date
Application number
KR1020180070055A
Other languages
Korean (ko)
Other versions
KR102199912B1 (en
Inventor
조충상
정혜동
이영한
고상기
김보은
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020180070055A priority Critical patent/KR102199912B1/en
Publication of KR20190142856A publication Critical patent/KR20190142856A/en
Application granted granted Critical
Publication of KR102199912B1 publication Critical patent/KR102199912B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06K9/20
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

Provided are a data increment method and system by training image rotation which can greatly contribute to the object recognition performance of a deep learning network. The learning data increment method according to an embodiment of the present invention comprises the steps of: selecting a rotation angle to rotate a learning image; rotating the learning image according to the rotation angle selected in the selection step; and generating a bounding box (BB) of the rotated learning image within a range determined by using a BB for a recognition object rotated according to the selected rotation angle. Therefore, the object recognition performance of a deep learning network can be greatly increased by incrementing learning data through rotation increment without increasing the complexity of the deep learning network with limited learning data.

Description

데이터 증분 기반 강인한 객체 인지 방법 및 시스템{Data Augmentation based Robust Object Recognition Method and System}Data Augmentation based Robust Object Recognition Method and System

본 발명은 객체 인지 기술에 관한 것으로, 더욱 상세하게는 딥러닝 네트워크를 이용하여 학습 데이터 증분을 통해 강인한 객체 인지를 수행할 수 있는 방법 및 시스템에 관한 것이다.The present invention relates to an object recognition technology, and more particularly, to a method and a system capable of performing robust object recognition through incremental learning data using a deep learning network.

영상 기반의 객체 인지 기술의 한계를 극복하고자 등장한 딥러닝 기반 객체 인지 기술은 복잡도가 상당히 중요한 요소이다. 딥러닝 네트워크의 복잡도에 따라 객체 인지 성능이 연관됨을 의미한다.In order to overcome the limitations of image-based object recognition technology, deep learning-based object recognition technology is a very important factor. This means that the object recognition performance is related to the complexity of the deep learning network.

이에, 딥러닝 네트워크의 복잡도를 증가시키면서, 객체 인지 성능을 개선하는 방식이 주류를 이루고 있는데, 복잡도 증가는 리소스와 속도 측면에서의 문제를 야기한다.Accordingly, while increasing the complexity of the deep learning network, a method of improving object recognition performance is mainstream, and the increase in complexity causes problems in terms of resources and speed.

딥러닝 네트워크의 복잡도를 증가시키지 않으면서, 객체 인지 성능을 높이기 위한 방안으로, 학습 데이터 증분 기법을 상정할 수 있다. 제한된 학습 데이터를 더 많은 학습 데이터로 증분시켜 딥러닝 네트워크를 학습시키는 것이다.In order to increase the object recognition performance without increasing the complexity of the deep learning network, the training data increment technique can be assumed. To train deep learning networks by incrementing limited learning data into more learning data.

하지만, 학습 데이터 증분에 있어서도 한계는 존재한다. 이를 테면, 학습 이미지를 회전시켜 증분한 학습 데이터는 딥러닝 네트워크의 객체 인지 성능 향상에 큰 기여를 하지 못한다.However, there is a limit in learning data increments. For example, the training data incremented by rotating the training image does not contribute much to the object recognition performance of the deep learning network.

이에 따라, 학습 이미지의 회전 증분 기법에 대한 개량이 요구되고 있는 실정이다.Accordingly, there is a demand for improvement of the rotation increment technique of the training image.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 딥러닝 네트워크의 객체 인지 성능 향상에 큰 기여를 할 수 있는 학습 이미지 회전에 의한 데이터 증분 방법 및 시스템을 제공함에 있다.SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to provide a method and system for incrementing data by rotating a learning image that can make a significant contribution to improving object recognition performance of a deep learning network. .

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 학습 데이터 증분 방법은 학습 이미지를 회전시킬 회전각을 선택하는 단계; 선택단계에서 선택된 회전각에 따라 학습 이미지를 회전시키는 단계; 선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서, 회전된 학습 이미지의 BB를 생성하는 단계;를 포함한다. Learning data incremental method according to an embodiment of the present invention for achieving the above object comprises the steps of selecting a rotation angle to rotate the training image; Rotating the learning image according to the rotation angle selected in the selection step; Generating a BB of the rotated learning image within a range determined by using a bouding box (BB) for the recognition object rotated according to the selected rotation angle.

생성 단계는, 회전각에 따라 회전된 BB에 내접하는 제1 박스와 외접하는 제2 박스 사이에 위치하는 제3 박스를, 회전된 학습 이미지의 BB로 생성하는 것일 수 있다. The generating step may be to generate, as the BB of the rotated learning image, a third box positioned between the first box inscribed to the rotated BB and the second box inscribed according to the rotation angle.

제1 박스, 제2 박스 및 제3 박스의 가로 변과 세로 변은, 회전 전 BB의 가로 변과 세로 변에 각각 평행한 것일 수 있다. The horizontal and vertical sides of the first box, the second box, and the third box may be parallel to the horizontal and vertical sides of the BB before rotation, respectively.

제3 박스의 위치는, '제1 박스와 제3 박스 간의 거리'와 '제3 박스와 제2 박스 간의 거리'의 비율에 의해 결정되는 것일 수 있다. The position of the third box may be determined by a ratio of 'distance between the first box and the third box' and 'distance between the third box and the second box'.

비율은, 선택된 회전각에 따라 가변하는 것일 수 있다. The ratio may be variable according to the selected rotation angle.

선택단계는, 평균이 0°인 가우시안 분포 그래프에 따라 랜덤하게 회전각을 선택하는 것일 수 있다. The selecting step may be to randomly select the rotation angle according to a Gaussian distribution graph having an average of 0 °.

회전 단계는, 학습 이미지의 중심을 원점으로 이동시키는 단계; 선택된 회전각에 따라 원점을 기준으로 학습 이미지를 회전시키는 단계; 회전된 학습 이미지의 중심을 원 위치로 이동시키는 단계;를 포함하는 것일 수 있다. The rotating may include moving the center of the learning image to the origin; Rotating the learning image with respect to the origin according to the selected rotation angle; And moving the center of the rotated learning image to its original position.

본 발명에 따른 학습 데이터 증분 방법은 학습 이미지를 증분시키는 단계;를 더 포함하고, 회전 단계는, 증분 단계에서 증분된 학습 이미지를 회전시키는 것일 수 있다. The training data increment method according to the present invention may further include incrementing a training image. The rotating step may include rotating the training image incremented in the increment step.

증분단계는, 학습 이미지에 대해 줌잉, 노이즈 적용 및 이동 중 적어도 하나를 통해, 학습 이미지를 증분시키는 것일 수 있다. The incremental step may be to increment the learning image through at least one of zooming, applying noise and moving to the learning image.

한편, 본 발명의 다른 실시예에 따른, 학습 데이터 증분 시스템은 학습 이미지를 입력받는 입력부; 및 학습 이미지를 회전시킬 회전각을 선택하고, 선택된 회전각에 따라 학습 이미지를 회전시키며, 선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서 회전된 학습 이미지의 BB를 생성하는 프로세서;를 포함한다. On the other hand, according to another embodiment of the present invention, the training data increment system includes an input unit for receiving a training image; And selecting a rotation angle to rotate the learning image, rotating the learning image according to the selected rotation angle, and learning rotated within a range determined by using a bouding box (BB) for a recognition object rotated according to the selected rotation angle. And a processor for generating a BB of the image.

한편, 본 발명의 다른 실시예에 따른, 학습 방법은 학습 이미지를 회전시킬 회전각을 선택하는 단계; 선택단계에서 선택된 회전각에 따라 학습 이미지를 회전시키는 단계; 선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서, 회전된 학습 이미지의 BB를 생성하는 단계; 및 회전된 학습 이미지와 생성된 BB를 이용하여, 딥러닝 네트워크를 학습시키는 단계;를 포함한다.On the other hand, according to another embodiment of the present invention, the learning method comprises the steps of selecting a rotation angle to rotate the learning image; Rotating the learning image according to the rotation angle selected in the selection step; Generating a BB of the rotated learning image within a range determined by using a bouding box (BB) for the recognition object rotated according to the selected rotation angle; And learning the deep learning network using the rotated learning image and the generated BB.

한편, 본 발명의 다른 실시예에 따른, 학습 시스템은 학습 이미지를 입력받는 입력부; 및 학습 이미지를 회전시킬 회전각을 선택하고, 선택단계에서 선택된 회전각에 따라 학습 이미지를 회전시키며, 선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서 회전된 학습 이미지의 BB를 생성하고, 회전된 학습 이미지와 생성된 BB를 이용하여 딥러닝 네트워크를 학습시키는 프로세서;를 포함한다.On the other hand, the learning system according to another embodiment of the present invention, the input unit for receiving a learning image; And selecting a rotation angle to rotate the learning image, rotating the learning image according to the rotation angle selected in the selection step, and using the BB (Bouding Box) for the recognition object rotated according to the selected rotation angle. And a processor for generating a BB of the rotated learning image and learning the deep learning network using the rotated learning image and the generated BB.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 회전 증분을 통해 학습 데이터를 증분시켜, 제한된 학습 데이터로 딥러닝 네트워크의 복잡도를 증가시키지 않고서도, 딥러닝 네트워크의 객체 인지 성능을 크게 향상시키는 것이 가능해진다.As described above, according to embodiments of the present invention, by incrementing the training data through rotation increment, the object learning performance of the deep learning network is greatly improved without increasing the complexity of the deep learning network with limited training data. It becomes possible.

도 1은 본 발명의 일 실시예에 따른 학습 데이터 증분 방법의 설명에 제공되는 도면,
도 2는, 도 1에 도시된 회전 증분 과정의 상세 설명에 제공되는 도면,
도 3 내지 도 5는, 회전 증분된 학습 이미지에서 인식 객체에 대한 BB를 생성하는 방법의 상세 설명에 제공되는 도면들,
도 6과 도 7은, 본 발명의 실시예에 따른 회전 증분 방법을 적용한 결과를 예시한 도면들,
도 8은 기존 방법과 본 발명의 실시예에 따른 방법에 대한 VOC2007 테스트 결과를 나타낸 표,
도 9는 본 발명의 다른 실시예에 따른 학습 데이터 증분 시스템의 블럭도이다.
1 is a view provided to explain a learning data incrementing method according to an embodiment of the present invention;
2 is a view provided to a detailed description of the rotation incremental process shown in FIG.
3 to 5 are diagrams provided in a detailed description of a method for generating a BB for a recognition object in a rotationally incremented learning image,
6 and 7 are views illustrating a result of applying the rotation increment method according to an embodiment of the present invention,
8 is a table showing VOC2007 test results for the existing method and a method according to an embodiment of the present invention;
9 is a block diagram of a learning data incremental system according to another embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, with reference to the drawings will be described the present invention in more detail.

도 1은 본 발명의 일 실시예에 따른 학습 데이터 증분 방법의 설명에 제공되는 도면이다. 본 발명의 실시예에 따른 학습 데이터 증분 방법은, 학습 데이터를 증분시켜 객체 인지를 위한 딥러닝 네트워크를 학습시킨다.1 is a diagram provided to explain a learning data incrementing method according to an embodiment of the present invention. In the training data increment method according to an embodiment of the present invention, the training data is incremented to train a deep learning network for object recognition.

이에, 딥러닝 네트워크의 복잡도를 증가시키지 않고서도, 딥러닝 네트워크에 의한 객체 인지 성능을 향상시킬 수 있다.Accordingly, the object recognition performance by the deep learning network can be improved without increasing the complexity of the deep learning network.

본 발명의 실시예에 따른 학습 데이터 증분 방법은, 회전 기반의 학습 데이터 증분까지 수행하는데, 회전 증분에 의한 학습 효과를 높이기 위한 차원에서, 회전된 학습 이미지에 최적의 BB(Bouding Box)를 생성하여 학습에 이용한다.The training data increment method according to an embodiment of the present invention performs rotation-based learning data increments, and in order to enhance the learning effect by rotation increment, by generating an optimal BB (Bouding Box) for the rotated learning image. We use for learning.

학습 데이터 증분을 위해, 도 1에 도시된 바와 같이, 먼저, 학습 이미지를 증분시킨다(S110).In order to increment the training data, as shown in FIG. 1, first, the training image is incremented (S110).

S110단계에서의 학습 이미지 증분에는, 1) 학습 이미지에 대한 줌잉(확대/축소), 2) 학습 이미지에 대한 노이즈 적용 및 3) 학습 이미지에 대한 상/하/좌/우의 평행 이동 등의 기법에 의한 증분이 포함된다.The learning image increment at step S110 may include 1) zooming (zoom in / out) the training image, 2) applying noise to the training image, and 3) moving the image up, down, left, and right in parallel. Increment by.

S110단계에서의 학습 이미지 증분에는, 학습 이미지의 회전에 의한 증분은 포함되지 않는데, 회전 기반 증분은 후술할 단계들에서 수행된다.The learning image increment in step S110 does not include the increment by the rotation of the learning image, the rotation based increment is performed in the steps to be described later.

다음, S110단계에서 증분된 학습 이미지 각각에 대해 회전 증분을 적용할지 여부를 결정한다(S120).Next, it is determined whether to apply a rotation increment to each of the learning images incremented in step S110 (S120).

S120단계에서 회전 증분을 적용하지 않기로 결정된 학습 이미지는(S120-N), 객체 인지용 딥러닝 네트워크로 입력되어 학습에 이용된다(S160).The training image determined not to apply the rotation increment in step S120 is input to the deep learning network for object recognition (S120-N) and used for learning (S160).

반면, S120단계에서 회전 증분을 적용하기로 결정된 학습 이미지에 대해서는 회전 증분 과정을 수행한 후에(S130단계 내지 S150단계), 객체 인지용 딥러닝 네트워크로 입력되어 학습에 이용된다(S160).On the other hand, for the learning image determined to apply the rotation increment in step S120 (steps S130 to S150), it is input to the deep learning network for object recognition and used for learning (S160).

즉, S120단계는 S110단계에서 증분된 학습 이미지들 중 회전 증분을 적용할 학습 이미지를 선정하여 주는 단계로 기능한다. S120단계에서 회전 증분을 적용할 학습 이미지의 비율은 설정에 의해 정해진다.That is, step S120 functions to select a learning image to which rotational increments are applied among the learning images incremented in step S110. In step S120, the ratio of the training image to which the rotation increment is applied is determined by setting.

이를 테면, 회전 증분을 적용할 학습 이미지의 비율이 "30%"로 설정되었다면, S120단계에서는 회전 증분을 적용하는 것으로 결정할 확률이 30%가 되도록 동작한다.For example, if the ratio of the learning image to apply the rotation increment is set to "30%", the operation in step S120 has a 30% probability of determining to apply the rotation increment.

S120단계에서 회전 증분을 적용하기로 결정된 학습 이미지에 대해 회전 증분을 위한 단계로, 가장 먼저 회전각을 선택한다(S130).In step S120, as a step for rotation increment with respect to the training image determined to apply the rotation increment, the rotation angle is first selected (S130).

S130단계에서의 회전각 선택은 학습 이미지 마다 개별적으로 이루어진다. 즉, 회전 증분 대상이 된 학습 이미지들에 대한 회전각들은 서로 독립적으로 결정된다.The rotation angle selection in step S130 is made for each learning image individually. That is, the rotation angles of the learning images that are the targets of rotation increment are determined independently of each other.

그리고, S120단계에서 회전 증분 대상으로 결정된 학습 이미지에 대해, S130단계에서 선택된 회전각에 따라 회전하여 학습 이미지를 추가 생성함으로써, 학습 이미지를 증분시킨다(S140).Then, the learning image determined as the rotation increment object in step S120 is rotated according to the rotation angle selected in step S130 to further generate the learning image, thereby incrementing the learning image (S140).

다음, S140단계에서 학습 이미지의 회전에 따라 함께 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 회전 증분된 학습 이미지의 BB를 새롭게 생성한다(S150).Next, in step S140, a BB of a rotation incremented learning image is newly generated using a BB (Bouding Box) for the recognition object rotated together according to the rotation of the training image (S150).

이후, S140단계에서 회전 증분된 학습 이미지와 S150단계에서 생성된 BB가 객체 인지용 딥러닝 네트워크로 입력되어 학습에 이용된다(S160).Thereafter, the learning image rotated and incremented in step S140 and the BB generated in step S150 are input to the deep learning network for object recognition and used for learning (S160).

이하에서는, S130단계에서의 회전각 선택, S130단계에서의 학습 이미지 회전, S140단계에서의 BB 생성 방법에 대해, 도 2를 참조하여 상세히 설명한다.Hereinafter, the rotation angle selection in step S130, the learning image rotation in step S130, the BB generation method in step S140 will be described in detail with reference to FIG.

도 2는, 도 1에 도시된 회전 증분 과정(S130 내지 S150)의 상세 설명에 제공되는 도면이다. 도 2에는 특정 학습 이미지를 예시하여 회전 증분하는 과정 및 회전 증분한 결과를 나타내었다.FIG. 2 is a view provided to a detailed description of the rotation increment processes S130 to S150 shown in FIG. 1. 2 illustrates the process of rotation increment and the result of rotation increment by exemplifying a specific learning image.

도 2에 도시된 바와 같이, 학습 이미지의 회전 증분을 위해, 회전 증분을 적용할 학습 이미지와 인식 객체에 대한 BB를 입력받는다. 도 2의 좌측에 나타난 이미지가 회전 증분을 적용할 학습 이미지이고, 이 학습 이미지에 표시된 빨간 색 박스가 인식 객체에 대한 BB이다.As shown in FIG. 2, for the rotation increment of the training image, the training image to which the rotation increment is applied and the BB for the recognition object are received. The image shown on the left of FIG. 2 is the training image to which the rotational increment is to be applied, and the red box shown in this training image is the BB for the recognition object.

S120단계에서의 회전 증분을 위한 회전각 선택은, 평균이 0°인 가우시안 분포 그래프에 따라 랜덤하게 이루어지도록 한다. 도 2에 도시된 가우시안 분포 그래프에 따르면, 회전각이 -σ°~σ° 내에서 선택될 가능성은 68.2%이고, 회전각이 -2σ°~2σ° 내에서 선택될 가능성은 95.4%이다.The rotation angle selection for the rotation increment in step S120 is made randomly according to a Gaussian distribution graph with an average of 0 °. According to the Gaussian distribution graph shown in FIG. 2, the probability that the rotation angle is selected within −σ ° to σ ° is 68.2%, and the probability that the rotation angle is selected within −2σ ° to 2σ ° is 95.4%.

선택 확률이 가우시안 분포에 따르므로, 0°에 가까운 회전각이 선택될 가능성이 높다.Since the selection probability depends on the Gaussian distribution, a rotation angle close to 0 ° is likely to be selected.

S140단계에서의 학습 이미지의 회전은, 학습 이미지의 중심(cx,cy)을 원점으로 이동시키고, S130단계에서 선택된 회전각으로 학습 이미지를 회전시킨 후에, 회전된 학습 이미지의 중심(cx,cy)을 다시 원래의 위치로 이동시키는 과정에 의해 수행된다.The rotation of the training image in step S140 is to move the center of the training image (c x , c y ) to the origin, and after rotating the training image at the rotation angle selected in step S130, the center of the rotated training image (c x , c y ) is moved back to its original position.

이 과정에서 수행되는 이동 → 회전 → 이동을 위한 변환 행렬 T를 도 2에 제시하였다.The transformation matrix T for the movement-> rotation-> movement performed in this process is shown in FIG.

S150단계에서 수행되는 회전 증분된 학습 이미지에서 인식 객체에 대한 BB를 생성하는 방법이, 도 2의 하부에 도시되어 있는데, 이를 도 3 내지 도 5에 보다 시인성을 높여 도시하였다.A method of generating a BB for a recognition object in the rotationally incremented learning image performed in step S150 is shown in the lower part of FIG. 2, which is illustrated with higher visibility in FIGS. 3 to 5.

회전 증분된 학습 이미지에서 인식 객체에 대한 BB를 생성하는 방법은 다음과 같다.A method of generating a BB for a recognition object from a rotation incremented learning image is as follows.

먼저, 도 3에 도시된 바와 같이 변환 행렬 T로 회전시킨 학습 이미지의 BB(B)에 외접하는 박스(BO)를 산출하고, 도 4에 도시된 바와 같이 변환 행렬 T로 회전시킨 학습 이미지의 BB(B)에 내접하는 박스(BI)를 산출한다.First, a box BO circumscribed to the BB (B) of the training image rotated by the transformation matrix T as shown in FIG. 3 is calculated, and the BB of the training image rotated by the transformation matrix T as shown in FIG. 4. The box BI inscribed in (B) is calculated.

외접 박스(BO)의 가로/세로 변과 내접 박스(BI)의 가로/세로 변은, 회전 전 BB(B)의 가로/세로 변에 각각 평행하다.The horizontal / vertical side of the external box BO and the horizontal / vertical side of the internal box BI are parallel to the horizontal / vertical side of BB (B) before rotation, respectively.

다음, 도 5에 도시된 바와 같이, 내접 박스(BI)와 외접 박스(BO) 사이의 임의의 위치에서, 회전 증분된 학습 이미지에서 인식 객체에 대한 BB(B')를 생성한다.Next, as shown in FIG. 5, at any position between the inscribed box BI and the outer box BO, a BB (B ′) is generated for the recognition object in the rotationally incremented learning image.

도 5에 나타난 바와 같이, 회전 증분된 학습 이미지의 BB(B')는, 외접 박스(BO)의 및 내접 박스(BI)와 중심은 일치하고, 가로/세로 변의 길이는 내접 박스(BI) 보다 길지만 외접 박스(BO) 보다 짧다.As shown in FIG. 5, the BB (B ′) of the rotationally incremented learning image coincides with the center of the outer box BO and the inner box BI, and the length of the horizontal / vertical side is greater than that of the inner box BI. Longer but shorter than external box BO.

도 2의 우측에는 S150단계에서 생성된 BB(B')를 회전 증분된 학습 이미지에 부가한 상태를 나타내었다.2 shows a state in which the BB (B ') generated in step S150 is added to the rotationally incremented learning image.

BI와 BO 사이에서 결정되는 B'의 위치와 크기는, BI와 B' 간의 거리와 B'와 BO 간의 거리의 비율로, 다음과 같이 정의할 수 있다.The position and size of B 'determined between BI and BO can be defined as a ratio of the distance between BI and B' and the distance between B 'and BO, as follows.

(BI~D') : (D'~BO) = 0.5:0.5(BI ~ D '): (D' ~ BO) = 0.5: 0.5

(BI~D') : BI의 가로/세로 변과 B'의 가로/세로 변 간의 길이(BI ~ D '): Length between horizontal / vertical side of BI and horizontal / vertical side of B'

(D'~BO) : B'의 가로/세로 변과 BO의 가로/세로 변 간의 길이(D '~ BO): Length between horizontal / vertical side of B' and horizontal / vertical side of BO

거리 비인 "0.5:0.5"는 다른 비율, 이를 테면, "0.7:0.3", "0.3:0.7" 등의 다른 비율로 설정할 수 있음은 물론이다.Of course, the distance ratio "0.5: 0.5" can be set to other ratios, such as other ratios such as "0.7: 0.3", "0.3: 0.7", and the like.

나아가, BI와 B' 간의 거리와 B'와 BO 간의 거리 비는, 고정된 비율이 아닌 가변 비율로 설정할 수도 있다. 이를 테면, S120단계에서 선택된 회전각에 따라 거리 비가 결정되는 것으로 구현가능하다. 이를 테면, 회전각이 ±45° 또는 ±135°에 가까울수록 거리 비는 "1:0"에 가깝고, 회전각이 ±45° 또는 ±135°에서 멀어질수록 거리 비는 "0:1"에 가깝도록 구현하는 것이 가능하다.Furthermore, the distance ratio between BI and B 'and the distance between B' and BO may be set to a variable ratio rather than a fixed ratio. For example, it is possible to implement that the distance ratio is determined according to the rotation angle selected in step S120. For example, the closer the rotation angle is to ± 45 ° or ± 135 °, the closer the distance ratio is to "1: 0"; the farther away from the rotation angle is ± 45 ° or ± 135 °, the distance ratio is to "0: 1". It is possible to implement closer.

도 7에는, 도 6에 제시된 학습 이미지들에 대해, 본 발명의 실시예에 따른 회전 증분 방법을 적용한 결과를 예시하였다.FIG. 7 illustrates the results of applying the rotation increment method according to an embodiment of the present invention to the training images shown in FIG. 6.

본 발명의 실시예에 따른 방법의 성능 검증을 위해, 최근 많이 사용되고 있는 SSD(Single Shot MultiBox Detector)를 본 발명의 실시예에 따라 증분된 학습 이미지들을 이용하여 학습시켰다.In order to verify the performance of the method according to an embodiment of the present invention, a recently used single shot multibox detector (SSD) was trained using incremental learning images according to an embodiment of the present invention.

도 8에는 VOC2007 테스트를 통해 기존 방법과 본 발명의 실시예에 따른 방법이 적용된 결과를 비교하였다. 이에 따르면, 본 발명의 실시예에 따른 방법은 SSD의 복잡도를 증가시키지 않으면서도, 이미지 전반에 걸쳐 높은 성능을 나타내었으며, 기존 방법에서 부정확하게 인지했던 많은 객체를 정확하게 인지할 수 있도록 하였음을 확인할 수 있다.8 compares the results of applying the method according to an embodiment of the present invention and the existing method through the VOC2007 test. Accordingly, it can be seen that the method according to the embodiment of the present invention exhibited high performance throughout the image without increasing the complexity of the SSD and accurately recognized many objects that were incorrectly recognized by the conventional method. have.

도 9는 본 발명의 다른 실시예에 따른 학습 데이터 증분 시스템의 블럭도이다. 본 발명의 다른 실시예에 따른 학습 데이터 증분 시스템은, 도 9 도시된 바와 같이, 통신부(210), 출력부(220), 프로세서(230), 입력부(240) 및 저장부(250)를 포함하는 컴퓨팅 시스템으로 구현할 수 있다.9 is a block diagram of a learning data incremental system according to another embodiment of the present invention. Learning data increment system according to another embodiment of the present invention, as shown in Figure 9, including a communication unit 210, an output unit 220, a processor 230, an input unit 240 and a storage unit 250 It can be implemented with a computing system.

통신부(210)는 외부 기기와 외부 네트워크로부터 학습 대상이 되는 학습 이미지를 입력받기 위한 통신 수단이다.The communication unit 210 is a communication means for receiving a learning image, which is a learning object, from an external device and an external network.

입력부(240)는 사용자 설정 명령을 입력받기 위한 입력 수단이고, 출력부(220)는 학습 이미지 및 학습 이미지 증분 과정과 결과를 표시하기 위한 디스플레이이다.The input unit 240 is an input unit for receiving a user setting command, and the output unit 220 is a display for displaying a learning image, a learning image increment process, and a result.

프로세서(230)는 도 1에 도시된 방법을 실행하여 학습 이미지를 증분시키고, 증분된 학습 이미지로 객체 인지용 딥러닝 네트워크를 학습시킨다. 나아가, 프로세서(230)는 학습된 딥러닝 네트워크를 이용하여 입력 이미지에서의 객체 인지를 수행한다.The processor 230 executes the method illustrated in FIG. 1 to increment the training image and train the deep learning network for object recognition using the incremented training image. Further, the processor 230 performs object recognition in the input image using the learned deep learning network.

저장부(250)는 프로세서(230)가 동작함에 있어 필요한 저장 공간을 제공한다.The storage unit 250 provides a storage space required for the processor 230 to operate.

지금까지, 객체 인지용 딥러닝 네트워크의 학습을 위한 학습 데이터 증분 방법 및 시스템에 대해 바람직한 실시예를 들어 상세히 설명하였다.Up to now, a detailed description has been given of a preferred embodiment of a method and system for learning data increment for learning a deep learning network for object recognition.

본 발명의 실시예에 따른 학습 데이터 증분 방법 및 시스템은, 딥러닝 네트워크의 복잡도를 증가시키지 않으면서 객체 인지 성능을 강인하게 만들기 위한 기법을 제시한다.Learning data increment method and system according to an embodiment of the present invention proposes a technique for making the object recognition performance robust without increasing the complexity of the deep learning network.

나아가, 본 발명의 실시예에 따른 학습 데이터 증분 방법 및 시스템은, 제한된 학습 데이터로 강인한 객체 인지용 딥러닝 네트워크의 학습이 가능하다.Furthermore, the learning data increment method and system according to an embodiment of the present invention enables learning of a robust object recognition deep learning network with limited learning data.

본 발명의 실시예에 따른 학습 데이터 증분 기술은, 다양한 분야, 이를 테면, CCTV, 보안 로봇, 자율주행 자동차 등은 물론 그 밖의 영상 분석을 통해 객체 인지를 수행하는 다양한 시스템에 적용될 수 있다.The learning data incremental technology according to an embodiment of the present invention may be applied to various fields such as CCTV, security robots, autonomous vehicles, and the like, as well as various systems for performing object recognition through other image analysis.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.On the other hand, the technical idea of the present invention can be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment. In addition, the technical idea according to various embodiments of the present disclosure may be implemented in the form of computer readable codes recorded on a computer readable recording medium. The computer-readable recording medium can be any data storage device that can be read by a computer and can store data. For example, the computer-readable recording medium may be a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical disk, a hard disk drive, or the like. In addition, the computer-readable code or program stored in the computer-readable recording medium may be transmitted through a network connected between the computers.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although the preferred embodiment of the present invention has been shown and described above, the present invention is not limited to the specific embodiments described above, but the technical field to which the invention belongs without departing from the spirit of the invention claimed in the claims. Of course, various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.

B : 변환 행렬 T로 회전시킨 학습 이미지의 BB
BI : B에 내접하는 박스
BO : B에 외접하는 박스
B : 회전 증분된 학습 이미지의 BB
B: BB of the training image rotated by the transformation matrix T
BI: Box inscribed to B
BO: Box circumscribed to B
B: BB of rotation incremented learning image

Claims (12)

학습 이미지를 회전시킬 회전각을 선택하는 단계;
선택단계에서 선택된 회전각에 따라 학습 이미지를 회전시키는 단계;
선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서, 회전된 학습 이미지의 BB를 생성하는 단계;를 포함하는 것을 특징으로 하는 학습 데이터 증분 방법.
Selecting a rotation angle to rotate the learning image;
Rotating the learning image according to the rotation angle selected in the selection step;
And generating a BB of the rotated learning image within a range determined by using a bouding box (BB) for the recognition object rotated according to the selected rotation angle.
청구항 1에 있어서,
생성 단계는,
회전각에 따라 회전된 BB에 내접하는 제1 박스와 외접하는 제2 박스 사이에 위치하는 제3 박스를, 회전된 학습 이미지의 BB로 생성하는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 1,
The generation stage
And a third box located between the first box inscribed to the rotated BB and the second box circumscribed according to the rotation angle as a BB of the rotated learning image.
청구항 2에 있어서,
제1 박스, 제2 박스 및 제3 박스의 가로 변과 세로 변은,
회전 전 BB의 가로 변과 세로 변에 각각 평행한 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 2,
The horizontal and vertical sides of the first box, the second box, and the third box are
Learning data incremental method, characterized in that parallel to the horizontal and vertical sides of the BB before rotation, respectively.
청구항 2에 있어서,
제3 박스의 위치는,
'제1 박스와 제3 박스 간의 거리'와 '제3 박스와 제2 박스 간의 거리'의 비율에 의해 결정되는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 2,
The position of the third box is
Learning data increment method, characterized in that the ratio of the distance between the first box and the third box and the distance between the third box and the second box.
청구항 4에 있어서,
비율은,
선택된 회전각에 따라 가변하는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 4,
The ratio is
Learning data incremental method characterized in that it varies according to the selected rotation angle.
청구항 1에 있어서,
선택단계는,
평균이 0°인 가우시안 분포 그래프에 따라 랜덤하게 회전각을 선택하는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 1,
The selection step is
The learning data incremental method of selecting a rotation angle at random according to the Gaussian distribution graph whose average is 0 degrees.
청구항 1에 있어서,
회전 단계는,
학습 이미지의 중심을 원점으로 이동시키는 단계;
선택된 회전각에 따라 원점을 기준으로 학습 이미지를 회전시키는 단계;
회전된 학습 이미지의 중심을 원 위치로 이동시키는 단계;를 포함하는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 1,
Rotation stage,
Moving the center of the learning image to the origin;
Rotating the learning image with respect to the origin according to the selected rotation angle;
Moving the center of the rotated learning image to its original position; learning data incremental method comprising a.
청구항 1에 있어서,
학습 이미지를 증분시키는 단계;를 더 포함하고,
회전 단계는,
증분 단계에서 증분된 학습 이미지를 회전시키는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 1,
Incrementing the training image;
Rotation stage,
Learning data incremental method characterized by rotating the training image incremented in the incremental step.
청구항 8에 있어서,
증분단계는,
학습 이미지에 대해 줌잉, 노이즈 적용 및 이동 중 적어도 하나를 통해, 학습 이미지를 증분시키는 것을 특징으로 하는 학습 데이터 증분 방법.
The method according to claim 8,
The incremental step is
And incrementing the training image through at least one of zooming, applying noise, and moving the training image.
학습 이미지를 입력받는 입력부; 및
학습 이미지를 회전시킬 회전각을 선택하고, 선택된 회전각에 따라 학습 이미지를 회전시키며, 선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서 회전된 학습 이미지의 BB를 생성하는 프로세서;를 포함하는 것을 특징으로 하는 학습 데이터 증분 시스템.

An input unit to receive a learning image; And
Select a rotation angle to rotate the training image, rotate the training image according to the selected rotation angle, and rotate the training image within a range determined using a BB (Bouding Box) for the recognition object rotated according to the selected rotation angle. And a processor for generating a BB of the learning data incremental system.

학습 이미지를 회전시킬 회전각을 선택하는 단계;
선택단계에서 선택된 회전각에 따라 학습 이미지를 회전시키는 단계;
선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서, 회전된 학습 이미지의 BB를 생성하는 단계; 및
회전된 학습 이미지와 생성된 BB를 이용하여, 딥러닝 네트워크를 학습시키는 단계;를 포함하는 것을 특징으로 하는 학습 방법.

Selecting a rotation angle to rotate the learning image;
Rotating the learning image according to the rotation angle selected in the selection step;
Generating a BB of the rotated learning image within a range determined using a bouding box (BB) for the recognition object rotated according to the selected rotation angle; And
Learning a deep learning network by using the rotated learning image and the generated BB.

학습 이미지를 입력받는 입력부; 및
학습 이미지를 회전시킬 회전각을 선택하고, 선택단계에서 선택된 회전각에 따라 학습 이미지를 회전시키며, 선택된 회전각에 따라 회전된 인식 객체에 대한 BB(Bouding Box)를 이용하여 결정되는 범위 내에서 회전된 학습 이미지의 BB를 생성하고, 회전된 학습 이미지와 생성된 BB를 이용하여 딥러닝 네트워크를 학습시키는 프로세서;를 포함하는 것을 특징으로 하는 학습 시스템.
An input unit to receive a learning image; And
Select a rotation angle to rotate the learning image, rotate the learning image according to the rotation angle selected in the selection step, and rotate within a range determined by using a BB (Bouding Box) for the recognition object rotated according to the selected rotation angle And a processor for generating a BB of the learned training image and learning the deep learning network using the rotated training image and the generated BB.
KR1020180070055A 2018-06-19 2018-06-19 Data Augmentation based Robust Object Recognition Method and System KR102199912B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180070055A KR102199912B1 (en) 2018-06-19 2018-06-19 Data Augmentation based Robust Object Recognition Method and System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180070055A KR102199912B1 (en) 2018-06-19 2018-06-19 Data Augmentation based Robust Object Recognition Method and System

Publications (2)

Publication Number Publication Date
KR20190142856A true KR20190142856A (en) 2019-12-30
KR102199912B1 KR102199912B1 (en) 2021-01-08

Family

ID=69103072

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180070055A KR102199912B1 (en) 2018-06-19 2018-06-19 Data Augmentation based Robust Object Recognition Method and System

Country Status (1)

Country Link
KR (1) KR102199912B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418321A (en) * 2020-11-24 2021-02-26 北京沃东天骏信息技术有限公司 Identification method and device of sign image
KR20220079209A (en) 2020-12-04 2022-06-13 동의대학교 산학협력단 Device and Method for Deep Learning CMS Dataset Construction Using Rotation Apparatus
KR102509134B1 (en) * 2021-11-30 2023-03-14 주식회사 풀스택 Method and device for determining face liveness
WO2023079828A1 (en) * 2021-11-02 2023-05-11 富士フイルム株式会社 Processing method, processing device, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239939A (en) * 1993-03-09 1995-09-12 Meidensha Corp Image recognition device
JP2016062524A (en) * 2014-09-22 2016-04-25 日本電気株式会社 Data processing system, data processing method and data processing program
KR20170134158A (en) * 2016-05-28 2017-12-06 삼성전자주식회사 System and method to recognize objects in an image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239939A (en) * 1993-03-09 1995-09-12 Meidensha Corp Image recognition device
JP2016062524A (en) * 2014-09-22 2016-04-25 日本電気株式会社 Data processing system, data processing method and data processing program
KR20170134158A (en) * 2016-05-28 2017-12-06 삼성전자주식회사 System and method to recognize objects in an image

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
stackoverflow(웹페이지, https://stackoverflow.com/a/16778797). Rotate image and crop out black borders. 2018.03.25. 출처: https://web.archive.org/web/20180325055054/https://stackoverflow.com/a/16778797* *
김준봉,서기성. 표면 결함 검출을 위한 데이터 확장 및 성능분석. 대한전기학회 논문지 Vol.66 No.5, pp.669-674, 2018.05. 출처: http://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE07431855* *
김태영의 github(웹페이지, https://tykimos.github.io/index.html). 컨볼루션 신경망 모델을 위한 데이터 부풀리기. 2017.06.10.. 출처: https://tykimos.github.io/2017/06/10/CNN_Data_Augmentation/* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418321A (en) * 2020-11-24 2021-02-26 北京沃东天骏信息技术有限公司 Identification method and device of sign image
KR20220079209A (en) 2020-12-04 2022-06-13 동의대학교 산학협력단 Device and Method for Deep Learning CMS Dataset Construction Using Rotation Apparatus
WO2023079828A1 (en) * 2021-11-02 2023-05-11 富士フイルム株式会社 Processing method, processing device, and program
KR102509134B1 (en) * 2021-11-30 2023-03-14 주식회사 풀스택 Method and device for determining face liveness

Also Published As

Publication number Publication date
KR102199912B1 (en) 2021-01-08

Similar Documents

Publication Publication Date Title
KR20190142856A (en) Data Augmentation based Robust Object Recognition Method and System
US11328401B2 (en) Stationary object detecting method, apparatus and electronic device
US11756185B2 (en) Product defect detection
US9213899B2 (en) Context-aware tracking of a video object using a sparse representation framework
US7194110B2 (en) Method and apparatus for tracking features in a video sequence
JP7273129B2 (en) Lane detection method, device, electronic device, storage medium and vehicle
US20170263052A1 (en) Method for generating an ordered point cloud using mobile scanning data
US20200410688A1 (en) Image Segmentation Method, Image Segmentation Apparatus, Image Segmentation Device
CN104200487A (en) Target tracking method based on ORB characteristics point matching
WO2021253789A1 (en) Relocation effect evaluation method and apparatus, electronic device, and storage medium
Wang et al. Deep learning‐based vehicle detection with synthetic image data
CN114677565A (en) Training method of feature extraction network and image processing method and device
US20210264659A1 (en) Learning hybrid (surface-based and volume-based) shape representation
CN114387642A (en) Image segmentation method, device, equipment and storage medium
KR102638038B1 (en) Apparatus and method for denoising based on non-local mean
CN113808142B (en) Ground identification recognition method and device and electronic equipment
US11890544B2 (en) Prop placement with machine learning
CN114219831A (en) Target tracking method and device, terminal equipment and computer readable storage medium
CN112464780A (en) Ellipse object feature extraction method based on maximum entropy criterion
CN111383267A (en) Target relocation method, device and storage medium
CN110751197A (en) Picture classification method, picture model training method and equipment
CN112465692A (en) Image processing method, device, equipment and storage medium
CN109035325A (en) A kind of spot center extracting method, device, equipment and computer readable storage medium
He et al. [Retracted] Application of High‐Resolution Face Recognition and EDF Image Reconstruction in English Classroom Teaching
US20240161391A1 (en) Relightable neural radiance field model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant