KR102588192B1 - 학습 데이터 자동 분류 시스템 - Google Patents

학습 데이터 자동 분류 시스템 Download PDF

Info

Publication number
KR102588192B1
KR102588192B1 KR1020230012232A KR20230012232A KR102588192B1 KR 102588192 B1 KR102588192 B1 KR 102588192B1 KR 1020230012232 A KR1020230012232 A KR 1020230012232A KR 20230012232 A KR20230012232 A KR 20230012232A KR 102588192 B1 KR102588192 B1 KR 102588192B1
Authority
KR
South Korea
Prior art keywords
data
classification
learning
learning target
target data
Prior art date
Application number
KR1020230012232A
Other languages
English (en)
Inventor
이종재
김용수
Original Assignee
주식회사 씨스텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨스텍 filed Critical 주식회사 씨스텍
Priority to KR1020230012232A priority Critical patent/KR102588192B1/ko
Application granted granted Critical
Publication of KR102588192B1 publication Critical patent/KR102588192B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템은, 학습 대상 데이터를 수집하거나 저장하는 원시 데이터부; 상기 학습 대상 데이터에서 특징을 추출하는 특징 추출부; 상기 학습 대상 데이터에서 추출된 특징에 대해서 주성분 분석을 수행하는 주성분 분석부; 상기 주성분에 따라 상기 학습 대상 데이터의 군집 데이터 셋을 생성하는 클러스터링부; 및 상기 군집 데이터 셋을 이용하여 상기 학습 대상 데이터로부터 분류 데이터 셋을 생성하는 데이터 분류부;를 포함할 수 있다.

Description

학습 데이터 자동 분류 시스템{SYSTEM FOR AUTOMATICALLY CLASSIFYING LEARNING DATA}
본 발명은 학습 데이터 자동 분류 시스템에 관한 것으로, 보다 상세하게는 학습 시 활용한 데이터와 비슷한 데이터에 대해서 높은 정확도를 보이는 인공지능 모델의 특징을 고려하여 인공지능 기반 학습 데이터를 특징별로 자동 분류할 수 있는 학습 데이터 자동 분류 시스템을 제공한다.
최근 다양한 분야에서 인공지능(AI; Artificial Intelligence) 기술이 활용되고 있다.
특히, 최근 4차 산업혁명에 따라 비전 센서, 인공지능, 자율주행 자동차, GPU(Graphics Processing Unit) 등 관련 기술의 비약적인 발전으로 인해 CNN(Convolutional Neural Networks; 합성 신경망) 기술 또한 비약적으로 발전하게 되었다.
CNN은 컴퓨터 비전의 중추 역할을 하는 기술로 이미지나 비디오와 같은 데이터를 대상으로 자동으로 패턴을 학습하고 이미지를 분류하기 때문에 특징을 수동으로 입력하지 않아 영상 처리에 유용하게 활용되고 있다.
CNN의 대표적인 모델로는 YOLO, MASK-RCNN, Deeplab v3+ 등 다양한 모델이 있으며, 관심 객체를 탐지하기 위해 이미지나 동영상 내 관심 객체가 라벨링된 데이터가 필요하다. 이와 같은 데이터는 사용자가 직접 라벨링을 수행하거나, AI-HUB, Github 등 다양한 오픈 소스 플랫폼에서 데이터를 획득해야 한다.
그러나, AI 허브 등의 오픈 플랫폼에서 제공하고 있는 데이터는 종류 또는 카테고리 등이 너무 다양해서 이러한 데이터를 이용하여 기계학습 또는 머신러닝에 의한 학습을 진행해도 학습 정확도가 높지 않다는 문제가 있다.
예를 들면, 건물이나 빌딩 등의 표면에 나타나는 백태(흰색 흔적, 물자국 등)를 촬영한 이미지 데이터를 학습 데이터로 사용해서 백태 분석을 인공지능으로 수행하는 경우, 백태 이미지를 얻은 건물의 종류, 백태 이미지의 위치 등에 따라서 학습의 결과가 달라질 수밖에 없다. 동일한 건물에서 촬영한 백태 이미지, 다른 여러 건물에서 촬영한 백태 이미지, 벽면의 백태 이미지, 천정의 백태 이미지 등 이미지의 배경(texture)에 따라서 학습 정확도가 달라질 수밖에 없다.
그런데, 현재 오픈 플랫폼 등에서 제공되고 있는 데이터는 배경(texture) 등에 따라서 데이터가 분류되어 있지 않고 혼재되어 있기 때문에 이러한 데이터를 이용해서 학습을 해도 학습 정확도가 저하될 수 있다.
특히, 시설물 점검 진단의 경우, 배경(texture)과 촬영조건들이 다른 사진들을 마구 섞어서 학습데이터로 구축하게 되면 아무리 인공지능이라도 학습이 잘 안 되는 한계가 있다. 따라서, 비슷한 영상이나 이미지들끼리 묶어서 특징별로 DB로 구축할 필요가 있다.
본 출원인은, 상기와 같은 문제점을 해결하기 위하여 본 발명을 제안하게 되었다.
한국공개특허 제10-2019-0088094호(공개일자: 2019.07.26.)
본 발명은 상기의 문제점을 해결하기 위해 안출된 것으로서, 본 발명의 일 실시예는 데이터 또는 영상(이미지)의 패턴에 따라 학습 데이터를 자동으로 분류할 수 있는 학습 데이터 자동 분류 시스템을 제공한다.
본 발명의 일 실시예는 새로운 테스트 데이터가 주어졌을 때, 기존 학습 데이터 셋 리스트 중에서 어떤 데이터 셋과 가장 유사한지 추천해 주는 기능으로 활용될 수 있는 학습 데이터 자동 분류 시스템을 제공한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 바와 같은 과제를 달성하기 위한 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템은, 학습 대상 데이터를 수집하거나 저장하는 원시 데이터부; 상기 학습 대상 데이터에서 특징을 추출하는 특징 추출부; 상기 학습 대상 데이터에서 추출된 특징에 대해서 주성분 분석을 수행하는 주성분 분석부; 상기 주성분에 따라 상기 학습 대상 데이터의 군집 데이터 셋을 생성하는 클러스터링부; 및 상기 군집 데이터 셋을 이용하여 상기 학습 대상 데이터로부터 분류 데이터 셋을 생성하는 데이터 분류부;를 포함할 수 있다.
상기 특징 추출부는, 합성 신경망(Convolutional Neural Network)의 한 종류인 VGG 네트워크를 이용하여 상기 학습 대상 데이터에서 특징을 추출할 수 있다.
상기 주성분 분석부는, 추출된 특징을 이용하여 상기 학습 대상 데이터의 차원을 축소할 수 있다.
상기 클러스터링부는, K-means 클러스터링을 이용하여 상기 학습 대상 데이터의 군집 데이터 셋을 생성할 수 있다.
상기 클러스터링부는, 상기 주성분 분석부에서 얻어진 상기 학습 대상 데이터의 주성분 개수를 기준으로 상기 학습 대상 데이터의 군집 데이터 셋을 생성할 수 있다.
새로운 학습 대상 데이터가 입력된 경우 상기 데이터 분류부에서 얻어진 데이터 분류를 이용하여 새로운 학습 대상 데이터와 유사한 분류 데이터 셋을 추천하는 분류 추천부를 더 포함할 수 있다.
상기 분류 추천부는, 상기 분류 데이터 셋 중에서 데이터의 개수가 상대적으로 적은 분류 데이터 셋은 추천 대상에서 제외할 수 있다.
상기 분류 추천부는, 새로운 학습 대상 데이터의 주성분과 가까운 주성분을 가지는 분류 데이터 셋을 추천할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템은 데이터 또는 영상(이미지)의 패턴에 따라 학습 데이터를 자동으로 분류할 수 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템은 새로운 테스트 데이터가 주어졌을 때, 기존 학습 데이터 셋 리스트 중에서 어떤 데이터 셋과 가장 유사한지 추천해 줄 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템은 새로운 테스트 데이터를 학습시킬 모 데이터 셋을 선택한 상태에서 학습을 진행할 수 있기 때문에 데이터 학습에 소요되는 시간을 줄일 수 있고, 새로운 테스트 데이터의 학습 정확도를 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템의 구성을 설명하기 위한 도면이다.
도 2는 도 1에 따른 학습 데이터 자동 분류 시스템의 분류 추천부의 구성을 설명하기 위한 도면이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템의 작동 내지 기능을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일, 유사한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도면들은 개략적이고 축적에 맞게 도시되지 않았다는 것을 일러둔다. 도면에 있는 부분들의 상대적인 치수 및 비율은 도면에서의 명확성 및 편의를 위해 그 크기에 있어 과장되거나 감소되어 도시되었으며 임의의 치수는 단지 예시적인 것이지 한정적인 것은 아니다. 그리고 둘 이상의 도면에 나타나는 동일한 구조물, 요소 또는 부품에는 동일한 참조 부호가 유사한 특징을 나타내기 위해 사용된다.
본 발명의 실시예는 본 발명의 이상적인 실시예들을 구체적으로 나타낸다. 그 결과, 도면의 다양한 변형이 예상된다. 따라서 실시예는 도시한 영역의 특정 형태에 국한되지 않으며, 예를 들면 제조에 의한 형태의 변형도 포함한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템의 구성을 설명하기 위한 도면, 도 2는 도 1에 따른 학습 데이터 자동 분류 시스템의 분류 추천부의 구성을 설명하기 위한 도면, 도 3 내지 도 5는 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템의 작동 내지 기능을 설명하기 위한 도면이다.
이하에서는, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)에 이용되는 학습 데이터가 건축물 또는 구조물의 건전성을 모니터링 하거나 건전성을 평가하기 위한 사진 즉, 이미지 데이터인 경우를 예로 들어서 설명한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은, 학습 대상 데이터를 수집하거나 저장하는 원시 데이터부(120); 상기 학습 대상 데이터에서 특징을 추출하는 특징 추출부(130); 상기 학습 대상 데이터에서 추출된 특징에 대해서 주성분 분석을 수행하는 주성분 분석부(140); 상기 주성분에 따라 상기 학습 대상 데이터의 군집 데이터 셋을 생성하는 클러스터링부(150); 및 상기 군집 데이터 셋을 이용하여 상기 학습 대상 데이터로부터 분류 데이터 셋을 생성하는 데이터 분류부(160);를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 시스템(100)은 새로운 학습 대상 데이터가 입력된 경우 데이터 분류부(160)에서 얻어진 데이터 분류를 이용하여 새로운 학습 대상 데이터와 유사한 분류 데이터 셋을 추천하는 분류 추천부(170)를 더 포함할 수 있다.
다시 말하면, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은 데이터 분류 모듈(110) 및 분류 추천부(170)를 포함할 수 있다. 이 경우, 데이터 분류 모듈(110)은 원시 데이터부(120), 특징 추출부(130), 주성분 분석부(140), 클러스터링부(150) 및 데이터 분류부(160)를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은 학습 대상 데이터, 새로운 학습 대상 데이터, 학습 결과 데이터 등을 저장하고 활용하기 위한 데이터베이스(190)를 포함할 수 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)의 원시 데이터부(120)에는 기계학습 또는 머신러닝에 의해서 학습이 필요한 다양한 학습 대상 데이터가 수집되거나 저장될 수 있다.
사용자가 학습이 필요한 학습 대상 데이터를 원시 데이터부(120)에 입력할 수도 있고, 다양한 형태 또는 종류의 학습 대상 데이터를 제공하는 오픈 플랫폼에서부터 원시 데이터부(120)가 학습이 필요한 학습 대상 데이터를 직접 불러올 수도 있다.
원시 데이터부(120)에 저장되어 있는 학습 대상 데이터는 촬영 사진과 같은 이미지 데이터 뿐만 아니라 영상 데이터 등 다양한 데이터를 포함할 수 있다. 즉, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은 이미지 데이터(사진) 뿐만 아니라 다양한 데이터의 분류에 이용될 수 있다.
도 3을 참조하면, 원시 데이터부(120)에는 다양한 사진 또는 이미지 데이터가 저장될 수 있다. 이러한 사진 또는 이미지 데이터에는 학습의 대상이 되는 분야(예를 들면, 건축물의 건전성 평가를 위한 백태 사진 자료)뿐만 아니라 다른 분야의 사진 또는 이미지 데이터도 포함되어 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)의 원시 데이터부(120)는 학습 대상 데이터를 특징 추출부(130)에 전달할 수 있다. 특징 추출부(130)는 학습 대상 데이터에서 특징을 추출하여 학습 대상 데이터를 특징별로 분류하도록 활용할 수 있다.
학습 대상 데이터가 건축물의 건전성 평가를 위한 사진 또는 이미지 데이터인 경우에, 특징 추출부(130)는 합성 신경망(Convolutional Neural Network)의 한 종류인 VGG(Visual Geometry Group) 네트워크를 이용하여 상기 학습 대상 데이터에서 특징을 추출할 수 있다.
특징 추출부(130)는 VGG 네트워크를 거쳐서 학습 대상 데이터(원본 사진 이미지)의 특징을 추출할 수 있다.
도 3을 참조하면, 특징 추출부(130)는 VGG를 이용하여 학습 대상 데이터에서 특징을 추출하는데(VGG feature extraction), 그 결과 특징 벡터(feature vector, 136)를 생성할 수 있다. 특징 추출부(130)가 VGG를 거쳐서 학습 대상 데이터의 특징을 추출하고 특징 벡터를 생성하게 되면, 그 결과 학습 대상 데이터는 압축되거나 추상화되어 데이터의 사이즈(size)가 축소될 수 있다. 또한, 특징 추출부(130)는 학습 대상 데이터의 정보량을 축소시키거나 컨벌루션 레이어(convolution layer)를 압축할 수 있다.
학습 대상 데이터가 건축물의 벽면 등에 발생한 백태 현상을 촬영한 사진 이미지인 경우, 특징 추출부(130)를 거치면 학습 대상 데이터는 사진 이미지의 배경(texture) 패턴에 따라 분류될 수 있다. 또한, 학습 대상 데이터는 특징 추출부(130)를 거쳐 축소된 차원에서 특징을 가질 수 있다.
주성분 분석부(140)는 특징 추출부(130)를 거치면서 특징이 추출된 학습 대상 데이터의 주성분 분석(PCA; Principal Component Analysis)을 수행할 수 있다.
특징 추출부(130)를 거치면서 특징이 추출된 학습 대상 데이터는 여전히 패턴 또는 모양 등을 예상하는 것은 불가능하거나 어렵다. 특징이 추출된 학습 대상 데이터는 주성분 분석부(140)에 의해 분류 가능성을 평가 받을 수 있다.
도 3에 도시된 바와 같이, 주성분 분석부(140)는 특징 추출부(130)를 거치면서 특징이 추출된 학습 대상 데이터를 도메인(domain)에서 플로팅(plotting)하여 학습 대상 데이터의 주성분을 분석할 수 있다.
주성분 분석부(140)는, 학습 대상 데이터의 추출된 특징을 이용하여 학습 대상 데이터의 차원을 축소할 수 있다. 즉, 주성분 분석부(140)는 학습 대상 데이터에서 얻은 특징 벡터(feature vector, 136)의 차원을 줄여서 주성분을 분석할 수 있다.
클러스터링부(150)는 학습 대상 데이터의 주성분에 따라 학습 대상 데이터에 대한 군집화(clustering)를 수행할 수 있다.
도 3을 참조하면, 주성분 분석부(140)에 의해 학습 대상 데이터가 도메인에 플로팅하게 되면 학습 대상 데이터는 몇 개의 그룹으로 구분될 수 있는데, 클러스터링부(150)는 시각적으로 구분되는 그룹으로 학습 대상 데이터를 분류하는 것이 아니라 K-means 클러스터링을 이용하여 플로팅된 학습 대상 데이터의 군집 데이터 셋(clustering data set)을 생성할 수 있다.
클러스터링부(150)는, 주성분 분석부(140)에서 얻어진 학습 대상 데이터의 주성분(principal component)의 개수를 기준으로 학습 대상 데이터의 군집 데이터 셋을 생성할 수 있다.
도 3을 참조하면, 클러스터링부(150)는 K-means clustering을 사용하여 도메인에 플로팅된 학습 대상 데이터를 대략 6개의 군집 데이터 셋으로 묶을 수 있다. 이때, 클러스터링부(150)는 상대적으로 데이터의 개수가 적은 그룹은 군집 데이터 셋으로 생성하지 않을 수 있다.
데이터 분류부(160)는 클러스터링부에서 생성된 군집 데이터 셋을 이용하여 학습 대상 데이터의 분류 데이터 셋을 생성할 수 있다.
도 3을 참조하면, 데이터 분류부(160)는 주성분 분석부(150)에서 생성된 군집 데이터 셋 별로 데이터를 분류할 수 있다. 주성분 분석부(150)에 의해서 생성된 6개의 군집 데이터 셋에 대해서, 데이터 분류부(160)는 6개의 분류 데이터 셋(161,162,163,164,165,166)을 생성할 수 있다.
도 3에 도시된 바와 같이, 데이터 분류부(160)에 의해서 생성된 각각의 분류 데이터 셋(161,162,163,164,165,166)은 배경(texture)이 유사한 사진 이미지끼리 데이터 셋을 형성하고 있음을 알 수 있다.
데이터 분류부(160)는 각 분류 데이터 셋의 공통된 특징 또는 분류 기준 등을 추출하여 저장할 수 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은 데이터 분류부(160)에서 생성된 분류 데이터 셋 중 동일한 분류 데이터 셋에 해당하거나 포함되는 학습 대상 데이터를 대상으로 기계학습 또는 머신러닝을 수행함으로써 학습률을 높이고 학습 정확도를 향상시킬 수 있다.
도 4는 건축물 표면이 박리 현상을 촬영한 사진 이미지 데이터를 학습 대상 데이터로 하여, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)에 의해 학습 대상 데이터를 분류한 결과를 예시적으로 보여주는 도면이다. 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)의 데이터 분류부(160)는 도 4에 도시된 바와 같이 3개의 분류 데이터 셋을 생성할 수 있다.
도 4를 참조하면, 분류 데이터 셋 중 Cluster 1은 건축물의 벽면 이음부 또는 모서리에서의 박리 현상을 촬영한 사진 데이터 셋이고, Cluster 2는 건축물의 천정에서의 박리 또는 수평형태로 발생하는 박리 현상을 촬영한 사진 데이터 셋이며, Cluster 3은 움푹 패인 형태로 발생하는 박리 현상을 촬영한 사진 데이터 셋이다.
한편, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은, 상기에서 언급한 바와 같이, 새로운 학습 대상 데이터가 입력된 경우 데이터 분류부(160)에서 얻어진 데이터 분류를 이용하여 새로운 학습 대상 데이터와 유사한 분류 데이터 셋을 추천하는 분류 추천부(170)를 더 포함할 수 있다.
분류 추천부(170)는 기계학습 또는 머신러닝을 적용해야 하는 새로운 학습 대상 데이터가 데이터 분류부(160)에서 생성된 분류 데이터 셋 중 어떤 분류 데이터 셋과 유사한지 추천해 줄 수 있다. 분류 추천부(170)가 추천하거나 제안하는 분류 데이터 셋에 속하는 데이터와 새로운 학습 대상 데이터를 묶어서 기계학습 또는 머신러닝을 적용함으로써, 새로운 학습 대상 데이터의 학습률을 높이거나 학습 정확도를 높일 수 있다. 왜냐하면, 분류 추천부(170)가 추천하는 분류 데이터 셋과 새로운 학습 대상 데이터가 유사하거나 공통점이 있기 때문에 새로운 학습 대상 데이터의 학습 정확도를 높일 수 있다.
도 2에 도시된 바와 같이, 분류 추천부(170)는 분류 대상 데이터부(171), 주성분 추출부(172), 주성분 비교부(173), 매칭 분류 결정부(174)를 포함할 수 있다. 도 2에 도시된 분류 추천부(170)의 구성은 예시적인 것이며, 분류 추천부(170)의 구성이 도 2에 도시된 바에 한정되는 것은 아니다.
도 2를 참조하면, 분류 대상 데이터부(171)에는 새로운 학습 대상 데이터가 저장될 수 있다.
주성분 추출부(172)는 새로운 학습 대상 데이터의 특징을 추출하거나 주성분 분석을 수행하여 주성분을 추출할 수 있다.
주성분 비교부(173)는 주성분 추출부(172)에서 추출한 새로운 학습 대상 데이터의 주성분과, 데이터 분류부(160)에서 생성된 분류 데이터 셋의 주성분과 비교할 수 있다.
매칭 분류 결정부(174)는 주성분 비교부(173)의 비교 결과를 이용하여 새로운 학습 대상 데이터의 주성분과 가장 유사한 주성분을 가지는 분류 데이터 셋을 선택하고 추천할 수 있다.
이와 같이, 분류 추천부(170)는, 주성분 추출부(172) 및 주성분 비교부(173)에 의해 새로운 학습 대상 데이터의 주성분과 가까운 주성분을 가지는 분류 데이터 셋을 추천할 수 있다.
본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)은 분류 추천부(170)에서 추천해 주는 분류 데이터 셋과 새로운 학습 대상 데이터를 묶어서 머신러닝을 수행함으로써 학습률을 향상시킬 수 있고 정확한 학습 결과를 얻을 수 있다.
예를 들어, 새로운 학습 대상 데이터가 건축물의 벽면 이음부 또는 모서리에서 발생하는 박리 현상을 촬영한 사진 데이터인 경우, 분류 추천부(170)는 도 4에 도시된 Cluster 1이 분류 데이터 셋을 추천함으로써 새로운 학습 대상 데이터의 학습 정확도를 보장할 수 있다. 만약, 박리 현상 사진 데이터를 Cluster 2 또는 3과 묶어서 머신러닝을 수행하는 경우에는 서로 관련성이 없는 데이터가 혼재되어 있기 때문에 학습 정확도를 기대하기 어렵다.
도 5에는 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)을 이용하여 학습 대상 데이터를 자동으로 분류하는 과정이 예시적으로 도시되어 있다.
도 5의 (a)는 원시 데이터부(120)에 저장되어 있는 학습 대상 데이터를 나타낸다. (a)와 같은 학습 대상 데이터는 건축물 또는 구조물을 촬영한 사진 데이터로서 다양하고 서로 다른 배경(texture)의 사진 데이터 임을 알 수 있다.
도 5의 (b)는 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)의 데이터 분류부(160)에서 생성되는 분류 데이터 셋을 나타낸다.
도 5의 (c)는 (b)와 같이 분류된 분류 데이터 셋을 이용하여 머신러닝을 적용하는 분류 데이터 셋별 전용 모델을 나타낸다.
한편, 본 출원의 발명자들은, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)을 사용하여 생성된 분류 데이터 셋의 정확도를 평가해 보았다. 구축한 박리 데이터 중 서브 데이터 셋을 구축하고, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)을 적용하여 각 모델의 성능을 평가해 보았다.
데이터 수 Precision Recall FI-score
ALL 417 65 51 58
Cluster 1 185 70 54 62
Cluster 2 153 86 68 77
Cluster 3 79 46 40 43
[표 1]에서 Cluster 1, 2, 3는 각각 도 4에 도시된 Cluster 1, 2, 3의 데이터를 의미한다. 즉, 박리 사진 데이터에 대한 분류 데이터 셋을 의미한다.
도 4의 Cluster 1, 2, 3의 분류 데이터 셋에 속하는 데이터 개수는 각각 185개, 153개, 79개로서, Cluster 1의 데이터가 가장 많다.
평가 결과, Cluster 1 및 2의 데이터 대상 전용 모델(도 5의 (c) 참조)의 경우, 전체 영상을 활용한 모델 대비 높은 F1-score를 보였다.
Cluster 3의 경우, Cluster 1 및 2의 큰 군집 대비 작은 군집(데이터의 개수가 적은 분류 데이터 셋)의 데이터로 여러 패턴이 섞인 학습 데이터가 섞여 있어서 탐지 성능이 오히려 떨어졌다. 만약, Cluster 3에 대해서도 세부적으로 분류를 수행하면 Cluster 1 및 2와 같은 결과를 획득할 수 있을 것으로 판단된다.
평가 결과에서 알 수 있듯이, 본 발명의 일 실시예에 따른 학습 데이터 자동 분류 시스템(100)의 분류 추천부(170)는, 분류 데이터 셋(161,162,163,164,165,166) 중에서 데이터의 개수가 상대적으로 적은 분류 데이터 셋은 추천 대상 또는 분류 대상에서 제외할 수 있다. 데이터의 개수가 상대적으로 적은 경우에는 데이터의 개수가 상대적으로 많은 데이터 셋에 비하여 정확하지 않은 분류 기준 또는 분류 특성을 가질 수 있기 때문에, 데이터 개수가 적은 경우에는 분류 데이터 셋에서 제외하거나 추천 대상에서 제외하는 것이 바람직하다.
이상에서 설명된 시스템(장치)은 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
또한, 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
100: 학습 데이터 자동 분류 시스템
110: 데이터 분류 모듈
120: 원시 데이터부
130: 특징 추출부
140: 주성분 분석부
150: 클러스터링부
160: 데이터 분류부
170: 분류 추천부

Claims (8)

  1. 학습 대상 데이터를 수집하거나 저장하는 원시 데이터부;
    상기 학습 대상 데이터에서 특징을 추출하는 특징 추출부;
    상기 학습 대상 데이터에서 추출된 특징에 대해서 주성분 분석을 수행하는 주성분 분석부;
    상기 주성분에 따라 상기 학습 대상 데이터의 군집 데이터 셋을 생성하는 클러스터링부; 및
    상기 군집 데이터 셋을 이용하여 상기 학습 대상 데이터로부터 분류 데이터 셋을 생성하는 데이터 분류부;를 포함하며,
    상기 특징 추출부는,
    합성 신경망(Convolutional Neural Network)의 한 종류인 VGG 네트워크를 이용하여 상기 학습 대상 데이터에서 특징을 추출하고 특징 벡터를 생성함으로써 상기 학습 대상 데이터를 압축하거나 추상화하여 데이터의 사이즈를 축소하고, 상기 학습 대상 데이터의 정보량을 축소시키거나 컨벌루션 레이어를 압축하고,
    상기 주성분 분석부는,
    추출된 특징을 이용하여 상기 학습 대상 데이터의 차원을 축소하되 상기 학습 대상 데이터에서 얻은 상기 특징 벡터의 차원을 줄여서 주성분을 분석하는 것을 특징으로 하는 학습 데이터 자동 분류 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 클러스터링부는,
    K-means 클러스터링을 이용하여 상기 학습 대상 데이터의 군집 데이터 셋을 생성하는 것을 특징으로 하는 학습 데이터 자동 분류 시스템.
  5. 제4항에 있어서,
    상기 클러스터링부는,
    상기 주성분 분석부에서 얻어진 상기 학습 대상 데이터의 주성분 개수를 기준으로 상기 학습 대상 데이터의 군집 데이터 셋을 생성하는 것을 특징으로 하는 학습 데이터 자동 분류 시스템.
  6. 제1항, 제4항 및 제5항 중 어느 한 항에 있어서,
    새로운 학습 대상 데이터가 입력된 경우 상기 데이터 분류부에서 얻어진 데이터 분류를 이용하여 새로운 학습 대상 데이터와 유사한 분류 데이터 셋을 추천하는 분류 추천부를 더 포함하는 것을 특징으로 하는 학습 데이터 자동 분류 시스템.
  7. 제6항에 있어서,
    상기 분류 추천부는,
    상기 분류 데이터 셋 중에서 데이터의 개수가 상대적으로 적은 분류 데이터 셋은 추천 대상에서 제외하는 것을 특징으로 하는 학습 데이터 자동 분류 시스템.
  8. 제6항에 있어서,
    상기 분류 추천부는,
    새로운 학습 대상 데이터의 주성분과 가까운 주성분을 가지는 분류 데이터 셋을 추천하는 것을 특징으로 하는 학습 데이터 자동 분류 시스템.
KR1020230012232A 2023-01-31 2023-01-31 학습 데이터 자동 분류 시스템 KR102588192B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230012232A KR102588192B1 (ko) 2023-01-31 2023-01-31 학습 데이터 자동 분류 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230012232A KR102588192B1 (ko) 2023-01-31 2023-01-31 학습 데이터 자동 분류 시스템

Publications (1)

Publication Number Publication Date
KR102588192B1 true KR102588192B1 (ko) 2023-10-12

Family

ID=88291522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230012232A KR102588192B1 (ko) 2023-01-31 2023-01-31 학습 데이터 자동 분류 시스템

Country Status (1)

Country Link
KR (1) KR102588192B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190088094A (ko) 2017-12-29 2019-07-26 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
KR20220064159A (ko) * 2020-11-11 2022-05-18 부산대학교 산학협력단 이미지 분류 모델의 학습 방법 및 이미지 분류 모델의 학습 시스템
JP2022186422A (ja) * 2021-06-04 2022-12-15 国立大学法人横浜国立大学 分類装置、分類方法、及び、分類プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190088094A (ko) 2017-12-29 2019-07-26 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
KR20220064159A (ko) * 2020-11-11 2022-05-18 부산대학교 산학협력단 이미지 분류 모델의 학습 방법 및 이미지 분류 모델의 학습 시스템
JP2022186422A (ja) * 2021-06-04 2022-12-15 国立大学法人横浜国立大学 分類装置、分類方法、及び、分類プログラム

Similar Documents

Publication Publication Date Title
Lin et al. CODE: Coherence based decision boundaries for feature correspondence
Nakazawa et al. Anomaly detection and segmentation for wafer defect patterns using deep convolutional encoder–decoder neural network architectures in semiconductor manufacturing
Noroozi et al. Representation learning by learning to count
Huang et al. Learning to parse wireframes in images of man-made environments
Rocco et al. Ncnet: Neighbourhood consensus networks for estimating image correspondences
Tang et al. A textured object recognition pipeline for color and depth image data
CN108875133A (zh) 确定建筑布局
Banica et al. Second-order constrained parametric proposals and sequential search-based structured prediction for semantic segmentation in RGB-D images
KR101581112B1 (ko) 계층적 패턴 구조에 기반한 기술자 생성 방법 및 이를 이용한 객체 인식 방법과 장치
CN111444828A (zh) 一种模型训练的方法、目标检测的方法、装置及存储介质
CN111061898A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
Zhong et al. T-net: Effective permutation-equivariant network for two-view correspondence learning
Zhang et al. Fine localization and distortion resistant detection of multi-class barcode in complex environments
Cui et al. Real-time detection of wood defects based on SPP-improved YOLO algorithm
Vijayan et al. A universal foreground segmentation technique using deep-neural network
He et al. ContourPose: Monocular 6-D Pose Estimation Method for Reflective Textureless Metal Parts
KR102588192B1 (ko) 학습 데이터 자동 분류 시스템
Arandjelovic et al. Efficient image retrieval for 3D structures.
CN112686122A (zh) 人体及影子的检测方法、装置、电子设备、存储介质
Li et al. Bridging the robot perception gap with mid-level vision
CN113762231B (zh) 端对端的多行人姿态跟踪方法、装置及电子设备
Tong et al. Robust facial expression recognition based on local tri-directional coding pattern
Lin et al. A new probabilistic representation of color image pixels and its applications

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant