KR102267487B1 - 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치 - Google Patents

메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치 Download PDF

Info

Publication number
KR102267487B1
KR102267487B1 KR1020190079803A KR20190079803A KR102267487B1 KR 102267487 B1 KR102267487 B1 KR 102267487B1 KR 1020190079803 A KR1020190079803 A KR 1020190079803A KR 20190079803 A KR20190079803 A KR 20190079803A KR 102267487 B1 KR102267487 B1 KR 102267487B1
Authority
KR
South Korea
Prior art keywords
data
classification model
metadata
classification
learning
Prior art date
Application number
KR1020190079803A
Other languages
English (en)
Other versions
KR20210004036A (ko
Inventor
조위덕
최선탁
이주영
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020190079803A priority Critical patent/KR102267487B1/ko
Publication of KR20210004036A publication Critical patent/KR20210004036A/ko
Application granted granted Critical
Publication of KR102267487B1 publication Critical patent/KR102267487B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/627
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

메타데이터를 이용한 독립 분류 모델의 동작 방법을 개시한다. 본 발명의 일실시예에 따른 메타데이터를 이용한 독립 분류 모델의 동작 방법은 분류모델 학습부가, 복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시키는 단계; 데이터 비교부가, 상기 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 상기 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정하는 단계; 및 데이터 분류부가, 상기 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 상기 대상 데이터를 분류하는 단계를 포함한다.

Description

메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치 {METHOD AND APPARATUS FOR OPERATING INDEPENDENT CLASSIFICATION MODEL USING METADATA}
본 발명은 패턴 인식을 위해 메타데이터에 기반하여 분할된 데이터 집합들에 대하여 독립적인 분류 모델을 생성하여 학습시킨 독립 분류 모델의 동작 방법 및 그 장치에 관한 것이다.
단일 알고리즘을 이용한 패턴 인식의 한계를 극복하기 위하여 복수의 알고리즘을 병렬 또는 직렬로 조합하여 분류기를 설계하는 앙상블 기법(ensemble approach)에 관한 연구가 진행되어 왔다.
우선, 도 4(a)를 참조하면, 배깅(Bagging) 기법은 Bootstrap 기법과 Aggregating 기법을 결합한 것이다. Bootstrap 기법은 랜덤하게 재배치한 학습용 데이터 집합에서 중복을 허용하는 부분 집합(복원 랜덤 샘플링)을 생성하고 생성된 부분 집합 당 분류 모델을 학습시킨다. 또한, Aggregating 기법은 분류 대상 데이터가 들어왔을 때, 모든 분류 모델에 대해서 분류를 실행하고 결과를 집계(선택, 투표 등)를 이용하여 분류 결과를 결정한다. 이때, 각 분류 모델은 병렬로 처리되며 집계 과정에서 수합된다. 따라서, 각 분류 모델이 서로 독립적이지 않고 양의 상관 관계를 가지는 경우, 오히려 오차가 확대되는 문제를 야기할 수 있다.
또한, 도 4(b)를 참조하면, 부스팅(Boosting) 기법은 복원 랜덤 샘플링으로 데이터 집합을 나누어 학습시키는 기법이다. 주어진 데이터 집합에서 단순한 조건을 이용하여 약한 분류기를 선택한다. 이 때 약한 분류기는 한 가지는 확실하게 맞추는 조건으로 설계된다. 이때, 혼동행렬(confusion matrix)에서 False Positive(FP)나 False Negative(FN)가 최소인 분류기가 선택될 수 있다. 또한, 분류에 실패한 데이터에 가중치를 부여하고, 이러한 방법으로 틀린 영역에 중복되지 않는 조건 사용으로 위 과정을 반복 수행하여 일련의 약한 분류기를 결합한 강한 분류기를 설계한다. 즉, 각 분류 모델은 직렬로 처리되며 틀린 문제에 집중하여 어려운 문제를 해결한다. 따라서, 오류 데이터(outlier)에 민감하며, 과적합(overfitting) 문제를 야기할 수 있다.
따라서, 이러한 기존의 앙상블 기법들의 문제점을 극복하기 위한 새로운 앙상블 기법에 대한 필요성이 대두되고 있다.
한국 공개특허공보 제10-2017-0140757호(2017.12.21.)
본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 메타데이터에 따라 학습 데이터를 분리하여 복수의 분류모델을 학습시킨 후, 그 중에서 데이터 기반으로 최적의 분류모델을 선택하여 분류함으로써, 입력된 데이터의 분류 성능을 향상시킬 수 있는 독립 분류 모델의 동작 방법 및 그 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기의 목적을 달성하기 위한 본 발명의 일 실시예에 따른 메타데이터를 이용한 독립 분류 모델의 동작 방법은 분류모델 학습부가, 복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시키는 단계; 데이터 비교부가, 상기 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 상기 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정하는 단계; 및 데이터 분류부가, 상기 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 상기 대상 데이터를 분류하는 단계를 포함한다.
바람직하게는, 상기 선택데이터집합을 결정하는 단계는 상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하면, 상기 메타데이터 및 상기 유사 판단 기준 중 적어도 하나를 이용하고, 상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하지 않으면, 상기 유사 판단 기준을 이용할 수 있다.
바람직하게는, 상기 분류모델을 학습시키는 단계와 상기 선택데이터집합을 결정하는 단계의 사이에, 상기 분류모델 학습부가, 상기 복수의 데이터집합에 포함된 개별 데이터집합과 상기 개별 데이터집합에 대응되는 분류모델을 짝지어 저장소에 저장하는 단계를 더 포함하고, 상기 데이터 비교부는 상기 저장소로부터 상기 복수의 데이터집합을 획득하고, 상기 데이터 분류부는 상기 저장소로부터 상기 선택분류모델을 획득할 수 있다.
바람직하게는, 상기 분류모델을 학습시키는 단계는 상기 복수의 데이터집합 각각에 대하여, 복수의 분류모델 중 하나인 임시 분류모델을 학습시키는 단계; 혼동행렬(confusion matrix)에 기초하여, 상기 학습된 임시 분류모델의 성능을 평가하는 단계; 및 상기 복수의 분류모델 모두에 대하여, 상기 임시 분류모델을 학습시키는 단계 및 상기 학습된 임시 분류모델의 성능을 평가하는 단계를 수행하여, 상기 평가된 성능에 따라 하나의 분류모델을 결정하는 단계를 포함할 수 있다.
바람직하게는, 상기 복수의 분류모델은 확률 및 통계, 도메인 변환, 인공 신경망, 전문가 시스템, 인스턴스 기반 학습, 의사 결정 트리 및 앙상블 기법에 기반한 분류모델들 중에서 선정될 수 있다.
바람직하게는, 상기 복수의 학습 데이터 및 상기 대상 데이터에 대하여 소정의 기준에 따른 대표값을 추출하는 특징추출(feature extraction) 및 상기 대표값으로 구성된 특징 공간의 차원을 축소하는 차원축소(dimensionality reduction)는 사전 설정에 따라서 데이터 처리부 및 상기 분류모델 중 하나에 의해 수행되거나, 상기 데이터 처리부 및 상기 분류모델에서 나뉘어 수행될 수 있다.
바람직하게는, 상기 데이터 처리부가 특징추출 또는 차원축소를 수행하는 경우에, 상기 분류모델을 학습시키는 단계의 이전에, 상기 데이터 처리부가, 상기 복수의 학습 데이터에 대하여 특징추출 또는 차원축소를 수행하는 단계; 및 상기 선택데이터집합을 결정하는 단계의 이전에, 상기 데이터 처리부가, 상기 대상 데이터에 대하여 특징추출 또는 차원축소를 수행하는 단계를 더 포함할 수 있다.
바람직하게는, 상기 데이터 유사 판단 기준은 상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 유사도가 소정의 유사임계치 이상인지 여부 또는 상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 오차가 소정의 오차임계치 이하인지 여부일 수 있다.
또한, 상기의 목적을 달성하기 위한 본 발명의 일 실시예에 따른 메타데이터를 이용한 독립 분류 모델 장치는 저장소; 복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시키고, 상기 복수의 데이터집합에 포함된 개별 데이터집합과 상기 개별 데이터집합에 대응되는 분류모델을 짝지어 상기 저장소에 저장하는 분류모델 학습부; 상기 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 상기 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정하는 데이터 비교부; 및 상기 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 상기 대상 데이터를 분류하는 데이터 분류부를 포함한다.
바람직하게는, 상기 데이터 비교부는 상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하면, 상기 메타데이터 및 상기 유사 판단 기준 중 적어도 하나를 이용하고, 상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하지 않으면, 상기 유사 판단 기준을 이용할 수 있다.
바람직하게는, 상기 분류모델 학습부는 상기 복수의 데이터집합 각각에 대하여, 복수의 분류모델 중 하나인 임시 분류모델을 학습시키고, 혼동행렬(confusion matrix)에 기초하여, 상기 학습된 임시 분류모델의 성능을 평가하는 과정을 상기 복수의 분류모델 모두에 대하여 수행하고, 상기 평가된 성능에 따라 하나의 분류모델을 결정할 수 있다.
바람직하게는, 상기 복수의 분류모델은 확률 및 통계, 도메인 변환, 인공 신경망, 전문가 시스템, 인스턴스 기반 학습, 의사 결정 트리 및 앙상블 기법에 기반한 분류모델들 중에서 선정될 수 있다.
바람직하게는, 상기 복수의 학습 데이터 및 상기 대상 데이터에 대하여 소정의 기준에 따른 대표값을 추출하는 특징추출(feature extraction) 및 상기 대표값으로 구성된 특징 공간의 차원을 축소하는 차원축소(dimensionality reduction)는 사전 설정에 따라서 데이터 처리부 및 상기 분류모델 중 하나에 의해 수행되거나, 상기 데이터 처리부 및 상기 분류모델에서 나뉘어 수행될 수 있다.
바람직하게는, 상기 데이터 유사 판단 기준은 상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 유사도가 소정의 유사임계치 이상인지 여부 또는 상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 오차가 소정의 오차임계치 이하인지 여부일 수 있다.
본 발명의 일 실시예에 따르면, 메타데이터에 따라 학습 데이터를 분류한 후 개별 분류모델을 학습시키므로, 학습 데이터 간의 중복이 발생하지 않아 과적합(overfitting) 문제를 방지할 수 있으며, 변인은 뚜렷하지만 일반화시키기 어려운 학습 데이터를 이용하는 경우 활용도가 높아지는 효과가 있다.
또한, 본 발명의 일 실시예에 따르면, 다수의 분류모델 중에 하나의 분류모델을 선별하여 분류를 수행하게 되므로, 다수의 분류모델을 직렬 또는 병렬로 이용하는 기존의 앙상블 기법보다 시스템 부하 및 동작 시간의 측면에서 우수한 효과가 있다.
또한, 본 발명의 일 실시예에 따르면, 다수의 분류모델을 제약없이 이용할 수 있어 개별 상황에 적합한 분류모델을 용이하게 적용할 수 있으며, 학습 데이터 간의 중복이 발생하지 않으므로 분류모델의 학습과정이 빠르게 수행될 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른, 메타데이터를 이용한 독립 분류 모델의 동작 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 실시예에 따른, 분류모델을 학습시키는 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 실시예에 따른, 메타데이터를 이용한 독립 분류 모델 장치의 블록도이다.
도 4는 종래의 기술에 따른 앙상블 기법과 본 발명의 일 실시예에 따른 앙상블 기법을 설명하기 위한 도면이다.
도 5는 혼동행렬(confusion matrix)를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 데이터 처리부와 분류모델의 분리를 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른, 메타데이터를 이용한 독립 분류 모델의 동작 방법을 설명하기 위한 흐름도이다.
본 발명에서 메타데이터는 분류모델을 설계하기 위하여 직접적으로 필요한 정보가 아니며, 변인(variable)으로 해석될 수 있다. 예컨대, '가속도 센서를 이용한 행동 인지'에서 가속도 센서로부터 수집된 신호는 데이터이며, 그 가속도 센서가 측정된 특정 행동은 클래스 또는 레이블이라고 한다. 이때, 메타데이터는 수집 환경, 실험자의 성별/연령, 실험자 번호 등 분류 대상인 데이터를 설명하는 변인 정보를 의미할 수 있다.
단계 S110에서는, 분류모델 학습부가, 복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시킨다.
이때, 복수의 학습 데이터에는 다양한 종류의 메타데이터가 포함되어 있거나 별도로 제공될 수 있다. 그리고, 복수의 학습 데이터는 소정의 메타데이터에 기반하여 복수의 데이터집합으로 분류될 수 있다. 바람직하게는, 복수의 학습 데이터는 서로 다른 데이터집합에 동일한 학습 데이터가 중복되어 존재하지 않도록 분류될 수 있다.
한편, 데이터 분류의 기준이 되는 메타데이터는 분류 모델 설계자의 경험적/실험적 요인, 분류 대상의 특징 또는 도메인지식에 따라 결정될 수 있다. 예컨대, 트레드밀에서 속도별 걷기/달리기 행동을 측정할 경우 여성이 남성보다 더 낮은 속도에서 뛰기 시작하므로 분리 기준이 되는 메타데이터는 성별로 설정될 수 있다.
그 후, 분류모델 학습부는 분류된 복수의 데이터집합 각각에 대하여 최적화된 다양한 종류의 분류모델을 생성하여 학습시킬 수 있다. 이때, 변인 선택이 잘 될수록, 생성된(학습된) 분류 모델 간에 유사성이 적어질 수 있다. 그러나, 분류모델 간의 유사성을 파악하는 방법은 모델에 따라 다를 수 있으며, 그 방법이 존재하지 않을 수도 있다.
단계 S120에서는, 데이터 비교부가, 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 그 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정한다.
즉, 데이터 비교부는 메타데이터 및 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 복수의 데이터집합 중에서 대상 데이터에 대응되는 데이터집합을 결정할 수 있다.
만일, 데이터 비교부가 메타데이터를 이용한다면, 복수의 데이터집합 중에서 대상 데이터의 메타데이터와 동일하거나 유사한 메타데이터로 분류된 데이터집합으로 선택데이터집합을 결정할 수 있다.
또한, 데이터 비교부가 데이터 유사 판단 기준을 이용한다면, 복수의 데이터집합 각각에 포함된 학습 데이터와 대상 데이터 간의 데이터 유사 여부를 판단한 후, 복수의 데이터집합 중에서 선택데이터집합을 결정할 수 있다.
다른 실시예에서는, 데이터 비교부는 대상 데이터의 메타데이터가 존재하는지 여부에 따라, 상이한 방법으로 선택데이터집합을 결정할 수 있다.
즉, 데이터 비교부는 만일 대상 데이터의 메타데이터에 관한 정보가 존재하면, 그 메타데이터 및 유사 판단 기준 중 적어도 하나를 이용하여 선택데이터집합을 결정할 수 있다.
하지만, 데이터 비교부는 만일 대상 데이터의 메타데이터에 관한 정보가 존재하지 않으면, 유사 판단 기준만을 이용하여 선택데이터집합을 결정할 수 있다.
이는, 대상 데이터에 따라서 데이터집합을 분류하기 위해 이용된 메타데이터가 포함되어 있을 수도, 포함되어 있지 않을 수도 있기 때문이다.
만일, 대상 데이터에 해당 메타데이터가 포함되어 있고, 데이터 비교부가 그 메타데이터만을 이용하여 선택데이터집합을 결정하는 경우, 데이터 유사 판단 기준을 이용한 데이터 비교 과정을 생략할 수 있어, 연산량을 줄일 수 있는 효과가 있다.
또 다른 실시예에서는, 데이터 유사 판단 기준은 복수의 데이터집합 각각에 포함된 데이터와 대상 데이터의 유사도가 소정의 유사임계치 이상인지 여부 또는 복수의 데이터집합 각각에 포함된 데이터와 대상 데이터의 오차가 소정의 오차임계치 이하인지 여부일 수 있다.
예컨대, 데이터 비교부는 복수의 데이터집합을 구성하는 개별 데이터집합에 포함된 학습 데이터 각각과 대상 데이터의 유사도(similarity)를 산출하고, 평균을 산출한 뒤, 그 평균 유사도가 유사임계치 이상이면 그 개별 데이터집합이 대상 데이터와 유사하다고 판단할 수 있다.
또한, 데이터 비교부는 복수의 데이터집합을 구성하는 개별 데이터집합에 포함된 학습 데이터 각각과 대상 데이터의 오차(error)를 산출하고, 평균을 산출한 뒤, 그 평균 오차가 오차임계치 이하이면 그 개별 데이터집합이 대상 데이터와 유사하다고 판단할 수 있다.
마지막으로 단계 S130에서는, 데이터 분류부가, 그 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 대상 데이터를 분류한다.
즉, 데이터 분류부는 그 선택데이터집합에 대응되는 선택분류모델을 이용하여, 대상 데이터를 분류할 수 있다.
다시 말하면, 데이터 비교부가 대상 데이터와 데이터집합에 포함된 학습 데이터와의 유사성을 기반으로 선택데이터집합을 결정하면, 데이터 분류부가 그 선택데이터집합에 대응되는 선택분류모델을 이용하여 대상 데이터를 분류할 수 있다.
다른 실시예에서는, 분류모델 학습부가 그 복수의 데이터집합에 포함된 개별 데이터집합과 그 개별 데이터집합에 대응되는 분류모델을 짝지어 저장소에 저장하고, 데이터 비교부는 그 저장소로부터 복수의 데이터집합을 획득하고, 데이터 분류부는 그 저장소로부터 선택분류모델을 획득할 수 있다.
즉, 본 발명에서 데이터 비교부는 복수의 학습 데이터를 분류한 결과인 복수의 데이터집합 중에서 대상 데이터에 대응되는 선택데이터집합을 결정해야 한다. 이는, 복수의 데이터집합이 단계 S110에서 학습이 완료된 이후에도 계속하여 이용된다는 것을 의미하며, 학습이 완료된 이후에는 학습 데이터를 이용하지 않는 다른 앙상블 기법들과의 차이점이라고 할 수 있다.
이를 위해, 분류모델 학습부는 복수의 데이터집합을 각각의 데이터집합에 대응되는 분류모델과 쌍을 이루도록 하여 저장소에 저장시킬 수 있다. 또한, 데이터 비교부 및 데이터 분류부는 저장소에 저장된 데이터집합 및 분류모델을 이용하여 동작할 수 있다. 이처럼, 데이터집합과 분류모델이 쌍을 이루어 저장소에 저장됨으로써, 데이터 분류부는 선택데이터집합과 짝을 이루는 선택분류모델을 저장소로부터 용이하게 획득할 수 있다.
한편, 본 발명의 저장소는 데이터베이스 서버, HDD, SSD등과 같은 저장 장치, 클라우드 저장소 등과 같이 다양한 형태일 수 있으나, 나열된 예시로 한정되지 않음은 물론이다.
또 다른 실시예에서는, 복수의 학습 데이터 및 대상 데이터에 대하여 소정의 기준에 따른 대표값을 추출하는 특징추출(feature extraction) 및 그 대표값으로 구성된 특징 공간의 차원을 축소하는 차원축소(dimensionality reduction)는, 사전 설정에 따라서 데이터 처리부 및 분류모델 중 하나에 의해 수행되거나, 데이터 처리부 및 분류모델에서 나뉘어 수행될 수 있다.
예컨대, 도 6(a)를 참조하면, 분류모델의 사용 환경 또는 입력되는 데이터의 종류 등 다양한 요인에 따라, 분류모델 내부에서 학습 데이터 또는 대상 데이터에 대하여 특징추출과 차원축소가 수행될 수 있다.
또한, 도 6(b)를 참조하면, 데이터 처리부에 의해 학습 데이터 또는 대상 데이터에 대하여 특징추출이 수행되고, 특징추출된 결과에 대하여는 분류모델 내부에서 차원축소가 수행될 수 있다.
또한, 도 6(c)를 참조하면, 데이터 처리부에 의해 학습 데이터 또는 대상 데이터에 대하여 특징추출 및 차원축소가 수행될 수 있다.
이처럼, 본 발명에서는 특징추출과 차원축소가 데이터 처리부와 분류모델에 의해 가변적으로 분담하여 수행될 수 있도록 설정할 수 있다.
또 다른 실시예에서는, 데이터 처리부가 특징추출 또는 차원축소를 수행하는 경우에, 단계 S110의 이전에, 복수의 학습 데이터에 대하여 특징추출 또는 차원축소를 수행하고, 단계 S120의 이전에, 대상 데이터에 대하여 특징추출 또는 차원축소를 수행할 수 있다.
즉, 데이터 처리부는 분류모델에 대하여 학습이 수행되기 이전에 학습 데이터에 대하여 특징추출 또는 차원축소를 우선적으로 수행할 수 있다. 또한, 데이터 처리부는 대상 데이터가 선택분류모델에 입력되기 이전에 특징추출 또는 차원축소를 우선적으로 수행할 수 있다.
한편, 필터링 또는 양자화(quantization)와 같이 데이터의 잡음 또는 이상치를 제거하는 일반적인 전처리 과정(pre-processing)과 데이터를 단위 시간 또는 레코드 단위로 분할하는 세그멘테이션 과정(segmentation)은 데이터 처리부에 의해 수행되는 것이 바람직할 수 있다.
이와 같이, 본 발명은 메타데이터에 따라 학습 데이터를 분류한 후 개별 분류모델을 학습시키므로, 학습 데이터 간의 중복이 발생하지 않아 과적합(overfitting) 문제를 방지할 수 있으며, 변인은 뚜렷하지만 일반화시키기 어려운 학습 데이터를 이용하는 경우 활용도를 높일 수 있는 효과가 있다.
도 2는 본 발명의 실시예에 따른, 분류모델을 학습시키는 방법을 설명하기 위한 흐름도이다.
단계 S210에서는, 분류모델 학습부가, 복수의 분류모델 중 하나인 임시 분류모델을 학습시킨다.
예컨대, 분류모델 학습부는 복수의 분류모델 중 하나를 선택하여, 그 임시 분류모델을 학습시킬 수 있다.
다른 실시예에서는, 복수의 분류모델은 확률 및 통계, 도메인 변환, 인공 신경망, 전문가 시스템, 인스턴스 기반 학습, 의사 결정 트리 및 앙상블 기법에 기반한 분류모델들 중에서 선정될 수 있다.
즉, 복수의 분류모델은 나열된 다양한 방법에 기반하는 분류모델들 중에서 선정될 수 있으며, 여기에서 언급되지 않은 방법에 기반하는 분류모델 또한 선정될 수 있음은 물론이다.
단계 S220에서는, 분류모델 학습부가, 혼동행렬(confusion matrix)에 기초하여, 그 학습된 임시 분류모델의 성능을 평가한다.
예컨대, 분류모델 학습부는, 그 학습된 임시 분류모델에 대하여 혼동행렬을 생성한 뒤, 그 혼동행렬을 분석하여 성능을 평가할 수 있다. 보다 구체적으로, 분류모델 학습부는 그 혼동행렬로부터 산출되는 정밀도(precision), 재현율(recall), 정확도(accuracy) 등을 이용하여 성능을 평가할 수 있다.
한편, 도 5를 참조하면, 예측된 결과와 실제 결과와의 동일 및 차이에 관한 내용을 포함하고 있는 혼동행렬이 나타나 있다.
여기서, True Positive(TP)는 실제와 예측이 모두 YES(positive)인 경우이고, False Negative(FN)는 실제는 YES이나 예측은 NO인 경우이고, False Positive(FP)는 실제는 NO이나 예측은 YES인 경우이고, True Negative(TN)는 실제와 예측이 모두 NO인 경우이다.
이때, 정확도는 (TP + TN) / (TP + FN + FP + TN)이고, 정밀도는 TP / (TP + FP)이고, 재현율은 TP / (TP + FN)으로 산출될 수 있다.
마지막으로 단계 S230에서는, 분류모델 학습부가, 복수의 분류모델 모두에 대하여, 단계 S210 및 S220을 수행하여, 구 평가된 성능에 따라 하나의 분류모델을 결정한다.
예컨대, 분류모델 학습부는 복수의 분류모델이 10개인 경우, 그 10개의 분류모델 각각에 대하여 학습시키고, 성능을 평가한 뒤, 그 중에서 가장 우수한 성능을 나타낸 하나의 분류모델을 결정할 수 있다. 그리고, 그 결정된 분류모델이 해당 데이터집합에 대응되는 것으로 설정할 수 있다.
도 3은 본 발명의 실시예에 따른, 메타데이터를 이용한 독립 분류 모델 장치의 블록도이다.
도 3을 참조하면, 본 발명의 실시예에 따른 메타데이터를 이용한 독립 분류 모델 장치(300)는 저장소(310), 분류모델 학습부(320), 데이터 비교부(330) 및 데이터 분류부(340)를 포함한다. 또한, 선택적으로 데이터 처리부(미도시)를 더 포함할 수 있다.
한편, 본 발명의 실시예에 따른 메타데이터를 이용한 독립 분류 모델 장치(300)는 데스크탑 컴퓨터, 스마트폰, 태블릿, 노트북컴퓨터 및 서버 등에 탑재될 수 있다.
저장소(310)는 내부의 저장공간에 저장 요청된 데이터를 저장하여 보관한다.
분류모델 학습부(320)는 복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시키고, 그 복수의 데이터집합에 포함된 개별 데이터집합과 그 개별 데이터집합에 대응되는 분류모델을 짝지어 저장소(310)에 저장한다.
다른 실시예에서는, 분류모델 학습부(320)는 복수의 데이터집합 각각에 대하여, 복수의 분류모델 중 하나인 임시 분류모델을 학습시키고, 혼동행렬(confusion matrix)에 기초하여, 그 학습된 임시 분류모델의 성능을 평가하는 과정을 복수의 분류모델 모두에 대하여 수행하고, 그 평가된 성능에 따라 하나의 분류모델을 결정할 수 있다.
또 다른 실시예에서는, 복수의 분류모델은 확률 및 통계, 도메인 변환, 인공 신경망, 전문가 시스템, 인스턴스 기반 학습, 의사 결정 트리 및 앙상블 기법에 기반한 분류모델들 중에서 선정될 수 있다.
데이터 비교부(330)는 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 그 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정한다.
다른 실시예에서는, 데이터 비교부(330)는 대상 데이터의 메타데이터에 관한 정보가 존재하면, 메타데이터 및 유사 판단 기준 중 적어도 하나를 이용하고, 대상 데이터의 메타데이터에 관한 정보가 존재하지 않으면, 유사 판단 기준을 이용할 수 있다.
또 다른 실시예에서는, 데이터 유사 판단 기준은 복수의 데이터집합 각각에 포함된 데이터와 대상 데이터의 유사도가 소정의 유사임계치 이상인지 여부 또는 복수의 데이터집합 각각에 포함된 데이터와 대상 데이터의 오차가 소정의 오차임계치 이하인지 여부일 수 있다.
데이터 분류부(340)는 그 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 대상 데이터를 분류한다.
데이터 처리부(미도시)는 사전 설정에 따라, 학습 데이터 또는 대상 데이터에 대하여 전처리, 세그멘테이션, 특징추출 및 차원축소를 수행한다.
다른 실시예에서는, 복수의 학습 데이터 및 대상 데이터에 대하여 소정의 기준에 따른 대표값을 추출하는 특징추출(feature extraction) 및 그 대표값으로 구성된 특징 공간의 차원을 축소하는 차원축소(dimensionality reduction)는 사전 설정에 따라서 데이터 처리부 및 분류모델 중 하나에 의해 수행되거나, 데이터 처리부 및 분류모델에서 나뉘어 수행될 수 있다.
상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (14)

  1. 분류모델 학습부가, 복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시키는 단계;
    데이터 비교부가, 상기 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 상기 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정하는 단계; 및
    데이터 분류부가, 상기 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 상기 대상 데이터를 분류하는 단계;를 포함하고,
    상기 분류모델을 학습시키는 단계는,
    상기 복수의 데이터집합 각각에 대하여,
    복수의 분류모델 중 하나인 임시 분류모델을 학습시키는 단계;
    혼동행렬(confusion matrix)에 기초하여, 상기 학습된 임시 분류모델의 성능을 평가하는 단계; 및
    상기 복수의 분류모델 모두에 대하여, 상기 임시 분류모델을 학습시키는 단계 및 상기 학습된 임시 분류모델의 성능을 평가하는 단계를 수행하여, 상기 평가된 성능에 따라 하나의 분류모델을 결정하는 단계를 포함하는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  2. 제1항에 있어서,
    상기 선택데이터집합을 결정하는 단계는
    상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하면, 상기 메타데이터 및 상기 유사 판단 기준 중 적어도 하나를 이용하고,
    상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하지 않으면, 상기 유사 판단 기준을 이용하는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  3. 제1항에 있어서,
    상기 분류모델을 학습시키는 단계와 상기 선택데이터집합을 결정하는 단계의 사이에,
    상기 분류모델 학습부가, 상기 복수의 데이터집합에 포함된 개별 데이터집합과 상기 개별 데이터집합에 대응되는 분류모델을 짝지어 저장소에 저장하는 단계
    를 더 포함하고,
    상기 데이터 비교부는 상기 저장소로부터 상기 복수의 데이터집합을 획득하고, 상기 데이터 분류부는 상기 저장소로부터 상기 선택분류모델을 획득하는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 복수의 분류모델은
    확률 및 통계, 도메인 변환, 인공 신경망, 전문가 시스템, 인스턴스 기반 학습, 의사 결정 트리 및 앙상블 기법에 기반한 분류모델들 중에서 선정되는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  6. 제1항에 있어서,
    상기 복수의 학습 데이터 및 상기 대상 데이터에 대하여 소정의 기준에 따른 대표값을 추출하는 특징추출(feature extraction) 및 상기 대표값으로 구성된 특징 공간의 차원을 축소하는 차원축소(dimensionality reduction)는
    사전 설정에 따라서 데이터 처리부 및 상기 분류모델 중 하나에 의해 수행되거나, 상기 데이터 처리부 및 상기 분류모델에서 나뉘어 수행되는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  7. 제6항에 있어서,
    상기 데이터 처리부가 특징추출 또는 차원축소를 수행하는 경우에,
    상기 분류모델을 학습시키는 단계의 이전에,
    상기 데이터 처리부가, 상기 복수의 학습 데이터에 대하여 특징추출 또는 차원축소를 수행하는 단계; 및
    상기 선택데이터집합을 결정하는 단계의 이전에,
    상기 데이터 처리부가, 상기 대상 데이터에 대하여 특징추출 또는 차원축소를 수행하는 단계
    를 더 포함하는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  8. 제1항에 있어서,
    상기 데이터 유사 판단 기준은
    상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 유사도가 소정의 유사임계치 이상인지 여부 또는 상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 오차가 소정의 오차임계치 이하인지 여부인 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델의 동작 방법.
  9. 저장소;
    복수의 학습 데이터를 메타데이터에 기반하여 분류한 결과인 복수의 데이터집합 각각에 대응되는 분류모델을 학습시키고, 상기 복수의 데이터집합에 포함된 개별 데이터집합과 상기 개별 데이터집합에 대응되는 분류모델을 짝지어 상기 저장소에 저장하는 분류모델 학습부;
    상기 메타데이터 및 소정의 데이터 유사 판단 기준 중 적어도 하나를 이용하여, 상기 복수의 데이터집합 중에서 분류 대상인 대상 데이터에 대응되는 데이터집합인 선택데이터집합을 결정하는 데이터 비교부; 및
    상기 선택데이터집합에 대응되는 분류모델인 선택분류모델을 이용하여 상기 대상 데이터를 분류하는 데이터 분류부를 포함하고,
    상기 분류모델 학습부는,
    상기 복수의 데이터집합 각각에 대하여,
    복수의 분류모델 중 하나인 임시 분류모델을 학습시키고, 혼동행렬(confusion matrix)에 기초하여, 상기 학습된 임시 분류모델의 성능을 평가하는 과정을 상기 복수의 분류모델 모두에 대하여 수행하고, 상기 평가된 성능에 따라 하나의 분류모델을 결정하는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델 장치.
  10. 제9항에 있어서,
    상기 데이터 비교부는
    상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하면, 상기 메타데이터 및 상기 유사 판단 기준 중 적어도 하나를 이용하고,
    상기 대상 데이터의 상기 메타데이터에 관한 정보가 존재하지 않으면, 상기 유사 판단 기준을 이용하는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델 장치.
  11. 삭제
  12. 제9항에 있어서,
    상기 복수의 분류모델은
    확률 및 통계, 도메인 변환, 인공 신경망, 전문가 시스템, 인스턴스 기반 학습, 의사 결정 트리 및 앙상블 기법에 기반한 분류모델들 중에서 선정되는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델 장치.
  13. 제9항에 있어서,
    상기 복수의 학습 데이터 및 상기 대상 데이터에 대하여 소정의 기준에 따른 대표값을 추출하는 특징추출(feature extraction) 및 상기 대표값으로 구성된 특징 공간의 차원을 축소하는 차원축소(dimensionality reduction)는
    사전 설정에 따라서 데이터 처리부 및 상기 분류모델 중 하나에 의해 수행되거나, 상기 데이터 처리부 및 상기 분류모델에서 나뉘어 수행되는 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델 장치.
  14. 제9항에 있어서,
    상기 데이터 유사 판단 기준은
    상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 유사도가 소정의 유사임계치 이상인지 여부 또는 상기 복수의 데이터집합 각각에 포함된 데이터와 상기 대상 데이터의 오차가 소정의 오차임계치 이하인지 여부인 것을 특징으로 하는 메타데이터를 이용한 독립 분류 모델 장치.
KR1020190079803A 2019-07-03 2019-07-03 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치 KR102267487B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190079803A KR102267487B1 (ko) 2019-07-03 2019-07-03 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190079803A KR102267487B1 (ko) 2019-07-03 2019-07-03 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20210004036A KR20210004036A (ko) 2021-01-13
KR102267487B1 true KR102267487B1 (ko) 2021-06-22

Family

ID=74142775

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190079803A KR102267487B1 (ko) 2019-07-03 2019-07-03 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102267487B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822327B (zh) * 2021-07-31 2024-08-02 云南电网有限责任公司信息中心 一种基于数据特征及层次分析法的算法推荐方法
KR20230065037A (ko) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 성별 및 나이를 분류하는 딥러닝 프레임워크 응용 데이터베이스 서버 및 그 방법
KR102675804B1 (ko) * 2021-11-18 2024-06-18 광운대학교 산학협력단 게임 아이템의 가격 분석을 위한 서비스 제공 장치 및 방법
KR102639172B1 (ko) * 2021-11-25 2024-02-22 재단법인 대구경북과학기술원 효율적인 분류기를 식별하기 위한 전자 장치 및 이의 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101240330B1 (ko) * 2012-07-16 2013-03-11 한국과학기술정보연구원 다차원 문서 분류 시스템 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102465332B1 (ko) * 2015-12-29 2022-11-11 에스케이플래닛 주식회사 사용자 장치, 그의 제어 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR102558021B1 (ko) 2016-06-10 2023-07-24 한국전자통신연구원 임상 의사결정 지원 앙상블 시스템 및 이를 이용한 임상 의사결정 지원 방법
KR102475826B1 (ko) * 2017-04-21 2022-12-09 삼성메디슨 주식회사 영상 분할 방법 및 그 전자 장치
KR101968309B1 (ko) * 2017-09-05 2019-04-11 서울시립대학교 산학협력단 문서 분류 시스템 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101240330B1 (ko) * 2012-07-16 2013-03-11 한국과학기술정보연구원 다차원 문서 분류 시스템 및 방법

Also Published As

Publication number Publication date
KR20210004036A (ko) 2021-01-13

Similar Documents

Publication Publication Date Title
KR102267487B1 (ko) 메타데이터를 이용한 독립 분류 모델의 동작 방법 및 그 장치
US10909455B2 (en) Information processing apparatus using multi-layer neural network and method therefor
US20190043487A1 (en) Methods and systems for optimizing engine selection using machine learning modeling
Fulzele et al. A hybrid model for music genre classification using LSTM and SVM
JP5880454B2 (ja) 画像識別装置及びプログラム
KR101563406B1 (ko) 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법
KR102281676B1 (ko) 파형 음원 신호를 분석하는 신경망 모델에 기반한 음원 분류 방법 및 분석장치
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
AU2016201689A1 (en) Methods and systems for searching logical patterns
CN105718937A (zh) 多类别对象分类方法及系统
KR20170109304A (ko) 객체 인식을 위한 캐스케이드 분류기의 병렬 학습 방법
Latchoumi et al. OFS method for selecting active features using clustering techniques
US20190156125A1 (en) Characterizing Content with a Predictive Error Representation
US11354936B1 (en) Incremental clustering for face recognition systems
US20220188703A1 (en) Data generation apparatus and method thereof
JP4807880B2 (ja) 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体
WO2019238769A1 (en) Content analysis
JP5765583B2 (ja) 多クラス識別器、多クラス識別方法、及びプログラム
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법
JP5892275B2 (ja) 多クラス識別器生成装置、データ識別装置、多クラス識別器生成方法、データ識別方法、及びプログラム
US11210605B1 (en) Dataset suitability check for machine learning
US20240119349A1 (en) Method and system for optimizing training of a machine learning model
Beryl Princess et al. Performance comparison of machine learning models for classification of traffic injury severity from imbalanced accident dataset
Yang et al. Ensemble learning from imbalanced data set for video event detection
Das et al. Image splicing detection based on deep convolutional neural network and transfer learning

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant