KR20190117771A - 정보를 분류하기 위한 방법 및 분류 프로세서 - Google Patents

정보를 분류하기 위한 방법 및 분류 프로세서 Download PDF

Info

Publication number
KR20190117771A
KR20190117771A KR1020197028669A KR20197028669A KR20190117771A KR 20190117771 A KR20190117771 A KR 20190117771A KR 1020197028669 A KR1020197028669 A KR 1020197028669A KR 20197028669 A KR20197028669 A KR 20197028669A KR 20190117771 A KR20190117771 A KR 20190117771A
Authority
KR
South Korea
Prior art keywords
class
classification
information
data
technique
Prior art date
Application number
KR1020197028669A
Other languages
English (en)
Other versions
KR102335038B1 (ko
Inventor
게사 벤도르프
니콜라스 레하울트
팀 리스트
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20190117771A publication Critical patent/KR20190117771A/ko
Application granted granted Critical
Publication of KR102335038B1 publication Critical patent/KR102335038B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • G06K9/6227
    • G06K9/6262
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

실시예들은 정보를 제1 클래스 또는 제2 클래스로 분류하는 방법을 제공한다. 이 방법은 정보가 제1 클래스의 분류 기준을 충족한다면 제1 클래스에 정보를 할당하도록, 그리고 정보가 제1 클래스의 분류 기준을 충족하지 않는다면 제2 클래스에 정보를 할당하도록 정보에 제1 분류 기술을 적용하는 단계를 포함한다. 추가로, 이 방법은 정보가 제2 클래스의 분류 기준을 충족한다면 제2 클래스에 정보를 할당하도록, 그리고 정보가 제2 클래스의 분류 기준을 충족하지 않는다면 제1 클래스에 정보를 할당하도록 정보에 제2 분류 기술을 적용하는 단계를 포함한다. 더욱이, 이 방법은 2개의 분류 기술들에 의해 수행되는 정보의 할당들이 서로 어긋나는 경우에 또는 2개의 분류 기술들에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 2개의 분류 기술들 중 적어도 하나의 분류 기술의 분류 기준을 업데이트하는 단계를 포함한다. 이러한 맥락 내에서, 제1 클래스와 제2 클래스는 서로 다르다.

Description

정보를 분류하기 위한 방법 및 분류 프로세서
본 발명의 실시예들은 정보를 분류하는 방법에 관한 것이다. 추가 실시예들은 정보를 분류하기 위한 분류 프로세서에 관한 것이다. 일부 실시예들은 에러 검출 방법에 관한 것이다.
많은 적용 분야들은 데이터를 올바르게 분류하여 예컨대, (이메일 트래픽에서의) 스팸, 악성 종양들(암 진단들) 또는 결함이 있는 작동 상태들(기술 플랜트(technical plant))을 자동으로 식별하고 상기 데이터를 "정상 데이터"와 구별하는 작업을 수반한다. 기술적 과제는 가능한 한 정확하게 이러한 분류를 수행하는, 즉 그와 같이 가능한 한 많은 에러들을 식별하는 기술을 찾는 것이며; 동시에, 가능한 한 에러들로서의 적은 잘못된 분류들(오분류들)이 있어야 한다. 추가로, 프레임워크 조건들이 변경될 수 있고, 이전에 알려지지 않은 에러들이 발생할 수 있으며, 따라서 적용 과정에서 기술이 그에 따라 조정되어야 한다는 데 어려움이 있다.
원칙적으로, 전문 지식의 도움으로 또는 기계 학습에서 가져온 기술들을 통해 이러한 분류를 수행할 가능성이 있다. 각각의 기술 그 자체에는 특정한 한계들과 단점들이 있다. 특히, 기계 학습 기술들은 일반적으로 많은 양의 고품질 훈련 데이터를 필요로 하는 반면, 전문가 시스템들은 구현 측면에서 많은 양의 경비를 필요로 하며 매우 유연하지 않다.
문헌에서, 서포트 벡터 머신(support vector machine), 로지스틱 회귀(logistic regression), 베이지안 분류기(Bayesian classifier)들, 결정 트리들, 신경망들 등과 같은 분류 기술들의 이론이 상세히 설명된다(예컨대, Aggarwal 2014, Han 등, 2011 참조). 단일 분류기들의 기술적 적용들은 광범위하게 문서화되었으며 특허 문헌(US 2005/141782 A1 및 US 2006/058898 A1)에서도 또한 기술되었다. 또한, 다양한 기술들의 조합들이 적용된다(US 2005/097067 A1). 스팸 필터링 문제에 대해, 적응형 접근 방식이 설명되었다(US 2004/177110 A1). 추가로, 메타 학습(US 6,842,751 B1)이 공지되어 있다.
그러나 공지된 접근 방식들은 비교적 부정확한데, 즉 비교적 많은 수의 데이터가 잘못 분류된다. 추가로, 공지된 접근 방식들이 전혀 적응되지 않는다면, 이들은 새로운 또는 알려지지 않은 데이터에 적응하는 데 매우 느리다.
따라서 개선된 분류 정확도 및/또는 새로운 또는 알려지지 않은 데이터에 대한 적응을 포함하는 개념을 제공하는 것이 본 발명의 목적이다.
이러한 과제는 독립 청구항들에 의해 달성된다.
유리한 추가 개발들이 종속 청구항들에서 확인된다.
실시예들은 정보를 제1 클래스 또는 제2 클래스로 분류하는 방법을 제공한다. 이 방법은 정보가 제1 클래스의 분류 기준을 충족한다면 제1 클래스에 정보를 할당하도록, 그리고 정보가 제1 클래스의 분류 기준을 충족하지 않는다면 제2 클래스에 정보를 할당하도록 정보에 제1 분류 기술을 적용하는 단계를 포함한다. 추가로, 이 방법은 정보가 제2 클래스의 분류 기준을 충족한다면 제2 클래스에 정보를 할당하도록, 그리고 정보가 제2 클래스의 분류 기준을 충족하지 않는다면 제1 클래스에 정보를 할당하도록 정보에 제2 분류 기술을 적용하는 단계를 포함한다. 더욱이, 이 방법은 2개의 분류 기술들에 의해 수행되는 정보의 할당들이 서로 어긋나는 경우에 또는 2개의 분류 기술들에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 2개의 분류 기술들 중 적어도 하나의 분류 기술의 분류 기준을 업데이트하는 단계를 포함한다. 이러한 맥락 내에서, 제1 클래스와 제2 클래스는 서로 다르다.
본 발명의 개념에 따르면, 정보를 적어도 제1 클래스 또는 제2 클래스로 분류하기 위해 2개의 분류 기술들(예컨대, 2개의 서로 다른 상보적 또는 보완적 분류 기술들)이 동시에 상기 정보에 적용되며, 2개의 분류 기술들 중 적어도 하나는 2개의 분류 기술들에 의해 수행되는 정보의 분류들이 서로 어긋나는 경우에 또는 2개의 분류 기술들에 의한 정보의 미리 정해진 수의 서로 어긋난 분류들에 도달한 경우에 2개의 분류 기술들에 의해 업데이트된다.
추가 실시예들은 정보를 제1 클래스 또는 제2 클래스로 분류하기 위한 분류 프로세서를 제공한다. 분류 프로세서는 2개의 병렬 분류 스테이지들 및 업데이트 스테이지를 포함한다. 2개의 분류 스테이지들 중 제1 스테이지는 정보가 제1 클래스의 분류 기준을 충족한다면 제1 클래스에 정보를 할당하도록, 그리고 정보가 제1 클래스의 분류 기준을 충족하지 않는다면 제2 클래스에 정보를 할당하도록 구성된다. 2개의 분류 스테이지들 중 제2 스테이지는 정보가 제2 클래스의 분류 기준을 충족한다면 제2 클래스에 정보를 할당하도록, 그리고 정보가 제2 클래스의 분류 기준을 충족하지 않는다면 제1 클래스에 정보를 할당하도록 구성되며, 제1 클래스와 제2 클래스는 서로 다르다. 업데이트 스테이지는 2개의 분류 스테이지들에 의해 수행되는 정보의 할당들이 서로 어긋나는 경우에 또는 2개의 분류 스테이지들에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 2개의 분류 스테이지들 중 적어도 하나의 분류 스테이지의 분류 기준을 업데이트하도록 구성된다.
정보를 제1 클래스 또는 제2 클래스로 분류하는 방법의 바람직한 실시예들이 아래에서 설명될 것이다. 그러나 다음의 설명은 분류 프로세서에도 또한 적용될 수 있다.
실시예들에서, 이 방법은 데이터를 분류할 수 있다. 물론, 이 방법은 또한 데이터 세트의 데이터를 분류할 수 있으며, 데이터 세트의 데이터는 이 방법에 의해 개별적으로 분류될 수 있다.
실시예들에서, 제1 분류 기술과 제2 분류 기술은 서로 상보적일 수 있다. 제1 분류 기술은 제1 클래스에 속하는 정보를 인식하도록 구성(예컨대, 적응 또는 훈련)될 수 있는 반면, 제2 분류 기술은 제2 클래스에 속하는 정보를 인식하도록 구성(예컨대, 적응 또는 훈련)될 수 있다. 인식되지 않은 정보는 각각의 분류 기술에 의해 각기 다른 클래스에 할당될 수 있다.
예를 들어, 제1 분류 기술과 제2 분류 기술은 서로 다를 수 있어, 제1 분류 기술은 제1 클래스에 속하는 정보를 인식하고, 제2 분류 기술은 제2 클래스에 속하는 정보를 인식한다. 예를 들어, 제1 분류 기술은 이상치(outlier) 검출 방법일 수 있는 반면, 제2 분류 기술은 규칙 기반 기술일 수 있다.
물론, 제1 분류 기술과 제2 분류 기술은 또한 동일하지만 훈련 측면에서 서로 다를 수 있어, 제1 분류 기술은 제1 클래스에 속하는 정보를 인식하고, 제2 분류 기술은 제2 클래스에 속하는 정보를 인식한다. 예를 들어, 두 분류 기술들 모두 이상치 탐지 방법들 또는 규칙 기반 기술들일 수 있다.
실시예들에서, 제1 분류 기술은 이상치 검출 방법일 수 있다.
이와 관련하여, 제1 분류 기술은 초기화 상태 동안 오로지 제1 클래스의 정보로만 초기화될 수 있다.
실시예들에서, 제2 분류 기술은 규칙 기반 기술일 수 있다.
초기화 상태 동안, 제2 분류 기술은 오로지 제2 클래스의 정보로만 또는 오로지 제2 클래스의 알려진 분류 정보에만 기초한 분류 기준으로 초기화될 수 있다.
실시예들에서, 정보의 실제 클래스 할당에 관한 지식을 사용하면서 2개의 분류 기술들 중 적어도 하나가 업데이트될 수 있다.
예를 들어, 2개의 분류 기술들 중 적어도 하나에 의한 정보의 오분류의 경우, 각각의 분류 기술 또는 각각의 분류 기술의 분류 기준이 업데이트될 수 있다.
예를 들어, 제1 분류 기술이 정보를 부정확하게 분류하고 제2 분류 기술이 정보를 정확하게 분류한다면, (단지) 제1 분류 기술 또는 제1 분류 기술의 분류 기준이 업데이트될 수 있다. 마찬가지로, 제1 분류 기술이 정보를 정확하게 분류하고 제2 분류 기술이 정보를 부정확하게 분류한다면, (단지) 제2 분류 기술 또는 제2 분류 기술의 분류 기준이 업데이트될 수 있다. 물론, 두 분류 기술들 모두 또는 2개의 분류 기술들 중 하나만이 정보를 부정확하게 분류한다면, 두 분류 기술들 모두(또는 분류 기술들의 분류 기준)를 업데이트하는 것이 또한 가능하다.
실시예들에서, (예컨대, 초기화 상태 이후의 훈련 상태 동안의) 업데이트 단계는, 훈련 정보의 업데이트된 세트에 대한 제1 분류 기술의 재개된 훈련(또는 적용)에 의해 제1 분류 기술의 분류 기준을 업데이트하도록, 사실상 제1 클래스에 할당되어야 하는 미리 정해진 수의 정보가 제2 분류 기술에 의해 제1 클래스에 정확하게 할당되었지만 제1 분류 기술에 의해 제2 클래스에 잘못 할당되었다면, 제1 분류 기술을 훈련하기 위해 사용되는 훈련 정보의 세트 중 적어도 일부를 교체하는 단계를 포함할 수 있다.
실시예들에서, (예컨대, 초기화 상태 이후의 훈련 상태 동안의) 업데이트 단계는, 훈련 정보의 업데이트된 세트에 대한 제2 분류 기술의 재개된 훈련(또는 적용)에 의해 제2 분류 기술의 분류 기준을 업데이트하도록, 사실상 제2 클래스에 할당되어야 하는 미리 정해진 수의 정보가 제1 분류 기술에 의해 제2 클래스에 정확하게 할당되었지만 제2 분류 기술에 의해 제1 클래스에 잘못 할당되었다면, 제2 분류 기술을 훈련하기 위해 사용되는, 제2 클래스의 훈련 정보의 세트 중 적어도 일부를 교체하는 단계를 포함할 수 있다.
실시예들에서, (예컨대, 초기화 상태 이후의 훈련 상태 동안의) 업데이트 단계는, 훈련 정보의 업데이트된 세트에 대한 제2 분류 기술의 재개된 훈련(또는 적용)에 의해 제2 분류 기술의 분류 기준을 업데이트하도록, 사실상 제1 클래스에 할당되어야 하는 미리 정해진 수의 정보가 제1 분류 기술에 의해 제1 클래스에 정확하게 할당되었지만 제2 분류 기술에 의해 제2 클래스에 잘못 할당되었다면, 제2 분류 기술을 훈련하기 위해 사용되는, 제1 클래스의 훈련 정보의 세트 중 적어도 일부를 교체하는 단계를 포함할 수 있다.
실시예들에서, (예컨대, 초기화 상태 이후의 훈련 상태 동안의) 업데이트 단계는, 테스트 데이터의 업데이트된 세트의 도움으로 제1 분류 기술의 재개된 훈련에 의해 제1 분류 기술의 분류 기준을 업데이트하도록, 사실상 제2 클래스에 할당되어야 하는 미리 정해진 수의 정보가 제2 분류 기술에 의해 제2 클래스에 정확하게 할당되었지만 제1 분류 기술에 의해 제1 클래스에 잘못 할당되었다면, 제1 분류 기술을 훈련하기 위해 사용되는 훈련 정보의 세트(예컨대, 테스트 데이터의 세트) 중 적어도 일부를 교체하는 단계를 포함할 수 있다.
본 발명의 실시예들은 첨부 도면들을 참조하여 보다 상세히 설명될 것이다.
도 1은 일 실시예에 따라 정보를 제1 클래스 또는 제2 클래스로 분류하는 방법의 흐름도를 도시한다.
도 2a는 제1 클래스의 데이터 및 제2 클래스의 데이터를 포함하는 데이터 세트뿐만 아니라, 단 하나의 분류 기술만을 포함하는 방법보다 2개의 분류 기술들을 포함하는 방법을 사용할 때, 더 적은 피드백이 요구됨을 예시하기 위해, 2개의 분류 기술들을 포함하는 방법에 의해 그리고 그에 비해, 제1 분류 단계에 따른 단 하나의 분류 기술만을 포함하는 방법에 의해 제공되는 데이터 영역의 분류 결과들의 개략도들을 도시한다.
도 2b는 제1 클래스의 데이터 및 제2 클래스의 데이터를 포함하는 데이터 세트뿐만 아니라, 단 하나의 분류 기술만을 포함하는 방법보다 2개의 분류 기술들을 포함하는 방법을 사용할 때, 더 적은 피드백이 요구됨을 예시하기 위해, 2개의 분류 기술들을 포함하는 방법에 의해 그리고 그에 비해, 제2 분류 단계에 따른 단 하나의 분류 기술만을 포함하는 방법에 의해 제공되는 데이터 영역의 분류 결과들의 개략도들을 도시한다.
도 2c는 제1 클래스의 데이터 및 제2 클래스의 데이터를 포함하는 데이터 세트뿐만 아니라, 단 하나의 분류 기술만을 포함하는 방법보다 2개의 분류 기술들을 포함하는 방법을 사용할 때, 더 적은 피드백이 요구됨을 예시하기 위해, 2개의 분류 기술들을 포함하는 방법에 의해 그리고 그에 비해, 제3 분류 단계에 따른 단 하나의 분류 기술만을 포함하는 방법에 의해 제공되는 데이터 영역의 분류 결과들의 개략도들을 도시한다.
도 3a는 제1 클래스의 데이터 및 제2 클래스의 데이터를 포함하는 데이터 세트뿐만 아니라, 단 하나의 분류 기술만을 포함하는 방법보다 2개의 분류 기술들을 포함하는 방법을 사용할 때, 더 높은 수준의 정확도가 달성됨을 예시하기 위해, 2개의 분류 기술들을 포함하는 방법에 의해 그리고 그에 비해, 제1 분류 단계에 따른 단 하나의 분류 기술만을 포함하는 방법에 의해 제공되는 데이터 영역의 분류 결과들의 개략도들을 도시한다.
도 3b는 제1 클래스의 데이터 및 제2 클래스의 데이터를 포함하는 데이터 세트뿐만 아니라, 단 하나의 분류 기술만을 포함하는 방법보다 2개의 분류 기술들을 포함하는 방법을 사용할 때, 더 높은 수준의 정확도가 달성됨을 예시하기 위해, 2개의 분류 기술들을 포함하는 방법에 의해 그리고 그에 비해, 제2 분류 단계에 따른 단 하나의 분류 기술만을 포함하는 방법에 의해 제공되는 데이터 영역의 분류 결과들의 개략도들을 도시한다.
도 3c는 제1 클래스의 데이터 및 제2 클래스의 데이터를 포함하는 데이터 세트뿐만 아니라, 단 하나의 분류 기술만을 포함하는 방법보다 2개의 분류 기술들을 포함하는 방법을 사용할 때, 더 높은 수준의 정확도가 달성됨을 예시하기 위해, 2개의 분류 기술들을 포함하는 방법에 의해 그리고 그에 비해, 제3 분류 단계에 따른 단 하나의 분류 기술만을 포함하는 방법에 의해 제공되는 데이터 영역의 분류 결과들의 개략도들을 도시한다.
도 4는 본 발명의 일 실시예에 따라 정보를 제1 클래스 또는 제2 클래스로 분류하기 위한 분류 프로세서의 개략도를 도시한다.
본 발명의 실시예들에 대한 아래의 설명에서, 동일한 또는 동작이 동일한 엘리먼트들에는 도면들에서 동일한 참조 번호들이 제공될 것이므로, 이들의 설명들은 상호 교환 가능하다.
도 1은 정보를 제1 클래스 또는 제2 클래스로 분류하는 방법(100)의 흐름도를 도시한다. 이 방법(100)은 정보가 제1 클래스의 분류 기준을 충족한다면 제1 클래스에 정보를 할당하도록, 그리고 정보가 제1 클래스의 분류 기준을 충족하지 않는다면 제2 클래스에 정보를 할당하도록 정보에 제1 분류 기술을 적용하는 단계(102)를 포함한다. 추가로, 이 방법(100)은 정보가 제2 클래스의 분류 기준을 충족한다면 제2 클래스에 정보를 할당하도록, 그리고 정보가 제2 클래스의 분류 기준을 충족하지 않는다면 제1 클래스에 정보를 할당하도록 정보에 제2 분류 기술을 적용하는 단계(104)를 포함한다. 더욱이, 이 방법(100)은 2개의 분류 기술들에 의해 수행되는 정보의 할당들이 서로 어긋나는 경우에 또는 2개의 분류 기술들에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 2개의 분류 기술들 중 적어도 하나의 분류 기술의 분류 기준을 업데이트하는 단계(106)를 포함한다. 이러한 맥락 내에서, 제1 클래스와 제2 클래스는 서로 다르다.
실시예들에서, 이 방법(100)은 데이터(예컨대, 이메일(발신자, 수신자, 참조 등), 기술 플랜트(온도, 압력, 밸브 포지셔닝 등) 또는 질병 패턴(증상들, 연령, 혈액 값들 등)에 관한 정보)를 분류할 수 있다. 물론, 이 방법(100)은 또한 데이터 세트의(예컨대, 이메일들, 기술 플랜트들 또는 질병 패턴들에 관한 정보 세트의) 데이터(예컨대, 이메일(발신자, 수신자, 참조 등), 기술 플랜트(온도, 압력, 밸브 포지셔닝 등) 또는 질병 패턴(증상들, 연령, 혈액 값들 등)에 관한 정보)를 분류할 수 있으며, 데이터 세트의 데이터가 이 방법에 의해 개별적으로 분류될 수 있다(예컨대, 이메일들의 세트의 각각의 이메일이 개별적으로 분류된다).
실시예들에서, 제1 분류 기술과 제2 분류 기술은 서로 상보적일 수 있다. 제1 분류 기술은 제1 클래스에 속하는 정보를 인식하도록 구성(예컨대, 적응 또는 훈련)될 수 있는 반면, 제2 분류 기술은 제2 클래스에 속하는 정보를 인식하도록 구성(예컨대, 적응 또는 훈련)될 수 있다. 인식되지 않은 정보는 각각의 분류 기술에 의해 각기 다른 클래스에 할당될 수 있다.
예를 들어, 제1 분류 기술과 제2 분류 기술은 서로 다를 수 있어, 제1 분류 기술은 제1 클래스에 속하는 정보를 인식하고, 제2 분류 기술은 제2 클래스에 속하는 정보를 인식한다. 예를 들어, 제1 분류 기술은 이상치 검출 방법일 수 있는 반면, 제2 분류 기술은 규칙 기반 기술일 수 있다.
물론, 제1 분류 기술과 제2 분류 기술은 또한 동일하지만 훈련 측면에서 서로 다를 수 있어, 제1 분류 기술은 제1 클래스에 속하는 정보를 인식하고, 제2 분류 기술은 제2 클래스에 속하는 정보를 인식한다. 예를 들어, 두 분류 기술들 모두 이상치 탐지 방법들 또는 규칙 기반 기술들일 수 있다.
따라서 이 방법(100)은 예컨대, 서로 다른 분류 기술들, 예컨대 기계 학습 기술들의 조합을 이용할 수 있는데; 예를 들어, 전문 지식도 또한 통합될 수 있다. 이용 중에 피드백에 의해 각각의 기술을 업데이트함으로써, 적용 과정 동안 정확도 수준이 점차 향상될 수 있고, 기술들은 프레임워크 조건들의 변화들에 응답할 수 있다.
예로서, (2개의 클래스들 간에 구별하는) 분류 기술들을 구현하는 2개의 상보적 접근 방식들이 아래에서 설명될 것이다.
제1 접근 방식은 클래스 1(예컨대, 아래에서 N 데이터로 지칭되는 "정상 데이터")에 대한 소속(affiliation)에 관한 지식에 기초하며, 여기서 클래스 1에 대한 기준을 충족하지 않는 임의의 데이터는 클래스 2(예컨대, 아래에서 F 데이터로 지칭되는 "오류 데이터")에 자동으로 할당될 것이다. 반대로, 제2 접근 방식은 클래스 2에 대한 소속에 관한 지식에 기초하며, 여기서 클래스 2에 대한 기준을 충족하지 않는 임의의 데이터는 클래스 1에 자동으로 할당될 것이다. 일반적인 적용 사례들(예컨대, 스팸 검출, 종양 검출, 에러 검출)에서, 과제는 클래스 소속 1의 매우 많은 양의 데이터(정상 데이터)로부터 클래스 소속 2의 소량의 데이터(오류 데이터)를 필터링하는 것이다. 이러한 이유로, 위에서 언급한 두 가지 접근 방식들은 서로 분명히 다를 수 있는데: 첫 번째 경우에는, 비교적 많은 수의 "잘못된 긍정" 결과들이 통상적으로 생성되는 반면(클래스 1이 클래스 2로 분류됨), 두 번째 경우에는, 비교적 많은 수의 "잘못된 부정" 결과들이 생성된다(클래스 2가 클래스 1로 분류됨). 적용 사례에 따라, 하나의 또는 다른 단점은 용인하기가 더 쉽다. 이상적으로, 분류 기술은 가능한 한 낮은 긍정 오류율(erroneously positive rate)(높은 특이성)을 나타내야 하면서 가능한 한 낮은 부정 오류율(erroneously negative rate)(높은 민감도)을 나타내야 한다.
예로서, 이 방법(100)은 또한 앞서 설명한 두 가지 접근 방식들의 조합에 기초할 수 있다. 선택적으로, 적용 중에 얻어질 수 있는 클래스 소속들에 관한 지식은 각각의 기술들(피드백)의 지속적인 개선들에 통합될 수 있다. 하나의 단일 기술을 지속적인 업데이트와 함께 사용하는 것과 비교하여 2개의 (상보적) 기술들을 결합할 경우의 이점은 도 2를 참조로 아래에서 상세히 설명되는 바와 같이, 일반적으로 높은 수준의 정확도를 달성하기 위해 더 적은 피드백이 요구된다는 점에 있다. 추가로, 2개의 상보적 기술들의 조합은 도 3을 참조하여 아래에 보다 상세히 설명되는 바와 같이, 각각의 개별 기술의 잘못된 긍정 및 잘못된 부정 결과들 모두를 식별하고 이들을 피드백을 통해 감소시킬 가능성을 제공한다.
좌측에서, 도 2a는 제1 클래스의 데이터(122)(또는 제1 클래스의 데이터(122), 예컨대 정상 데이터(N)) 및 제2 클래스의 데이터(124)(또는 제2 클래스의 데이터(124), 예컨대 오류 데이터(F))를 포함하는 데이터 세트(120)의 개략도를 도시하고, 예로서 초기화 상태 후에, 제1 분류 기술(M1)에 의해 제1 클래스에 소속된(속하는) 것으로 인식되는 데이터 세트(120)의 영역(126), 및 제2 분류 기술(M2)에 의해 제2 클래스에 소속된(속하는) 것으로 인식되는 데이터 세트(120)의 영역(128), 그리고 데이터 세트(120)의 데이터 영역(적용 영역)(130)을 도시하는데, 이 영역에는 2개의 분류 기술들을 포함하는 방법(100)이 적용된다.
도 2a에서(그리고 또한 도 2b 및 도 2c에서도), 데이터 세트(120)의 각각의 영역들에 대해 이 방법(100)의 분류 결과들은 괄호들 안에 표시되며, 괄호들 안에서 제1 값은 제1 분류 기술의 분류 결과를 나타내고, 제2 값은 제2 분류 기술의 분류 결과를 나타내고, 제3 값은 실제 분류 결과(또는 목표 분류 결과)를 나타낸다. 피드백을 통해 분류 기술들의 업데이트에 통합되는 그러한 영역들에는 밑줄이 표시된다.
도 2a의 좌측에서 볼 수 있는 바와 같이, 데이터 세트(120)의 적용 영역(130) 내에, 그러나 영역(126) 외부에 위치하며 제1 분류 기술에 의해 제1 클래스에 소속된 것으로 인식되는 데이터 세트(120)의 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(132)은 (F, N, N)으로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 영역(132)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당하는 반면, 제2 분류 기술은 데이터 세트(120)의 영역(132)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 그러나 사실상, 데이터 세트(120)의 이 영역(132)의 데이터는 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당되었어야 하므로, 제1 분류 기술의 분류 결과가 부정확하고 따라서 업데이트 상태의 후속 훈련 단계에서 제1 분류 기술(또는 제1 분류 기술의 분류 기준)이 적응되어야 한다.
적용 영역(130) 내에 그리고 데이터 세트(120)의 영역(126) 내에 위치하며 제1 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 인식되는 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(134)은 (N, N, N)으로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 영역(134)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당하고, 또한 제2 분류 기술은 데이터 세트(120)의 영역(134)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 데이터 세트(120)의 영역(134)의 데이터는 제1 클래스에 할당되었어야 하므로, 두 분류 기술들 모두의 분류 결과들이 정확하다.
적용 영역(130) 내에 위치하는 데이터 세트(120)의 제2 클래스의 데이터(124)(예컨대, 오류 데이터)의 영역(136)은 (F, N, F)로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 영역(136)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당하는 반면, 제2 분류 기술은 데이터 세트(120)의 영역(136)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 사실상, 데이터 세트(120)의 영역(136)의 데이터는 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당되었어야 하므로, 제2 분류 기술의 분류 결과가 부정확하고 따라서 업데이트 상태의 후속 훈련 단계에서 제2 분류 기술(또는 제2 분류 기술의 분류 기준)이 적응되어야 한다.
비교로, 도 2a의 우측은 제1 클래스의 데이터(122)(예컨대, 정상 데이터)와 제2 클래스의 데이터(124)(예컨대, 오류 데이터)를 갖는 동일한 데이터 세트(120)뿐만 아니라, 예로서 초기화 상태 후에, 단일 분류 기술(M1)에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 인식되는 데이터 세트의 영역(140) 및 단 하나의 단일 분류 기술만을 포함하는 종래의 방법이 적용된 데이터 세트의 데이터의 영역(적용 영역)(130)의 개략도를 도시한다.
도 2a에서(그리고 또한 도 2b 및 도 2c에서도), 각각의 영역들에 대해 종래의 방법의 분류 결과들은 괄호들 안에 표시되며, 괄호들 안의 제1 값은 단일 분류 기술의 분류 결과를 나타내고, 제2 값은 실제 분류 결과(또는 목표 분류 결과)를 나타낸다.
예를 들어, 데이터의 적용 영역(130) 내에, 그러나 영역(140) 외부에 위치하며 단일 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 인식되는 데이터 세트(120)의 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(142)은 (F, N)으로 표시되는데, 즉 단일 분류 기술은 데이터 세트(120)의 영역(142)의 데이터를 제2 클래스(예컨대, 오류 데이터)에 할당한다. 그러나 사실상, 데이터 세트(120)의 영역(142)의 데이터는 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당되었어야 하므로, 단일 분류 기술의 분류 결과가 부정확하고 따라서 업데이트 상태의 후속 훈련 단계에서 단일 분류 기술(또는 단일 분류 기술의 분류 기준)이 적응되어야 한다.
적용 영역(130) 내에 그리고 데이터의 영역(140) 내에 위치하며 단일 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 인식되는 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(144)은 (N, N)으로 표시되는데, 즉 단일 분류 기술은 데이터 세트(120)의 영역(144)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 데이터 세트(120)의 영역(144)의 데이터는 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당되었어야 하므로, 단일 분류 기술의 분류 결과가 정확하다.
적용 영역(130) 내에 위치하는 데이터 세트(120)의 제2 클래스의 데이터(124)(예컨대, 오류 데이터)의 영역(146)은 (F, F)로 표시되는데, 즉 단일 분류 기술은 데이터 세트(120)의 영역(146)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당한다. 데이터 세트(120)의 영역(136)의 데이터는 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당되었어야 하므로, 단일 분류 기술의 분류 결과가 정확하다.
좌측에서, 도 2b는 제1 클래스의 데이터(122)(예컨대, 정상 데이터) 및 제2 클래스의 데이터(124)(예컨대, 오류 데이터)를 포함하는 데이터 세트(120)의 개략도를 도시하고, 예로서 업데이트 상태의 제1 훈련 단계 이후에, 제1 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 현재 인식되는 데이터 영역(126), 및 제2 분류 기술에 의해 제2 클래스의 데이터(예컨대, 오류 데이터)에 속하는 것으로 현재 인식되는 데이터 영역(128), 그리고 방법(100)이 적용되는 데이터 세트(120)의 데이터의 영역(적용 영역)(130)을 도시한다.
도 2b에서 알 수 있는 바와 같이, 2개의 분류 기술들(또는 2개의 분류 기술들의 분류 기준)은 이전 분류 결과들에 기초하여 업데이트되었다. 상세하게는, 제1 분류 기술(또는 제1 분류 기술의 분류 기준)은 데이터 세트(120)의 이전에 잘못 검출된 영역(132)에 기초하여 업데이트될 수 있으므로, 제1 분류 기술은 데이터 세트(120)의 이 영역(132)을 이제 제1 클래스(122)의 데이터인 것으로 인식한다. 추가로, 제2 분류 기술(또는 제2 분류 기술의 분류 기준)은 데이터 세트(120)의 이전에 잘못 검출된 영역(136)에 기초하여 업데이트될 수 있으므로, 제2 분류 기술은 데이터 세트(120)의 이 영역(136)을 이제 제2 클래스(122)의 데이터인 것으로 인식한다. 이제 제1 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 속하는 것으로 인식되는 데이터 세트(120)의 영역(126)은 이에 따라 도 2a와 비교하여 더 커졌다. 마찬가지로, 제2 분류 기술에 의해 제2 클래스의 데이터(예컨대, 오류 데이터)에 속하는 것으로 인식되는 데이터 세트(120)의 영역(128)은 도 2a와 비교하여 더 커졌다.
제1 업데이트 단계 후에, 데이터의 적용 영역(130) 내에, 그러나 영역(126) 외부에 위치하며 이제 제1 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 인식되는 데이터 세트(120)의 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(132)은 도 2b에서 (F, N, N)으로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 영역(132)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당하는 반면, 제2 분류 기술은 데이터 세트(120)의 영역(132)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 그러나 사실상, 데이터 세트(120)의 영역(132)의 데이터는 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당되었어야 하므로, 제1 분류 기술의 분류 결과가 부정확하고 따라서 업데이트 상태의 후속 훈련 단계에서 제1 분류 기술(또는 제1 분류 기술의 분류 기준)이 적응되어야 한다.
적용 영역(130) 내에 그리고 데이터의 영역(126) 내에 위치하며 제1 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 인식되는 제1 클래스의 데이터(122)의 영역(134)은 (N, N, N)으로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 영역(134)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당하고, 또한 제2 분류 기술은 데이터 세트(120)의 영역(134)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 데이터 세트(120)의 영역(134)의 데이터는 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당되었어야 하므로, 두 분류 기술들 모두의 분류 결과들이 정확하다.
적용 영역(130) 내에 그리고 제2 분류 기술에 의해 제2 클래스에 소속된 것으로 현재 정확히 인식되는 데이터의 영역들(128) 외부에 위치하는 데이터 세트(120)의 제2 클래스의 데이터(124)(오류 데이터)의 영역(136)은 (F, N, F)로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 이 영역(136)의 데이터를 제2 클래스(오류 데이터)에 할당하는 반면, 제2 분류 기술은 데이터 세트(120)의 이 영역(136)의 데이터를 제1 클래스(정상 데이터)에 할당한다. 사실상, 데이터 세트(120)의 이 영역(136)의 데이터는 제2 클래스(오류 데이터)에 할당되었어야 하므로, 제2 분류 기술의 분류 결과가 부정확하고 따라서 업데이트 상태의 후속 훈련 단계에서 제2 분류 기술(또는 제2 분류 기술의 분류 기준)이 적응되어야 한다.
적용 영역(130) 내에 그리고 제2 분류 기술에 의해 제2 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 현재 정확히 인식되는 데이터의 영역들(128) 내에 위치하는 제2 클래스의 데이터(예컨대, 오류 데이터)의 영역(138)은 (F, F, F)로 표시되는데, 즉 제1 분류 기술은 데이터 세트(120)의 영역(138)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당하고, 또한 제2 분류 기술은 데이터 세트(120)의 영역(138)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당한다. 데이터 세트(120)의 영역(138)의 데이터는 제2 클래스의 데이터에 할당되었어야 하므로, 두 분류 기술들 모두의 분류 결과들이 정확하다.
비교로, 도 2b의 우측은 제1 클래스의 데이터(122)(예컨대, 정상 데이터)와 제2 클래스의 데이터(124)(예컨대, 오류 데이터)를 포함하는 동일한 데이터 세트(120)뿐만 아니라, 예로서 훈련 상태의 제1 훈련 단계 후에, 단일 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 현재 인식되는 데이터의 영역(140) 및 단일 분류 기술을 포함하는 종래의 방법이 적용된 데이터 세트(120)의 데이터의 영역(적용 영역)(130)의 개략도를 도시한다.
도 2b의 우측에서 알 수 있는 바와 같이, 단일 분류 기술은 또한 데이터 세트(120)의 이전에 잘못 검출된 영역(142)에 기초하여 적응되었으므로, 단일 분류 기술은 데이터 세트(120)의 이 영역(142)을 이제 제1 클래스(122)의 데이터인 것으로 인식한다. 그러나 방법(100)과 비교하여, 이는 추가 경비를 수반하는데, 이는 도 2b에서 회색(해칭) 영역(150)으로 표시된다. 상세하게는, (150을 포함하는) 영역(146)이 업데이트에 사용될 것인 반면, 좌측에는 (128 없이) 136― 더 작은 영역 ―만이 사용될 것이므로, 추가 경비는 다음 업데이트 단계에서 겉으로 드러날 것이다.
제1 업데이트 단계 후에, 데이터 세트(120)의 적용 영역(130) 내에, 그러나 영역(140) 외부에 위치하며 단일 분류 기술에 의해 제1 클래스(예컨대, 정상 데이터)에 소속된 것으로 인식되는 데이터 세트(120)의 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(142)은 (F, N)으로 표시되는데, 즉 단일 분류 기술은 데이터 세트(120)의 영역(142)의 데이터를 제2 클래스(예컨대, 오류 데이터)에 할당한다. 그러나 사실상, 데이터 세트(120)의 이 영역(142)의 데이터는 제1 클래스(예컨대, 정상 데이터)에 할당되었어야 하므로, 단일 분류 기술의 분류 결과가 부정확하고 따라서 업데이트 상태의 후속 훈련 단계에서 단일 분류 기술(또는 단일 분류 기술의 분류 기준)이 적응되어야 한다.
적용 영역(130) 내에 그리고 데이터 세트(120)의 영역(140) 내에 위치하며 단일 분류 기술에 의해 제1 클래스(예컨대, 정상 데이터)에 소속된 것으로 인식되는 제1 클래스의 데이터(122)(예컨대, 정상 데이터)의 영역(144)은 (N, N)으로 표시되는데, 즉 단일 분류 기술은 데이터 세트(120)의 이 영역(144)의 데이터를 제1 클래스(예컨대, 정상 데이터)에 할당한다. 데이터 세트(120)의 이 영역(144)의 데이터는 제1 클래스(예컨대, 정상 데이터)에 할당되었어야 하므로, 단일 분류 기술의 분류 결과가 정확하다.
적용 영역(130) 내에 위치하는 데이터 세트(120)의 제2 클래스의 데이터(124)(예컨대, 오류 데이터)의 영역(146)은 (F, F)로 표시되는데, 즉 단일 분류 기술은 데이터 세트(120)의 이 영역(146)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당한다. 데이터 세트(120)의 이 영역(146)의 데이터는 제2 클래스의 데이터(예컨대, 오류 데이터)에 할당되었어야 하므로, 단일 분류 기술의 분류 결과가 정확하다.
좌측에서, 도 2c는 제1 클래스의 데이터(122)(N)(예컨대, 정상 데이터) 및 제2 클래스의 데이터(124)(F)(예컨대, 오류 데이터)를 포함하는 데이터 세트(120)뿐만 아니라, 예로서 훈련 상태의 제2 훈련 단계에 따라, 제1 분류 기술에 의해 제1 클래스의 데이터(예컨대, 정상 데이터)에 소속된 것으로 현재 인식되는 데이터 영역(126)(M1), 및 제2 분류 기술에 의해 제2 클래스의 데이터(예컨대, 오류 데이터)에 속하는 것으로 현재 인식되는 데이터 영역들(M2)의 개략도를 도시한다.
도 2c에서 알 수 있는 바와 같이, 2개의 분류 기술들(또는 2개의 분류 기술들의 분류 기준)은 이전 분류 결과들에 기초하여 업데이트되었다. 상세하게는, 제1 분류 기술(또는 제1 분류 기술의 분류 기준)은 데이터 세트(120)의 이전에 잘못 검출된 영역(132)에 기초하여 업데이트되었을 수 있으므로, 제1 분류 기술은 데이터 세트(120)의 이 영역(132)을 이제 제1 클래스(122)의 데이터인 것으로 인식한다. 추가로, 제2 분류 기술(또는 제2 분류 기술의 분류 기준)은 데이터 세트(120)의 이전에 잘못 검출된 영역(136)에 기초하여 업데이트되었을 수 있으므로, 제2 분류 기술은 데이터 세트(120)의 이 영역(136)을 이제 제2 클래스(122)의 데이터인 것으로 인식한다. 제1 분류 기술에 의해 제1 클래스에 속하는 것으로 인식되는 데이터 세트(120)의 영역(126)(M1)은 이에 따라 도 2b와 비교하여 더 커졌다. 마찬가지로, 제2 분류 기술에 의해 제2 클래스에 속하는 것으로 인식되는 데이터 세트(120)의 영역(128)(M2)은 도 2b와 비교하여 더 커졌다.
비교로, 도 2c의 우측은 제1 클래스의 데이터(122)(예컨대, 정상 데이터)와 제2 클래스의 데이터(124)(예컨대, 오류 데이터)를 포함하는 동일한 데이터 세트(120)뿐만 아니라, 예로서 제2 업데이트 단계 후에, 단일 분류 기술에 의해 제1 클래스에 소속된 것으로 현재 인식되는 데이터 세트의 영역(140)(M1)의 개략도를 도시한다.
도 2c의 우측에서 알 수 있는 바와 같이, 단일 분류 기술은 또한 데이터 세트(120)의 이전에 잘못 검출된 영역(142)에 기초하여 적응되었으므로, 단일 분류 기술은 데이터 세트(120)의 이 영역(142)을 이제 제1 클래스(122)의 데이터인 것으로 인식한다.
다시 말해서, 도 2a 내지 도 2c는 2개의 기술들(M1, M2)이 조합될 때 피드백에 의한 업데이트 메커니즘의 예시들을 도시한다. 시스템의 전체 상태 공간은 예로서, 특정 비율의 "오류" 상태들(F) 및 "정상 상태들"(N)을 포함할 수 있다. 처음에, 알려진 N 데이터 세트가 M1을 훈련시키는 데 사용될 수 있고, 가능하게는 알려진 F 데이터 세트 또는 전문 지식으로부터 알려진 규칙들이 M2를 초기화하는 데 사용될 수 있다. 두 기술들의 적용은 알려지지 않은 데이터(파선들로 둘러싸인 영역)(130)에 대해 수행된다. M1의 분류가 M2의 분류(밑줄이 그어진 영역들(132, 136, 142, 146)과 일치하지 않는다면, 피드백에 관한 추가 정보(예컨대, 전문 지식)가 하나의 또는 두 기술들 모두를 적응시키는 데 사용될 수 있다. 적용 과정에서 그리고 지속적인 피드백에 의해, M1 및 M2는 꾸준히 적응될 수 있는데; 이상적으로는 결국 전체 상태 공간이 정확하게 분류될 때까지 점점 더 적은 피드백이 요구될 것이다.
제2 업데이트(제2 업데이트 단계)로서는, 하나의 단일 기술(회색(해칭) 영역)에 더 많은 피드백이 요구되기 때문에 하나의 단일 방법(도 2a 내지 도 2c의 오른쪽)과 비교하여 상보적 기술들(도 2a 내지 도 2c의 왼쪽)의 조합의 이용은 성공적일 것이다. M1 타입의 단일 기술로, 이러한 맥락 내에서 모든 F 결과들에 대해 피드백이 얻어지는데, 이는 잘못된 긍정 결과들의 수가 많은 경향이 있기 때문이다. (도시되지 않은) M2 타입의 하나의 단일 기술로, 모든 N 결과들에 대해 피드백이 얻어지는데, 이는 잘못된 부정 결과들의 수가 많은 경향이 있기 때문이다.
도 2a 내지 도 2c와 비교하여, 도 3a 내지 도 3c는 제1 분류 기술(M1)이 예로서, 제2 클래스의 데이터(예컨대, 오류 데이터)의 영역(127)을 제1 클래스의 데이터(예컨대, 정상 데이터)로서 잘못 분류하는 경우를 도시한다.
분류 결과로서, 이 영역(127)에 대해 (N, N, F)가 도 3a에 도시되는데, 즉 제1 분류 기술은 영역(127)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당하고, 또한 제2 분류 기술은 영역(127)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 그러나 사실상, 영역(127)의 데이터는 제2 클래스의 데이터(예컨대, 오류 데이터)이므로, 두 분류 기술들 모두의 분류 결과들은 잘못된 것이다. 이에 따라, 두 분류 기술들 모두(또는 두 분류 기술들 모두의 분류 기준)는 후속(반복적) 업데이트 단계에서 적응되어야 한다.
이 경우, 종래의 분류 기술은 영역(141)에 대한 분류 결과로서 (N, F)를 산출하는데, 즉 단일 분류 기술이 영역(127)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 그러나 사실상, 영역(127)의 데이터는 제2 클래스의 데이터(예컨대, 오류 데이터)이므로, 단일 분류 기술의 분류 결과는 부정확하다.
도 3b의 좌측에서 알 수 있는 바와 같이, (N, F, F)가 적응 후 영역(127)에 대한 분류 결과로서 표시되는데, 즉 제1 분류 기술은 영역(127)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당하는 반면, 제2 분류 기술은 영역(127)의 데이터를 제2 클래스의 데이터(예컨대, 오류 데이터)에 이미 할당하였다. 따라서 제1 분류 기술의 분류 결과는 계속 부정확하여, 제1 분류 기술(또는 제1 분류 기술의 분류 기준)은 후속 업데이트 단계에서 적응되어야 한다.
또한, 종래의 분류 기술은 영역(141)에 대한 도 3b의 분류 결과들로서 여전히 (N, F)를 제공하는데, 즉 단일 분류 기술이 영역(127)의 데이터를 제1 클래스의 데이터(예컨대, 정상 데이터)에 할당한다. 그러나 사실상, 영역(127)의 데이터는 제2 클래스의 데이터(예컨대, 오류 데이터)이므로, 단일 분류 기술의 분류 결과는 부정확하다. F 결과들에 대해서만 피드백이 얻어지므로 적응이 이루어지지 않는다(영역에 밑줄이 표시되지 않음).
다시 말해서, 도 3a 내지 도 3c는 피드백에 의한 업데이트 메커니즘의 예시들을 도시한다. 상세하게, 도 3a 내지 도 3c는 단일 기술과 비교하여 2개의 상보적 기술들의 조합에 대한 접근 방식의 비교를 도시한다. 도 2a 내지 도 2c와는 달리, 여기서는 M1이 잘못된 부정 결과들을 생성하는 경우가 도시된다. 단일 기술이 사용될 때는 M1의 정정이 가능하지 않다(도 3a 내지 도 3c의 오른쪽). 그러나 2개의 상보적 기술들의 조합은 대응하는 적응이 수행될 수 있게 한다(도 3c 참조). 유사하게, M2가 잘못된 긍정 결과들을 생성하는 경우, M2가 정정될 수 있다.
제1 분류 기술 및 제2 분류 기술의 예시적인 구현들이 아래에서 설명될 것이다.
제1 분류 기술(기술 1(M1))로서, "이상치 검출"을 위한 기술이 사용될 수 있다. 이는 다중 선형 회귀, 클러스터링(클러스터 형성), 정성적(qualitative) 모델들 등과 같은 다양한 데이터 마이닝 및 기계 학습 기술들을 포함한다. 이 기술에 따라 결정적일 수 있는 것은 배타적으로 클래스 1(N 데이터)을 포함하는 한 세트의 훈련 데이터를 기반으로 훈련된다는 것이다. 필요하다면, 사용된 기술에 대한 파라미터들은 클래스 2의 데이터(F 데이터)를 또한 포함하는 한 세트의 테스트 데이터에 의해 조정될 수 있다.
제2 분류 기술(기술 2(M2))로서, 규칙 기반 기술이 사용될 수 있는데; 규칙들은 예컨대, (전문 지식에 기초하여) 수동 방식으로 공식화될 수 있거나, 서포트 벡터 머신들, 결정 트리들, 로지스틱 회귀, 신경망들 등과 같은 (이진) 분류 기술이 사용될 수 있다. 전문가 규칙들과 자동으로 생성된 규칙들/분류기들의 조합된 세트라도 가능하다. M2에 대한 한 세트의 훈련 데이터는 F 데이터와 N 데이터 모두를 포함할 수 있다. 대응하는 세트의 훈련 데이터로부터 규칙들의 자동화된 추출 기술로서, 결정 트리들 또는 결정 포레스트(decision forest)들이 사용될 수 있다. 전문가 규칙들을 이용하기 위해 결정적일 수 있는 것은 알려진 에러들(클래스 2의 소속)을 기반으로 공식화될 수 있다는 것이다.
이하에서, 데이터를 분류하는 방법(100)의 (반복적 또는 연속적) 업데이트 프로세스가 보다 상세하게 설명될 것이다.
제1 단계에서, N 데이터만을 포함하는 한 세트의 훈련 데이터가 사용될 수 있다. 제1 분류 기술(M1)은 이러한 세트의 훈련 데이터에 대해 훈련될 수 있다. M1에 요구될 수 있는 임의의 파라미터들은 초기에 추정되거나 교차 검증에 의해 결정될 수 있다.
제2 단계에서, 가능하게는 알려졌을 수 있는 에러들은 규칙들로서 공식화될 수 있다. 그러면 이들은 제2 분류 기술(M2)의 출발점을 형성할 수 있다. 그렇지 않으면, 각각의 데이터 포인트를 N 데이터 포인트로 분류하는 M2에 디폴트가 사용할 수 있다.
제3 단계에서, M1 및 M2는 (분류될) 알려지지 않은 데이터 세트에 병렬로 적용될 수 있다. 알려지지 않은 데이터 세트의 각각의 데이터 포인트에 대해, M1 및 M2는 각각 독립적인 분류(N 또는 F)를 제공할 수 있다. 어긋난 결과들의, 즉 M1에 의한 분류 ≠ M2인 수가 결정된다.
제4 단계에서, 상기 결과들은 서로 어긋난 결과들의 수가 특정한 지정된 임계치를 초과하자마자, 예컨대 시스템의 전문가, 사용자에 의한 또는 임의의 다른 소스에 의한 실제 분류(E)와 비교될 수 있다. 이어서, M1 및 M2는 다음 방식으로 적응될 수 있다:
(M1=F, M2=N, E=N)인 결과들의 수가 주어진 수를 초과한다면, M1이 적응될 수 있는데(훈련 데이터의 세트가 조정됨), 즉 M1에 대한 훈련 데이터의 세트로부터 주어진 수의 무작위로 도출된 데이터 포인트들이 (M1=F, M2=N, E=N) 결과들로부터 대응하는 수의 무작위로 선택된 데이터 포인트들로 대체될 수 있다.
(M1=F, M2=N, E=F)인 결과들의 수가 주어진 수를 초과한다면, M2가 적응될 수 있는데(훈련 데이터의 세트가 조정됨), 즉 M2에 대한 훈련 데이터의 세트의 F 데이터로부터 주어진 수의 무작위로 도출된 데이터 포인트들이 (M1=F, M2=N, E=F) 결과들로부터 대응하는 수의 무작위로 선택된 데이터 포인트들로 대체될 수 있다. 지금까지 M2에 대한 훈련 데이터의 세트가 N 데이터만을 포함한다면, (M1=F, M2=N, E=F) 결과들로부터의 주어진 수의 무작위로 선택된 데이터 포인트들이 M2에 대한 기존의 훈련 데이터의 세트에 추가될 수 있다.
(M1=N, M2=F, E=N)인 결과들의 수가 주어진 수를 초과한다면, M2가 적응될 수 있는데(훈련 데이터의 세트가 적응됨), 즉 M2에 대한 훈련 데이터의 세트의 N 데이터로부터 주어진 수의 무작위로 도출된 데이터 포인트들이 (M1=N, M2=F, E=N) 결과들로부터 대응하는 수의 무작위로 선택된 데이터 포인트들로 대체된다. M2에 대한 훈련 데이터의 세트가 아직 존재하지 않는다면, (M1=N, M2=F, E=N) 결과들로부터의 주어진 수의 무작위로 선택된 데이터 포인트들이 M2에 대한 초기 훈련 데이터 세트로서 사용될 수 있다.
(M1=N, M2=F, E=F)인 결과들의 수가 주어진 수를 초과한다면, M1이 적응될 수 있는데(파라미터들이 적응됨), 즉 M1에 대한 테스트 데이터의 세트의 F 데이터로부터 주어진 수의 무작위로 도출된 데이터 포인트들이 (M1=N, M2=F, E=F) 결과들로부터 대응하는 수의 무작위로 선택된 데이터 포인트들로 대체될 수 있다. M1에 대한 테스트 데이터의 세트가 아직 존재하지 않는다면, (M1=N, M2=F, E=F) 결과들로부터의 주어진 수의 무작위로 선택된 데이터 포인트들이 M1에 대한 초기 테스트 데이터 세트로서 사용될 수 있다. 최적의 파라미터들은 테스트 데이터의 세트를 고려하면서 교차 검증에 의해 결정될 수 있다.
제5 단계에서, M1 및 M2는 새로운 훈련 데이터 세트들에 대해 또는 새로운 파라미터들로 훈련될 수 있다.
제6 단계에서, 단계 3 내지 단계 6이 반복된다.
도 4는 본 발명의 일 실시예에 따라 정보를 제1 클래스 또는 제2 클래스로 분류하기 위한 분류 프로세서(200)의 개략도를 도시한다. 분류 프로세서(200)는 2개의 병렬 분류 스테이지들(202, 204) 및 업데이트 스테이지(206)를 포함한다. 2개의 분류 스테이지들(202, 204) 중 제1 분류 스테이지(202)는 정보가 제1 클래스의 분류 기준을 충족한다면 제1 클래스에 정보를 할당하도록, 그리고 정보가 제1 클래스의 분류 기준을 충족하지 않는다면 제2 클래스에 정보를 할당하도록 구성된다. 2개의 분류 스테이지들 중 제2 분류 스테이지(204)는 정보가 제2 클래스의 분류 기준을 충족한다면 제2 클래스에 정보를 할당하도록, 그리고 정보가 제2 클래스의 분류 기준을 충족하지 않는다면 제1 클래스에 정보를 할당하도록 구성되며, 제1 클래스와 제2 클래스는 서로 다르다. 업데이트 스테이지는 2개의 분류 스테이지들에 의해 수행되는 정보의 할당들이 서로 어긋나는 경우에 또는 2개의 분류 스테이지들에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 2개의 분류 스테이지들 중 적어도 하나의 분류 스테이지의 분류 기준을 업데이트하도록 구성된다.
서로 다른 상보적 기술들을 조합함으로써, 실시예들은 고도의 견고성 및 정확도를 갖는 분류 방법(또는 분류 프로세서 또는 분류기)을 제공한다. 추가로, 지속적인 피드백은 적용 과정에서 정확도의 지속적인 개선, 및 수정된 외부 상황들에 대한 적응 또는 새로 발생하는 에러들의 검출을 가능하게 한다. 두 가지 상보적 기술들의 조합을 사용하는 결정적인 이점은 필요한 피드백 동작들의 비율이 하나의 단일 기술에서보다 더 작고 적용 과정에서 감소할 것이라는 점에 있다.
본 발명의 실시예들은 스팸 필터링, 종양 검출, 신용 카드 사기의 식별 및 기술 플랜트들에서의 에러 검출에 사용될 수 있다.
실시예들에서, 방법(100)에 의해 분류된 정보는 예컨대, 한 세트의 센서 데이터(또는 센서 값들)의 센서 데이터(또는 센서 값들)일 수 있다.
실시예들에서, 센서 데이터는 하나 이상의 외부 센서들(예컨대, 기술 플랜트)에 의해 검출될 수 있다.
실시예들에서, 센서 데이터는 예를 들어 온도들, 압력들, 체적 유량들 또는 작동 신호들일 수 있다.
실시예들에서, 정보가 두 분류 기술들 모두에 의해 제1 클래스에 할당될 때 제1 신호가 출력될 수 있다. 예를 들어, 제1 클래스의 정보는 정상 정보(예컨대, 미리 정해진 센서 데이터 영역(또는 목표 측정 값 영역) 내에 있는 센서 데이터(또는 측정된 센서 값들))일 수 있는데; 제1 신호는 (예컨대, 기술 플랜트의) 적절한 동작 상태를 나타낼 수 있다.
실시예들에서, 정보가 두 분류 기술들 모두에 의해 제2 클래스에 할당될 때 제2 신호가 출력될 수 있다. 예를 들어, 제2 클래스의 정보는 오류 정보(예컨대, 미리 정해진 센서 데이터 영역(또는 목표 측정 값 영역) 밖에 있는 센서 데이터(또는 측정된 센서 값들))일 수 있는데; 제2 신호는 (예컨대, 기술 플랜트의) 결함이 있는 동작 상태를 나타낼 수 있다.
실시예들에서, 정보가 분류 기술들에 의해 서로 다른 클래스들에 할당될 때 제3 신호가 출력될 수 있다.
실시예들에서, 이 방법은 기술 플랜트들(예컨대, 서비스 플랜트들)에서 에러들을 검출하는 데 그리고 이들을 보고하기 위해 사용될 수 있다.
실시예들에서, 센서들의 시계열 데이터(예를 들어, 온도들, 압력들, 체적 유량들, 작동 신호들)가 방법에 대한 입력 데이터로서 사용될 수 있다.
실시예들에서, 특정 시점에 할당된 모든 또는 선택된 센서 데이터는 데이터 포인트인 것으로 간주될 수 있다.
실시예들에서, 각각의 데이터 포인트는 정상으로, 에러로 또는 방법에 의해 알려지지 않은 것으로 분류될 수 있다.
실시예들에서, 에러로서 데이터 포인트의 분류는 기술 플랜트들의 동작에서의 에러들을 나타낼 수 있어, 상기 에러들이 제거될 수 있다.
실시예들에서, 방법의 기반이 되는 상보적 기술들이 서로 다른 분류들을 제안할 때, 알려지지 않은 것으로의 분류가 발생할 수 있다.
실시예들에서, "알려지지 않음"의 분류에 따른 데이터 포인트들은 예를 들어, 실제 클래스 할당에 관한 지식과 같은 추가(외부) 정보를 사용하여 분류될 수 있다.
실시예들에서, 실제 분류는 방법의 기반이 되는 기술들을 업데이트하고 이에 따라 개선하기 위해 사용될 수 있다. 예를 들어, 실제 분류에 관한 정보는 사용자(예컨대, 시설 관리자)에 의해 제공될 수 있다. 그러나 분류 기준의 업데이트는 사용자에 의해서가 아닌 알고리즘에 의해 수행된다는 점이 주목될 것이다.
실시예들에서, 알려지지 않은 것으로 분류된 데이터 포인트들의 수는 적용 과정에서 감소될 수 있어, 잘못 분류된 데이터 포인트들의 수도 또한 감소한다.
실시예들에서, 이 방법은 프레임워크 조건들의 변경(예컨대, 가열에서 냉각으로의 전환) 및 새로운 타입들의 에러들의 검출에 분류를 적응시키는 것을 가능하게 한다.
실시예들에서, (예컨대, 사용자에 의해 제공되는) 임의의 추가(외부) 정보가 없는 "알려지지 않은" 클래스의 데이터 포인트는 항상 에러로 간주될 수 있고 또는 항상 정상으로 간주될 수 있다.
일부 양상들은 디바이스와 관련하여 설명되었지만, 상기 양상들은 또한 대응하는 방법의 설명을 나타내므로, 디바이스의 구조적 컴포넌트 또는 블록은 또한 대응하는 방법 단계로서 또는 방법 단계의 특징으로서 이해될 것이라고 이해된다. 이와 비슷하게, 방법 단계와 관련하여 또는 방법 단계로서 설명된 양상들은 또한 대응하는 디바이스의 대응하는 블록 또는 세부사항 또는 특징의 설명을 나타낸다. 방법 단계들 중 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그래밍 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 디바이스에 의해(또는 하드웨어 디바이스를 사용하는 동안) 수행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 일부 또는 여러 단계가 이러한 디바이스에 의해 수행될 수 있다.
본 발명에 따라 인코딩된 신호, 이를테면 오디오 신호 또는 비디오 신호 또는 캐리어 스트림 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 이를테면 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
본 발명에 따라 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송시 매체, 이를테면 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이 디스크, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리, 하드 디스크, 또는 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 또는 협력하는 전자적으로 판독 가능한 제어 신호들이 저장된 임의의 다른 자기 또는 광 메모리를 사용하여 이루어질 수 있다. 이런 이유로 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
따라서 본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 임의의 방법이 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 포함하는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 임의의 방법을 수행하기에 효과적이다.
프로그램 코드는 또한 예를 들어, 기계 판독 가능 반송파 상에 저장될 수도 있다.
다른 실시예들은 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하기 위한 컴퓨터 프로그램을 포함하는데, 상기 컴퓨터 프로그램은 기계 판독 가능 반송파 상에 저장된다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 데이터 반송파(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 컴퓨터 판독 가능 매체는 통상적으로 구체적이고 그리고/또는 비-일시적 및/또는 비-순간적이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 링크를 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하기 위한 컴퓨터 프로그램이 설치되는 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 적어도 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 송신하도록 구성된 디바이스 또는 시스템을 포함한다. 송신은 예를 들어 전자적 또는 광학적일 수 있다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 또는 유사한 디바이스일 수 있다. 디바이스 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기로 송신하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이, FPGA)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 임의의 방법을 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 일부 실시예들에서 임의의 하드웨어 디바이스에 의해 수행된다. 상기 하드웨어 디바이스는 컴퓨터 프로세서(CPU: computer processor) 또는 그래픽 카드(GPU: graphics card)와 같은 임의의 범용적으로 적용 가능한 하드웨어일 수도 있고, 또는 방법에 특정한 하드웨어, 예컨대 ASIC일 수도 있다.
본 명세서에서 설명한 디바이스들은 예컨대, 하드웨어 장치를 사용하는 동안, 또는 컴퓨터를 사용하는 동안, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하는 동안 구현될 수 있다.
본 명세서에서 설명된 디바이스들 또는 본 명세서에서 설명된 디바이스들의 임의의 컴포넌트들은 적어도 부분적으로는 하드웨어로 또는 소프트웨어(컴퓨터 프로그램)로 구현될 수 있다.
본 명세서에서 설명한 방법들은 예컨대, 하드웨어 장치를 사용하는 동안, 또는 컴퓨터를 사용하는 동안, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하는 동안 구현될 수 있다.
본 명세서에서 설명한 방법들 또는 본 명세서에서 설명한 디바이스들의 임의의 컴포넌트들은 적어도 부분적으로는 하드웨어에 의해 또는 소프트웨어에 의해 실행될 수 있다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시를 나타낼 뿐이다. 해당 기술분야에서 통상의 지식을 가진 다른 자들은 본 명세서에서 설명한 어레인지먼트들 및 세부사항들의 임의의 수정들 및 변형들을 인식할 것이라고 이해된다. 이는 본 발명이 실시예들의 설명 및 논의에 의해 본 명세서에서 제시된 특정 세부사항들로가 아닌, 단지 다음의 청구범위로만 한정되는 것으로 의도되기 때문이다.

Claims (15)

  1. 정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100)으로서,
    상기 정보가 상기 제1 클래스의 분류 기준을 충족한다면 상기 제1 클래스에 상기 정보를 할당하도록, 그리고 상기 정보가 상기 제1 클래스의 분류 기준을 충족하지 않는다면 상기 제2 클래스에 상기 정보를 할당하도록 상기 정보에 제1 분류 기술(M1)을 적용하는 단계(102);
    상기 정보가 상기 제2 클래스의 분류 기준을 충족한다면 상기 제2 클래스에 상기 정보를 할당하도록, 그리고 상기 정보가 상기 제2 클래스의 분류 기준을 충족하지 않는다면 상기 제1 클래스에 상기 정보를 할당하도록 상기 정보에 제2 분류 기술(M2)을 적용하는 단계(104); 및
    2개의 분류 기술들에 의해 수행되는 상기 정보의 할당들이 서로 어긋나는 경우에 또는 상기 2개의 분류 기술들(M1, M2)에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 상기 2개의 분류 기술들 중 적어도 하나의 분류 기술의 분류 기준을 업데이트하는 단계(106)를 포함하며,
    상기 제1 클래스와 상기 제2 클래스는 서로 다른,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  2. 제1 항에 있어서,
    상기 방법(100)은 스팸 필터링, 종양 검출, 신용 카드 사기의 식별 또는 기술 플랜트(technical plant)들에서의 에러 검출에 사용되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  3. 제1 항 또는 제2 항에 있어서,
    상기 제1 분류 기술(M1)과 상기 제2 분류 기술(M2)은 서로 상보적인,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 정보의 실제 클래스 할당에 관한 지식을 사용하면서 상기 2개의 분류 기술들(M1, M2) 중 적어도 하나가 업데이트되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  5. 제1 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 정보는 데이터이고; 또는
    상기 정보는 데이터 세트(120)의 데이터이며, 상기 데이터 세트(120)의 데이터는 상기 방법(100)에 의해 개별적으로 분류되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  6. 제1 항 내지 제5 항 중 어느 한 항에 있어서,
    상기 제1 분류 기술(M1)은 이상치(outlier) 검출 기술인,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  7. 제6 항에 있어서,
    상기 방법(100)은,
    초기화 상태 동안 상기 제1 클래스의 정보로만 상기 제1 분류 기술(M1)을 초기화하는 단계를 포함하는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  8. 제1 항 내지 제7 항 중 어느 한 항에 있어서,
    상기 제2 분류 기술(M2)은 규칙 기반 기술인,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  9. 제8 항에 있어서,
    상기 방법(100)은,
    초기화 상태 동안, 상기 제2 클래스의 정보로만 또는 상기 제2 클래스의 알려진 분류 정보에만 기초한 분류 기준으로 상기 제2 분류 기술(M2)을 초기화하는 단계를 포함하는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  10. 제1 항 내지 제9 항 중 어느 한 항에 있어서,
    초기화 상태 이후의 훈련 상태 동안, 훈련 정보의 교체된 세트에 상기 제1 분류 기술(M1)의 재개된 적용에 의해 상기 제1 분류 기술(M1)의 분류 기준을 업데이트하도록, 사실상 상기 제1 클래스에 할당되어야 하는 미리 정해진 수의 정보가 상기 제2 분류 기술(M2)에 의해 상기 제1 클래스에 정확하게 할당되었지만 상기 제1 분류 기술(M1)에 의해 상기 제2 클래스에 잘못 할당되었다면, 상기 제1 분류 기술(M1)을 훈련하기 위해 사용되는 훈련 정보의 세트 중 적어도 일부가 교체되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  11. 제1 항 내지 제10 항 중 어느 한 항에 있어서,
    초기화 상태 이후의 훈련 상태 동안, 훈련 정보의 교체된 세트에 상기 제2 분류 기술(M2)의 재개된 적용에 의해 상기 제2 분류 기술(M2)의 분류 기준을 업데이트하도록, 사실상 상기 제2 클래스에 할당되어야 하는 미리 정해진 수의 정보가 상기 제1 분류 기술(M1)에 의해 상기 제2 클래스에 정확하게 할당되었지만 상기 제2 분류 기술(M2)에 의해 상기 제1 클래스에 잘못 할당되었다면, 상기 제2 분류 기술(M2)을 훈련하기 위해 사용되는 상기 제2 클래스의 훈련 정보의 세트 중 적어도 일부가 교체되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  12. 제1 항 내지 제11 항 중 어느 한 항에 있어서,
    초기화 상태 이후의 훈련 상태 동안, 훈련 정보의 교체된 세트에 상기 제2 분류 기술(M2)의 재개된 적용에 의해 상기 제2 분류 기술(M2)의 분류 기준을 업데이트하도록, 사실상 상기 제1 클래스에 할당되어야 하는 미리 정해진 수의 정보가 상기 제1 분류 기술(M1)에 의해 상기 제1 클래스에 정확하게 할당되었지만 상기 제2 분류 기술(M2)에 의해 상기 제2 클래스에 잘못 할당되었다면, 상기 제2 분류 기술(M2)을 훈련하기 위해 사용되는 상기 제1 클래스의 훈련 정보의 세트 중 적어도 일부가 교체되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  13. 제1 항 내지 제12 항 중 어느 한 항에 있어서,
    초기화 상태 이후의 훈련 상태 동안, 테스트 데이터의 업데이트된 세트의 도움으로 상기 제1 분류 기술(M1)의 재개된 적용에 의해 상기 제1 분류 기술(M1)의 분류 기준을 업데이트하도록, 사실상 상기 제2 클래스에 할당되어야 하는 미리 정해진 수의 정보가 상기 제2 분류 기술(M2)에 의해 상기 제2 클래스에 정확하게 할당되었지만 상기 제1 분류 기술(M1)에 의해 상기 제1 클래스에 잘못 할당되었다면, 상기 제1 분류 기술(M1)을 훈련하기 위해 사용되는 훈련 정보의 세트 중 적어도 일부가 교체되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하는 컴퓨터 구현 방법(100).
  14. 정보를 제1 클래스 또는 제2 클래스로 분류하기 위한 분류 프로세서(200)로서,
    2개의 병렬 분류 스테이지들(202, 204) ― 상기 2개의 분류 스테이지들(202, 204) 중 제1 분류 스테이지(202)는 상기 정보가 상기 제1 클래스의 분류 기준을 충족한다면 상기 제1 클래스에 상기 정보를 할당하도록, 그리고 상기 정보가 상기 제1 클래스의 분류 기준을 충족하지 않는다면 상기 제2 클래스에 상기 정보를 할당하도록 구성되고, 상기 2개의 분류 스테이지들(202, 204) 중 제2 분류 스테이지(204)는 상기 정보가 상기 제2 클래스의 분류 기준을 충족한다면 상기 제2 클래스에 상기 정보를 할당하도록, 그리고 상기 정보가 상기 제2 클래스의 분류 기준을 충족하지 않는다면 상기 제1 클래스에 상기 정보를 할당하도록 구성되며, 상기 제1 클래스와 상기 제2 클래스는 서로 다름 ―; 및
    상기 2개의 분류 스테이지들(202, 204)에 의해 수행되는 상기 정보의 할당들이 서로 어긋나는 경우에 또는 상기 2개의 분류 스테이지들에 의한 정보의 미리 정해진 수의 서로 어긋난 할당들에 도달한 경우에 상기 2개의 분류 스테이지들 중 적어도 하나의 분류 스테이지의 분류 기준을 업데이트하도록 구성된 업데이트 스테이지(206)를 포함하는,
    정보를 제1 클래스 또는 제2 클래스로 분류하기 위한 분류 프로세서(200).
  15. 제14 항에 있어서,
    상기 분류 프로세서는 스팸 필터링, 종양 검출, 신용 카드 사기의 식별 또는 기술 플랜트들에서의 에러 검출에 사용되는,
    정보를 제1 클래스 또는 제2 클래스로 분류하기 위한 분류 프로세서(200).
KR1020197028669A 2017-02-28 2018-02-26 정보를 분류하기 위한 방법 및 분류 프로세서 KR102335038B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17158525.0 2017-02-28
EP17158525.0A EP3367261A1 (de) 2017-02-28 2017-02-28 Verfahren zum klassifizieren von information und klassifizierungsprozessor
PCT/EP2018/054709 WO2018158201A1 (de) 2017-02-28 2018-02-26 Verfahren zum klassifizieren von information und klassifizierungsprozessor

Publications (2)

Publication Number Publication Date
KR20190117771A true KR20190117771A (ko) 2019-10-16
KR102335038B1 KR102335038B1 (ko) 2021-12-06

Family

ID=58231402

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197028669A KR102335038B1 (ko) 2017-02-28 2018-02-26 정보를 분류하기 위한 방법 및 분류 프로세서

Country Status (7)

Country Link
US (1) US20190361921A1 (ko)
EP (2) EP3367261A1 (ko)
JP (1) JP6962665B2 (ko)
KR (1) KR102335038B1 (ko)
CN (1) CN110431543B (ko)
ES (1) ES2880202T3 (ko)
WO (1) WO2018158201A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11774925B2 (en) * 2018-11-05 2023-10-03 Johnson Controls Tyco IP Holdings LLP Building management system with device twinning, communication connection validation, and block chain

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004047939A (ja) * 2002-05-23 2004-02-12 Hitachi High-Technologies Corp 欠陥分類器の生成方法および欠陥自動分類方法
KR20120027733A (ko) * 2010-09-13 2012-03-22 한국수력원자력 주식회사 서포트 벡터 머신을 이용한 회전기계의 결함진단 방법 및 장치
JP2014096050A (ja) * 2012-11-09 2014-05-22 Toshiba Corp プロセス監視診断装置、プロセス監視診断プログラム
US20170053211A1 (en) * 2015-08-21 2017-02-23 Samsung Electronics Co., Ltd. Method of training classifier and detecting object

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6842751B1 (en) 2000-07-31 2005-01-11 International Business Machines Corporation Methods and apparatus for selecting a data classification model using meta-learning
US7219148B2 (en) 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7240039B2 (en) 2003-10-29 2007-07-03 Hewlett-Packard Development Company, L.P. System and method for combining valuations of multiple evaluators
US7096153B2 (en) 2003-12-31 2006-08-22 Honeywell International Inc. Principal component analysis based fault classification
US7725414B2 (en) * 2004-03-16 2010-05-25 Buzzmetrics, Ltd An Israel Corporation Method for developing a classifier for classifying communications
US7349746B2 (en) 2004-09-10 2008-03-25 Exxonmobil Research And Engineering Company System and method for abnormal event detection in the operation of continuous industrial processes
WO2006098766A2 (en) * 2004-09-17 2006-09-21 Proximex Incremental data fusion and decision making system and associated method
US7945437B2 (en) * 2005-02-03 2011-05-17 Shopping.Com Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
US8930365B2 (en) * 2006-04-29 2015-01-06 Yahoo! Inc. System and method for evolutionary clustering of sequential data sets
WO2008154029A1 (en) * 2007-06-11 2008-12-18 The Trustees Of Columbia University In The City Of New York Data classification and hierarchical clustering
US8200601B2 (en) * 2009-05-26 2012-06-12 Microsoft Corporation Boosting to determine indicative features from a training set
CA2772082C (en) * 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US8438009B2 (en) * 2009-10-22 2013-05-07 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora
JP5552023B2 (ja) * 2010-10-27 2014-07-16 インターナショナル・ビジネス・マシーンズ・コーポレーション クラスタリング・システム、方法及びプログラム
CN104463208A (zh) * 2014-12-09 2015-03-25 北京工商大学 组合标记规则的多视图协同半监督分类算法
CN107085572A (zh) * 2016-02-14 2017-08-22 富士通株式会社 对在时间上逐一到达的输入数据进行分类的方法和系统
EP3309777A1 (en) * 2016-10-13 2018-04-18 Thomson Licensing Device and method for audio frame processing
US10956402B2 (en) * 2018-04-13 2021-03-23 Visa International Service Association Method and system for automatically detecting errors in at least one date entry using image maps

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004047939A (ja) * 2002-05-23 2004-02-12 Hitachi High-Technologies Corp 欠陥分類器の生成方法および欠陥自動分類方法
KR20120027733A (ko) * 2010-09-13 2012-03-22 한국수력원자력 주식회사 서포트 벡터 머신을 이용한 회전기계의 결함진단 방법 및 장치
JP2014096050A (ja) * 2012-11-09 2014-05-22 Toshiba Corp プロセス監視診断装置、プロセス監視診断プログラム
US20170053211A1 (en) * 2015-08-21 2017-02-23 Samsung Electronics Co., Ltd. Method of training classifier and detecting object

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fuqaing Liu et al., Dual Teaching: A Practical Semi-supervised Wrapper Method, 2016.11.12. <URL: https://arxiv.org/abs/1611.03981> 1부.* *

Also Published As

Publication number Publication date
US20190361921A1 (en) 2019-11-28
JP6962665B2 (ja) 2021-11-05
KR102335038B1 (ko) 2021-12-06
ES2880202T3 (es) 2021-11-23
CN110431543A (zh) 2019-11-08
EP3590052A1 (de) 2020-01-08
EP3590052B1 (de) 2021-05-19
CN110431543B (zh) 2024-03-15
WO2018158201A1 (de) 2018-09-07
EP3367261A1 (de) 2018-08-29
JP2020509497A (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
Cortes et al. Boosting with abstention
US20220222929A1 (en) Method and device for testing the robustness of an artificial neural network
Al-Khateeb et al. Stream classification with recurring and novel class detection using class-based ensemble
US20180159871A1 (en) Machine Learning Based Malware Detection System
JP6158882B2 (ja) 生成装置、生成方法、及び生成プログラム
US20170147909A1 (en) Information processing apparatus, information processing method, and storage medium
JP2017102906A (ja) 情報処理装置、情報処理方法及びプログラム
Tokunaga et al. Negative pseudo labeling using class proportion for semantic segmentation in pathology
KR102335038B1 (ko) 정보를 분류하기 위한 방법 및 분류 프로세서
CN111586071A (zh) 一种基于循环神经网络模型的加密攻击检测方法及装置
CN114746859A (zh) 评价方法、评价程序以及信息处理装置
CN114386614A (zh) 用于训练机器学习系统的方法和装置
JP6541482B2 (ja) 検証装置、検証方法及び検証プログラム
JP2014206935A (ja) 識別器更新装置、識別器更新プログラム、情報処理装置、および識別器更新方法
JP2018160172A (ja) マルウェア判定方法、マルウェア判定装置及びマルウェア判定プログラム
US20180039822A1 (en) Learning device and learning discrimination system
JP2018018153A (ja) 鋼種判別装置及び鋼種判別方法
US20210117858A1 (en) Information processing device, information processing method, and storage medium
Lee et al. Toward Firmware-Type Analysis Using machine Learning Techniques
US20220108152A1 (en) Method for ascertaining an output signal with the aid of a machine learning system
Xenaki et al. Sparse adaptive possibilistic clustering
US20220012531A1 (en) Method for configuring an image evaluation device and also image evaluation method and image evaluation device
CN114758188A (zh) 多层级分类神经网络的样本标签平滑方法、装置及设备
JP6678709B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP3940626A1 (en) Information processing method and information processing system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant