KR20210108319A

KR20210108319A - 기계학습 기반 적응형 자동분류 방법 및 시스템

Info

Publication number: KR20210108319A
Application number: KR1020210021836A
Authority: KR
Inventors: 김대원; 여도엽
Original assignee: 한국전자통신연구원
Priority date: 2020-02-25
Filing date: 2021-02-18
Publication date: 2021-09-02

Abstract

기계학습 기반 적응형 자동분류 방법이 제공된다. 상기 방법은 라벨이 전혀 없는 제1 입력자료와, 각 클래스별로 라벨 존재 수가 상이한 제2 입력자료와, 각 클래스별로 라벨 존재 수가 일정 범위 내를 만족하는 제3 입력자료 중 적어도 하나의 입력자료를 수신하는 단계; 상기 입력자료에 대한 전처리를 수행하는 단계; 상기 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습하는 단계; 상기 클러스터링 모델 및 분류 모델의 학습이 완료됨에 따른 예측 결과값을 저장소에 저장하는 단계; 상기 예측 결과값을 상호 비교하여 상기 예측 결과값 및 상기 클러스터링 모델과 분류 모델의 신뢰성을 검증하는 단계; 및 상기 검증된 예측 결과값을 기반으로 상기 클러스터링 모델과 분류 모델을 갱신하는 단계를 포함한다.

Description

기계학습 기반 적응형 자동분류 방법 및 시스템{METHOD AND SYSTEM FOR AUTOMATIC CLASSIFICATION BASED ON MACHINE LEARNING}

본 발명은 기계학습 기반 적응형 자동분류 방법 및 시스템에 관한 것이다.

주지하듯이 실산업의 거의 모든 자료는 라벨(Label)이 없거나 불균형한 형태의 자료이다. 예를 들어, 공장 배관의 누출(leak)을 감지하는 기계학습(Machine Learning, ML) 모델을 학습하기 위해서는 누출이 없는 정상상태와 누출이 발생한 비정상상태 각각에 대하 라벨이 달린 충분한 양의 자료가 필요하다. 그러나 실제 상황에서는 정상상태 자료는 많으나 비정상상태 라벨이 달린 자료의 양은 상대적으로 매우 적거나 심지어는 없는 경우가 대부분이다. 참고로, 현재 성공적으로 다양한 분야에서 적용되고 있는 딥러닝(Deep Learning, DL)의 경우, 라벨이 달린 충분한 많은 양의 자료(Big-Data)를 필요로 하며, 또한 각각의 클래스(예를 들어, 정상/비정상)에 해당하는 자료의 양이 어느 정도 균형 잡힌 비율로 존재한다는 것을 전제로 한다.

이러한 라벨 부족 및 라벨 불균형(이를 라벨 부족 문제로 통칭하도록 한다) 자료를 분류하기 위한 일반적인 방법으로는, 특정 기계학습 알고리즘을 변형하여 사용하거나, 라벨이 달린 자료를 인공적으로 생성하거나, 또는 모델 평가시에 성능을 어느 정도 보정해주는 수학적 수치를 사용하는 것이다. 그러나 이러한 접근법은 모두 개별적인 기계학습 모델 학습방법론이기 때문에 실환경에서 발생하는 다양한 자료 형태에 능동적으로 대응하기가 힘들다.

즉, 한번 학습이 된 모델이라 하더라도, 자료의 특성이 실시간으로 변화하는 실산업에 적용하기 위해서는 별도의 모델 검증 및 갱신이 또 다시 필요하다. 다시 말해, 매 순간마다 기계학습 전문가의 도움이 필요하지만, 실제 산업환경에서 지속적으로 기계학습 전문가를 배치하고 활용하는 것은 현실적으로 불가능한 일이다.

따라서, 이를 해결하기 위해 자료부족문제 및 실시간 자료특성변화 문제에 대응해 능동적으로 기계학습 모델을 자동으로 학습 및 검증할 수 있는 기술이 필요한 실정이다.

공개특허공보 제10-2018-0103632호 (2018.09.19)

본 발명이 해결하고자 하는 과제는 Label이 없거나 또는 소수인 경우 발생하는 Label 부족 문제를 해결하기 위해, 예측용 ML 모델을 자동으로 학습, 검증 및 갱신함으로써 실시간으로 특성이 변화하는 입력자료를 효율적으로 분류할 수 있는, 기계학습 기반 적응형 자동분류 방법 및 시스템을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 기계학습 기반 적응형 자동분류 방법은 라벨이 전혀 없는 제1 입력자료와, 각 클래스별로 라벨 존재 수가 상이한 제2 입력자료와, 각 클래스별로 라벨 존재 수가 일정 범위 내를 만족하는 제3 입력자료 중 적어도 하나의 입력자료를 수신하는 단계; 상기 입력자료에 대한 전처리를 수행하는 단계; 상기 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습하는 단계; 상기 클러스터링 모델 및 분류 모델의 학습이 완료됨에 따른 예측 결과값을 저장소에 저장하는 단계; 상기 예측 결과값을 상호 비교하여 상기 예측 결과값 및 상기 클러스터링 모델과 분류 모델의 신뢰성을 검증하는 단계; 및 상기 검증된 예측 결과값을 기반으로 상기 클러스터링 모델과 분류 모델을 갱신하는 단계를 포함한다.

본 발명의 일부 실시예에서, 상기 클러스터링 모델은 비지도 학습 알고리즘에 기초하여 학습이 수행되고, 상기 분류 모델은 지도 학습 알고리즘에 기초하여 학습이 수행될 수 있다.

본 발명의 일부 실시예에서, 상기 전처리된 입력자료가 제1 입력자료인 경우, 상기 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습하는 단계는, 상기 전처리된 제1 입력자료에 기초하여 클러스터링 모델을 학습하는 단계; 및 상기 클러스터링 모델을 통해 라벨이 부여된 제1 입력자료에 기초하여 분류 모델을 학습하는 단계를 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 전처리된 입력자료가 제2 및 제3 입력자료 중 어느 하나인 경우, 상기 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습하는 단계는, 상기 전처리된 제2 또는 제3 입력자료에 기초하여 분류 모델을 학습하는 단계; 및 상기 분류 모델의 학습과 동시에 또는 상기 분류 모델의 학습 결과를 이용하여 상기 클러스터링 모델을 학습하는 단계를 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 예측 결과값을 상호 비교하여 상기 예측 결과값 및 상기 클러스터링 모델과 분류 모델의 신뢰성을 검증하는 단계; 및 상기 검증된 예측 결과값을 기반으로 상기 클러스터링 모델과 분류 모델을 갱신하는 단계는, 상기 저장소에 저장된 상기 클러스터링 모델 및 분류 모델의 누적 예측 결과값이 미리 설정된 수준과의 비교 결과, 상기 분류 모델의 분류 성능과 특정 수준과의 비교 결과 및 상기 클러스터링 모델 및 분류 모델의 개별 예측 결과값의 비교 결과 중 적어도 하나에 기초하여 검증 및 갱신할 수 있다.

본 발명의 일부 실시예에서, 상기 예측 결과값을 상호 비교하여 상기 예측 결과값 및 상기 클러스터링 모델과 분류 모델의 신뢰성을 검증하는 단계; 및 상기 검증된 예측 결과값을 기반으로 상기 클러스터링 모델과 분류 모델을 갱신하는 단계는, 상기 검증 결과 기 설정된 신뢰도 이상을 만족하는 예측 결과값을 상기 저장소에 저장하는 단계; 및 상기 저장소에 저장된 예측 결과값을 이용하여 차후 상기 클러스터링 모델과 분류 모델을 갱신하는 단계를 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 예측 결과값을 상호 비교하여 상기 예측 결과값 및 상기 클러스터링 모델과 분류 모델의 신뢰성을 검증하는 단계는, 상기 클러스터링 모델 및 분류 모델이 복수 개의 모델로 구성된 경우, 상기 클러스터링 모델 및 분류 모델에 각각 포함된 적어도 하나의 모델에서의 예측 결과값이 기 설정된 신뢰도 이상을 만족하는 경우 검증이 완료된 것으로 판단할 수 있다.

본 발명의 일부 실시예는, 미리 축적된 지식 정보를 이용하여 상기 클러스터링 모델과 분류 모델을 검증한 후 상기 저장소에 저장하는 단계를 더 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 입력자료에 대한 전처리를 수행하는 단계는, 상기 입력자료가 제1 내지 제3 입력자료 중 어느 타입에 해당하는지를 판별하는 단계를 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 기계학습 기반 적응형 자동분류 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

라벨 부족문제를 해결하기 위한 기존의 분석/분류 방법은 단편적인 ML 기술들을 사용하기 때문에, 자료의 특성이 수시로 변하는 실산업에 유동적으로 적용하기에 무리가 있다.

전술한 본 발명의 일 실시예에 따르면, 규격화된 입력자료를 이용하므로 자료형태에 구애를 받지 않으며, 자료 부족 문제에 대하여 유연한 대처가 가능하다. 즉, 라벨이 전혀 존재하지 않는 경우, 라벨이 존재하나 불균형 자료일 경우, 라벨이 존재하는 균형 자료일 경우에도 각각 구분이 가능하다는 장점이 있다.

또한, 기계학습, 딥러닝 비전문가도 사용 가능하므로 다양한 환경에 적용이 가능하며, 클러스터링 모델과 분류 모델의 상호비교를 통해 상호 검증이 가능하고, 분류된 결과를 기계학습 모델학습에 재사용하여 모델을 갱신시킬 수 있으며, 모델 검증 및 갱신 과정의 자동화를 통해 유지비를 절감시킬 수 있다. 또한, 필요시 GUI 기반 사용자 입력을 통한 학습모델 성능을 자동으로 향상시킬 수 있으며, 위 과정을 통하여 실시간으로 특성이 변화하는 자료에 능동적으로 대응이 가능하다는 장점이 있다.

이와 더불어, Python 및 Open-source 라이브러리만으로 구축 및 개발 가능한바 비용을 최소화시킬 수 있다는 장점이 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 기계학습 기반 적응형 자동분류 방법의 순서도이다.
도 2는 자료의 라벨이 전혀 존재하지 않는 경우의 실시예를 설명하기 위한 도면이다.
도 3은 GUI를 통해 사전 지식 정보를 획득하는 과정을 설명하기 위한 도면이다.
도 4는 자료의 라벨이 존재하나 각 클래스별로 라벨 존재 수가 현저히 차이 나는 경우의 실시예를 설명하기 위한 도면이다.
도 5는 기계학습 기반 적응형 자동분류 시스템의 블록도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 발명은 기계학습 기반 적응형 자동분류 방법 및 시스템(100)에 관한 것이다.

본 발명은, 정상상태와 비정상상태를 구분해야 하는 시스템에서, 라벨이 달린 비정상자료의 양이 적은 경우는 물론 심지어 비정상자료가 아예 없는 경우에도, 정상상태와 비정상상태의 구분이 가능한 능동적이고 효율적인 기계학습 기반 자동화 시스템이다. 또한, 라벨이 달린 정상자료와 비정상자료가 모두 균형적으로 존재하는 경우에도 본 발명의 일 실시예는 그 적용이 가능함은 물론이다.

이에 더 나아가, 본 발명의 일 실시예는 정상과 비정상의 두 종류 경우의 구분뿐만 아니라, 다양한 종류의 구분 또한 가능한 시스템으로도 적용이 가능하며, 기계학습 비전문가라 하더라도 용이하게 시스템을 사용할 수 있다는 장점이 있다.

본 발명의 일 실시예는 자료의 특성이 실시간으로 변화하는 실제 환경에도 적용이 가능하다.

이를 위해 본 발명의 일 실시예는 기존의 다양한 기계학습 기술과 더불어 딥러닝 기반 기술도 사용할 수 있으며, 필요에 따라 사용자(전문가 또는 비전문가)의 판단과 같은 선행지식을 통해 분류 성능을 극대화할 수 있는 방안도 제공한다. 즉, 완전 자동화 시스템으로서 사용이 가능함은 물론이며, 사용자의 개입을 통한 분류효율 향상도 가능하여 그 적용범위의 폭을 넓힐 수 있다.

이하에서는 도 1 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 기계학습 기반 적응형 자동분류 방법에 대해 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 기계학습 기반 적응형 자동분류 방법의 순서도이다.

한편, 도 1에 도시된 각 단계들은 후술하는 기계학습 기반 적응형 자동분류 시스템(100)에 의해 수행되는 것으로 이해될 수 있으나, 반드시 이에 한정되는 것은 아니다.

먼저, 라벨이 전혀 없는 제1 입력자료와, 각 클래스별로 라벨 존재 수가 상이한 제2 입력자료와, 각 클래스별로 라벨 존재 수가 일정 범위 내를 만족하는 제3 입력자료 중 적어도 하나의 입력자료를 수신한다(S110).

본 발명의 일 실시예에서, 입력자료의 형태는 특별한 형태로 제한되지 않는다. 예를 들어, 영상, 음성, 시계열, 테이블 형태 등 모든 타입의 자료를 포함한다.

다음으로, 입력자료에 대한 전처리를 수행한다(S120). 이러한 전처리 과정은 다음 과정인 클러스터링 또는 분류 과정에 적합한 규격 또는 형태로 처리 및 변환하는 과정 전반을 의미한다. 이러한 전처리 과정을 통해, 본 발명의 일 실시예는 입력자료의 형태나 형식에 구애받지 않고 클러스터링 모델과 분류 모델을 비교하는 방법을 적용할 수 있다.

전처리 과정의 일 예로는, 영상, 음성, 텍스트 등의 자료를 변환하는 과정, 즉 자료에 다양한 필터를 적용하거나 인위적으로 가공하여 변환하는 과정을 들 수 있다. 영상의 경우를 예로 들면, 크기 변환, 회전, smoothing, 흑백화, 차원감소 등 모든 형태의 영상변환 과정이 이에 해당할 수 있다. 음성 및 다른 자료의 경우도 마찬가지로 모든 형태의 변환과정을 포함할 수 있다.

또 다른 예로, 전처리 과정은 영상, 음성, 텍스트 등의 자료에서 특성값을 추출하는 과정을 들 수 있다. 영상을 예로 들면, 색분포도를 구한다거나, 평균값과 분산을 구한다거나 하는 등의 과정이 이에 해당할 수 있다. 음성 및 다른 자료의 경우도 마찬가지로 모든 형태의 특성 추출 과정을 포함할 수 있다.

또한, 전처리 과정에서는 입력자료의 라벨이 불균형한지 여부도 판별할 수 있다. 즉, 제1 내지 제3 입력자료 중 어느 타입에 해당하는지 여부를 판별할 수 있다. 예를 들어, 주어진 일정 시간 동안의 입력 자료를 검사하여, 각 클래스간 라벨의 개수가 불균형하다면(예를 들어, 10배 이상 차이나는 경우) 제2 입력 자료로 판별하고, 그렇지 않다면 제3 입력 자료로 판별할 수 있다.

다음으로, 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습을 수행하고(S130), 클러스터링 모델 및 분류 모델의 학습이 완료됨에 따른 예측 결과값을 저장소에 저장한다(S140). 입력자료의 타입에 따라 클러스터링 모델과 분류 모델을 학습하는 방법은 도 2와 도 3에서 상세히 설명하도록 한다.

클러스터링 모델과 분류 모델은 하나의 모델로 구성될 수 있음은 물론, 복수 개의 모델로 구성될 수 있으며, 복수 개의 모델의 전부를 학습하거나 이 중에서 일부만을 학습할 수도 있다.

학습된 모델로부터 나오는 개별 결과값을 비교시 다양한 방법을 적용할 수 있다. 만약, 결과값이 라벨이라면, 클러스터링 모델과 분류 모델 사이에 라벨을 비교하여 서로 일치하는지 여부를 확인하고, 일치하는 경우 신뢰할만한 결과로 저장소에 저장하고, 신뢰할만한 결과로 저장된 결과는 추후 기계학습 모델 갱신시 이용할 수 있다.

또는, 예측 결과값이 라벨이 아닌 확률값인 경우, 클러스터링 모델과 분류 모델의 확률값들이 사용자가 정한 수치, 예를 들어 99% 이상이라면 신뢰할만한 결과로 저장소에 저장할 수 있다. 이 외에도 본 발명의 일 실시예는 클러스터링 모델과 분류 모델에서 나오는 결과를 비교하여 신뢰도를 판별할 수 있는 모든 방법을 포함한다.

만약, 위 예시에서 클러스터링 모델과 분류 모델이 복수 개의 모델(서브 모델)로 구성됨에 따라 학습이 수행되는 경우, 위 예시 외에도 더욱 다양한 활용이 가능하다. 예를 들어, 분류 모델에서 2개의 모델, 클러스터링 모델에서 3개의 모델이 학습되었다고 가정했을 때, 학습된 모델 중 분류 모델에서 최소한 1개의 모델, 클러스터링 모델에서 최소한 2개의 모델에서의 예측 결과값이 일치한다면 신뢰할만한 결과로 판단할 수 있다. 이는 확률값일 경우에도 마찬가지로 적용이 가능하며, 이 외에도 다양한 방식의 비교가 가능하다.

신뢰할만한 결과가 차후 기계학습에서 사용하는 방법도 다양하게 적용될 수 있다. 예를 들어, 신뢰할만한 결과에 가중치를 주어 실시간 입력자료와 함께 기계학습 모델을 학습할 수도 있고, 신뢰할만한 결과가 충분히 축적될 때까지 기다린 후, 충분히 축적되는 경우 그 신뢰할만한 결과만을 이용하여 기계학습 모델을 학습할 수도 있으며, 신뢰할만한 결과가 아닌 결과 중 일부를 제거하고 학습할 수도 있는 등 다양한 방법을 적용할 수 있다.

클러스터링 모델과 분류 모델을 상호 비교하여 검증하는 방법 역시 다양한 방법의 적용이 가능하다. 일 실시예로, 저장소에 누적되어 저장되는 클러스터링 모델 및 분류 모델의 누적 예측 결과값이 미리 설정된 수준 이상인 경우 검증된 것으로 판단할 수 있다. 이때, 누적되는 예측 결과값의 양과 기간은 사용자가 임의로 설정할 수 있다.

다른 실시예로, 분류 모델의 자체 분류 성능 결과가 일정 수준 이상을 만족하는 경우 분류 모델뿐만 아니라 클러스터링 모델도 함께 검증되었다고 볼 수 있다. 이는 기계학습 모델의 성능은 일반적으로 라벨이 잘 붙은 자료, 즉 특성에 따라 잘 구분된 자료일수록 높아지기 때문이다.

한편, 클러스터링 모델과 분류 모델이 각각 복수 개의 모델로 구성된 경우, 보다 다양한 활용이 가능하다. 예를 들어, 모든 모델들의 라벨 또는 확률값을 비교하여 예측 결과값이 가장 차이나는 결과를 갖는 모델을 다음번 모델의 학습, 검증 및 갱신 단계에서 제외시킬 수 있다. 이를 통해 성능이 좋지 않은 모델을 자동으로 검증하여 적용 배제시킬 수 있으며, 이에 따라 각 과정에서의 컴퓨팅 자원을 최소화시킬 수 있다.

본 발명의 일 실시예에서 저장소는 다양한 과정에서 나온 입력자료, 결과 및 연관정보를 저장하는 공간으로서, 저장된 모든 정보들은 갱신되거나 누적될 수 있다. 저장소는 텍스트 형태의 저장방식은 몰론, 일반적인 데이터베이스 등, 결과로 나온 값을 저장할 수 있는 모든 형태를 저장할 수 있다. 이와 같이 저장된 값은 각 저장방식의 표준에 따라 삽입, 삭제, 수정 등이 가능하다.

이에 더 나아가, 본 발명의 일 실시예는 미리 축적된 지식 정보(Prior Knowledge)를 이용하여 클러스터링 모델과 분류 모델을 검증한 후 저장소에 저장하는 단계를 더 포함할 수 있다(S150). 즉, S150 단계는 기존의 지식을 기반으로 입력자료를 독립적으로 판단하여, 저장소에 저장된 값을 검증한 후, 검증된 결과값을 저장소에 다시 저장하는 단계로, 차후 모델 학습에 반영되어 예측 효율을 높이기 위해 사용될 수 있다.

일 예로, 미리 축적된 지식으로 인간의 축적된 지식을 활용할 수 있으며, 간단한 GUI를 이용하여 활용하는 방법을 적용할 수 있다. 이는 기계학습 비전문가라도 문제되지 않으며, 입력자료에 대한 최소한의 지식만 가지고 있다면 충분히 활용할 수 있다. 특히, 자료에 대한 지식을 이미 보유하고 있기 때문에 그 신뢰성이 상대적으로 높다는 장점이 있다.

또한, 미리 축적된 지식 정보로, 기존 학습된 기계학습, 딥러닝 모델들(예를 들어, 영상의 경우 VGGNet, ResNet, Inception, MobileNet 등)을 이용할 수 있으며, 이 경우 인간의 축적된 지식을 이용할 때와는 달리 GUI를 필요로하지 않는다. 기존 기계학습, 딥러닝 모델로부터 예측값을 받아온 후, 클러스터링 모델과 분류 모델의 결과를 검증하는데 사용하면 된다. 만약, 기존 모델이 확률값을 제공한다면 특정 확률값(예를 들어, 99%)보다 높은 결과만을 이용함으로써, 검증의 신뢰도를 높일 수도 있다.

또한, 한 개나 복수 개의 기존 기계학습, 딥러닝 모델을 사용할 수 있으며, 복수 개의 모델을 사용할 경우, 모델로부터의 예측 결과값들의 라벨 또는 확률값을 이용하여 검증에 사용할지 여부를 판단할 수 있다. 예를 들어, 모든 모델들의 확률값이 90%보다 높아야 한다거나, 최소 2개의 모델로부터 나온 라벨이 일치해야 한다는 등의 판단 기준을 세울 수 있다. 단 기존 모델들을 학습했던 자료는 실시간 입력자료와 특성이 다를 가능성이 높기 때문에 그 신뢰성은 상대적으로 낮을 수도 있다.

이하, 각 입력자료의 타입에 따른 실시예를 구체적으로 설명하도록 한다.

1. 자료의 라벨이 전혀 존재하지 않는 경우

도 2는 자료의 라벨이 전혀 존재하지 않는 경우의 실시예를 설명하기 위한 도면이다.

입력자료의 타입이 라벨이 전혀 존재하지 않는 제1 입력자료의 경우에는, 전처리된 제1 입력자료에 기초하여 클러스터링 모델을 대상으로 우선 학습을 수행하고, 클러스터링 모델을 통해 라벨이 부여된 제1 입력자료에 기초하여 분류 모델이 학습된다.

이 경우에는 라벨이 없어도 학습이 가능한 클러스터링, 즉 모든 비지도 학습(Unsupervised Machine Learning) 알고리즘을 포함하는 기법을 사용한다. 일 예로, 딥러닝 기반의 알고리즘(예: Auto-Encoder 등), SVM 기반 알고리즘(예: One-Class SVM 등), Tree 기반 알고리즘(Isolation Forests 등), 밀도 기반 알고리즘(예: Local Outlier, Nearest Neighbor 등), 가우시안 기반 알고리즘(예: Elliptic Envelope 등)을 사용할 수 있다.

이 중에서 어떤 알고리즘을 사용할지는 사용자가 초기에 설정할 수도 있고, 시스템이 자동으로 선택할 수도 있으며, 본 발명에서는 그 선택 방법에 제한을 두지 않는다.

본 발명의 일 실시예는 이와 같은 다양항 기계학습, 딥러닝 알고리즘을 기반으로 라벨이 없는 입력자료의 특성을 학습하여, 입력자료와 다른 특성을 가진 자료를 구분해내기 위한 모델을 학습하거나, 또는 입력자료를 비슷한 특성의 그룹들로 나누는 모델을 학습한다. 본 발명에서는 이러한 모델을 클러스터링 모델(Clustering Model)이라 지칭하도록 한다.

한편, 입력자료를 몇 개의 클래스로 나눌지는 사용자의 설정에 따른다. 예를 들어, 자료가 정상자료만을 포함하는 경우라면 학습하는 클래스 개수는 1이며, 이 학습모델은 정상자료와 비정상자료를 구분하는데 사용할 수 있다. 또는, 입력자료가 개, 고양이, 말을 포함하는 자료라 가정할 경우, 학습할 클래스의 개수는 3이며, 이 학습모델은 입력자료를 개, 고양이, 말로 구분하는데 사용될 수 있다. 클래스의 개수는 후술하는 분류 단계에 영향을 준다.

클러스터링 모델을 거쳐 분류되는 자료는 라벨을 포함하는 자료들이다. 이 자료들은 저장소에 지속적으로 저장되며, 충분한 양이 저장된 후에는 분류(Classification) 모델을 학습하는 과정이 수행된다. 이때, 클러스터링 모델을 통해 이미 라벨을 확보하고 있기 때문에, 분류 모델의 학습이 가능하다.

분류 모델 학습을 위한 알고리즘은 기계학습, 딥러닝에 존재하는 모든 알고리즘, 즉 지도 학습(Supervised Machine Learning) 알고리즘 기반으로 학습이 수행될 수 있다. (예를 들어, Deep Learning, SVM, Random Forests, Na

ve Bayes, Logistic Regression 등)

이 중에서 어떤 알고리즘을 사용할지는 사용자가 초기에 설정할 수도 있고, 시스템이 자동으로 선택할 수도 있으며, 본 발명에서는 그 선택 방법에 제한을 두지 않는다. 이와 같은 학습 과정을 통해 학습된 모델을 분류 모델이라 지칭하도록 하며, 분류 모델을 통해 나온 예측 결과값 역시 저장소에 저장된다.

이후, 학습 과정을 통해 저장소에 저장된 예측 결과값을 지속적으로 비교하여 모델들을 상호 검증 및 갱신하는데 사용한다. 예를 들어, 클러스터링 모델과 분류 모델로부터 누적된 예측 결과값을 사용자에 의해 미리 설정된 수준과 비교하고, 비교 결과 특정 수준 이상(예를 들어, 95% 이상)인 경우에만 클러스터링 모델과 분류 모델이 충분한 성능을 보여준다고 판단할 수 있다

또는, 클러스터링 모델에서 생성된 라벨로 학습한 분류모델의 자체적인 분류 성능이 특정 수준보다 높다면(예를 들어, 98% 이상), 클러스터링 모델과 분류 모델이 상호 검증된 것으로 판단할 수 있다.

결과적으로 이러한 클러스터링 모델과 분류 모델의 예측 결과값의 비교 및 분석을 통해 각 모델의 상호 검증이 자동적으로 이루어질 수 있도록 할 수 있다.

또는, 클러스터링 모델 및 분류 모델의 개별 예측 결과값을 비교하여 예측 결과값의 신뢰성을 판단할 수 있다. 예를 들어, 클러스터링 모델과 분류 모델의 개별 입력자료에 대한 예측 라벨이 일치하는 경우 신뢰성있는 결과로 판단하고, 불일치할 경우 신뢰성이 낮은 결과로 판단할 수 있다. 또는 클러스터링 모델과 분류 모델의 예측 확률값이 주어지는 경우, 두 확률값의 곱을 신뢰성의 판단 근거로 사용할 수 있다.

이러한 과정을 거쳐 얻은 검증 결과(즉, 신뢰성 있는 예측 결과값인지 의심 가능한 예측 결과값인지)는 저장소에 기록되며, 다음 번 기계학습 모델을 학습할 때 반영될 수 있다. 예를 들어, 신뢰성 있는 결과만 기계학습 모델의 학습에 재사용한다던가, 또는 확률값이 높은 자료만 학습에 재사용하는 등 다양하게 활용할 수 있다. 이와 같은 과정을 통해 모델의 갱신이 자동적으로 이루어진다.

이 외에도 본 발명의 일 실시예는 다양한 방법으로 클러스터링 모델과 분류 모델의 결과를 비교함으로써 모델의 상호검증 및 갱신이 자동적으로 가능하게 할 수 있다. 한편, 기계학습 모델의 상호검증 및 갱신은 실시간으로 수행될 수도 있고, 주기적으로 수행될 수도 있으며, 비주기적으로도 수행될 수 있다. 다만, 실시간 수행을 위해서는 막대한 컴퓨팅 리소스가 필요하므로, 주기적 또는 비주기적으로 수행하는 것이 바람직하다.

전술한 모델 검증 및 갱신은 입력자료가 매 순간 발생하고 특성이 변화하는 실산업에 기계학습을 적용하기 위한 필수적인 요소이다. 이를 위해 본 발명의 일 실시예는 클러스터링 모델과 분류 모델 기반의 기계학습 모델 상호 검증 및 갱신 방법을 제공하는 것을 특징으로 한다.

한편, 본 발명의 일 실시예에서 사용자는 학습, 검증, 갱신 과정 중 언제든지 사전 지식 정보를 이용할 수 있다(예를 들어, 상시, 주기적, 또는 비정기적으로 등). 이때, 사전 지식 정보를 이용하는 과정은 본 발명의 필수적인 단계일 수도 있고, 부수적인 단계일 수도 있다. 미리 축적된 사전 지식을 이용할 경우 보다 향상된 기계학습 모델을 습득할 수 있다는 장점이 있다.

사전 지식 정보는 기존에 이미 축적된 지식 및 정보를 이용하여 클러스터링 모델과 분류 모델의 예측 결과값을 검증한 후 저장소에 저장하는 일련의 과정을 말한다.

예를 들어, 영상 입력 자료의 경우, 기존에 학습되어 있는 기계학습/딥러닝 모델들을 들 수 있다. 또 다른 형태의 사전 지식 정보로는 인간의 축적된 지식이 있다.

보다 구체적으로, 인간의 축적된 지식을 사용하기 위해, 간단한 GUI 상에 입력자료와 그 예측값을 사용자에게 보여준 후 사용자가 맞다고 확인하면, 그 확인된 값은 신뢰성 있는 결과로 저장소에 기록되며, 다음번 클러스터링 모델 또는 분류 모델 갱신시 반영된다.

수많은 입력자료 중에서 사용자에게 어떤 것을 보여줄 것인지를 선택하는 방식은 다양하다. 임의로 선택된 자료를 보여줄 수도 있고, 예측 확률값에 기반하여 보여줄 수도 있으며, 또는 특정 클래스로 예측된 입력자료를 보여줄 수 있는 등, 본 발명에서는 그 선택방법에 제한을 두지 않는다.

도 3은 GUI를 통해 사전 지식 정보를 획득하는 과정을 설명하기 위한 도면이다.

도 3의 (a)는 "예/아니오"로 답할 수 있는 경우(예를 들어, 정상/비정상)의 GUI의 예시를 도시한 것이고, 도 3의 (b)는 클래수의 개수가 도 3의 (a)보다는 많아 "예/아니오"로 답할 수 없는 경우의 GUI 예시를 도시한 것이다. 도 3의 (b)의 경우 '기타' 항목을 통해 새로운 결과값을 할당할 수도 있다.

도 3의 예시로 든 GUI 외에도 사용자가 결과값을 확인하고 결정할 수 있는 다양한 GUI가 존재할 수 있다. 또한, GUI를 일반 PC는 물론 핸드폰, 태블릿 등의 다양한 기기에서도 접근이 가능하도록 개발하여, 사용 편의성을 더욱 높임과 동시에 더 많은 기계학습, 딥러닝 비전문가의 참여도 꾀할 수 있다.

이러한 본 발명의 일 실시예는 사용자의 간단한 선택을 통해 학습모델의 성능을 비약적으로 향상시킬 수 있는 장점이 있다. 즉, 기계학습, 딥러닝 지식이 전혀 없는 비전문가라 하더라도 충분히 사용 가능하다.

사용자가 입력자료에 대해 간단한 사전지식만 가지고 있다면 (예를 들어, 사진이 개인지 고양이인지, 또는 입력자료가 정상인지 비정상인지 판단할 수 있는 사전지식 등), 사용자가 예측된 값을 확인해 주는 것만으로 우수한 성능의 학습모델을 자동으로 확보할 수 있다. 따라서, 본 발명의 일 실시예는 많은 비전문가가 참여할 수 있으며, 이는 - 이 기술의 또다른 장점인 - 많은 사용자가 참여하면 할수록 더욱 높은 성능의 모델을 확보할 수 있도록 해준다.

2. 자료의 라벨이 존재하나 각 클래스별로 라벨 존재 수가 현저히 다른 경우

도 4는 자료의 라벨이 존재하나 각 클래스별로 라벨 존재 수가 현저히 차이 나는 경우의 실시예를 설명하기 위한 도면이다.

예를 들어, 다수의 정상 자료와 소수의 비정상 자료가 입력 자료로 준비되는 경우와 같이, 각 클래스에 해당하는 자료 개수가 불균형하지만, 이러한 경우에도 라벨이 존재하기 때문에 분류 모델을 직접적으로 학습하는 것이 가능하다. 다만, 분류 모델의 학습시 이러한 불균형을 고려하여 학습을 수행해야 한다.

한편, 분류 모델의 학습 방법은 전술한 모델을 변형하여 사용하거나(예를 들어, class weight 사용 등), 인공자료를 생성하거나(예를 들어, SMOTE 등), 불균형 데이터셋에 적합한 모델성능 측정 수치를 사용하는 등(예를 들어, F₁, MCC 등의 성능 Metric) 학습을 위한 모든 방법이 적용 가능하다.

또한, 인공자료 생성을 위해 기존 방법의 사용은 물론, 딥러닝 기반의 GAN 기법이 사용될 수도 있다(예를 들어, Cycle-GAN 등). 이 방법은 라벨이 적은 클래스의 특성을 파악하여 인위적으로 소수 클래스의 자료를 생성하는 것 뿐만 아니라, 라벨이 많은 다른 클래스의 대표 특성을 추출하여, 그 특성과 겹치지 않도록 소수 클래스 자료를 생성하는 방법이다.

이와 같이 분류 모델이 학습되고 나면 분류 모델의 학습 결과를 이용하여 클러스터링 모델을 학습한다. 물론, 클러스터링 모델의 학습은 분류 모델의 학습과 동시에 수행될 수도 있다.

학습이 완료된 이후에는 두 모델로부터 예측 결과값을 비교하여 상호 검증 및 갱신하는 과정이 수행되며, 이는 전술한 내용과 동일하다.

3. 자료의 라벨이 존재하고 각 클래스에 할당된 개수가 비슷한 경우

해당 실시예는 도 4에 도시된 순서도와 같은 흐름으로 진행된다. 다만, 이 경우에는 이미 클래스당 할당된 자료의 개수가 비슷하기 때문에, 전술한 분류 모델 생성시 불균형 데이터셋의 처리 방법은 진행하지 않아도 무방하다.

한편, 상술한 설명에서, 단계 S110 내지 S150은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 2 내지 도 4의 기계학습 기반 적응형 자동분류 방법의 내용은 도 5의 내용에도 적용될 수 있다.

도 5는 기계학습 기반 적응형 자동분류 시스템(100)의 블록도이다.

본 발명의 일 실시예에 따른 기계학습 기반 적응형 자동분류 시스템(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신모듈(110)은 적어도 하나의 입력자료를 수신한다. 이때, 입력자료는 라벨이 전혀 없는 제1 입력자료와, 각 클래스별로 라벨 존재 수가 상이한 제2 입력자료와, 각 클래스별로 라벨 존재 수가 일정 범위 내를 만족하는 제3 입력자료 중 적어도 하나일 수 있다.

메모리(120)에는 입력자료를 기반으로 기계학습 모델을 학습시키기 위한 프로그램이 저장되며, 프로세서(130)는 메모리에 저장된 프로그램을 실행시킨다.

프로세서(130)는 입력자료에 대한 전처리를 수행한 후, 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습하고, 클러스터링 모델 및 분류 모델의 학습이 완료됨에 따른 예측 결과값을 저장소에 저장한다.

이상에서 전술한 본 발명의 일 실시예에 따른 기계학습 기반 적응형 자동분류 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, python 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 기계학습 기반 적응형 자동분류 시스템
110: 통신모듈
120: 메모리
130: 프로세서

Claims

컴퓨터에 의해 수행되는 방법에 있어서,
라벨이 전혀 없는 제1 입력자료와, 각 클래스별로 라벨 존재 수가 상이한 제2 입력자료와, 각 클래스별로 라벨 존재 수가 일정 범위 내를 만족하는 제3 입력자료 중 적어도 하나의 입력자료를 수신하는 단계;
상기 입력자료에 대한 전처리를 수행하는 단계;
상기 전처리된 입력자료의 타입에 기초하여 클러스터링 모델 및 분류 모델의 학습 우선순위를 설정하여 학습하는 단계;
상기 클러스터링 모델 및 분류 모델의 학습이 완료됨에 따른 예측 을 저장소에 저장하는 단계;
상기 예측 결과값을 상호 비교하여 상기 예측 결과값 및 상기 클러스터링 모델과 분류 모델의 신뢰성을 검증하는 단계; 및
상기 검증된 예측 결과값을 기반으로 상기 클러스터링 모델과 분류 모델을 갱신하는 단계를 포함하는,
기계학습 기반 적응형 자동분류 방법.