KR20220132950A

KR20220132950A - 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치

Info

Publication number: KR20220132950A
Application number: KR1020210038141A
Authority: KR
Inventors: 박원주
Original assignee: 한국전자통신연구원
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-10-04
Also published as: US20220309401A1

Abstract

혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법이 적용된다. 상기 방법은 유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하는 단계; 상기 모델 학습용 데이터를 기반으로 제N 유형 분류 모델을 학습하는 단계; 상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계; 상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계; 상기 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하는 단계; 상기 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델을 학습하는 단계; 및 상기 모델 시험용 데이터를 상기 제N+1 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계를 포함한다.

Description

혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치{METHOD AND DEVICE FOR IMPROVING TRAINING DATA TYPE CLASSIFICATION PERFORMANCE BASED ON MIXED SAMPLING}

본 발명은 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치에 관한 것이다.

현재 심층학습을 적용하여 유형을 추론하는 기술은, 대상이 되는 데이터와 각 데이터의 레이블을 학습하여 모델을 생성하고, 신규 데이터가 입력되었을 때 학습된 모델을 기반으로 레이블을 추론하는 방식을 적용하고 있다.

최근 유형 추론 등에 활용할 수 있는 딥러닝 모델 개발이 매우 활발히 연구되고 있으며, 새로운 모델이 선보일 때마다 새로운 SOTA(State-of-the-Art) 성적을 제시하고 있다. 그러나, 이러한 최신 기술과 모델을 실제 데이터에 적용하고자 하는 경우, 모델의 개선만으로는 유형 추론 성능을 향상시키는데 한계가 있다.

특히, 지도학습을 사용하는 경우, 대상이 되는 데이터와 데이터의 레이블의 정확도는 모델 성능에 매우 중요한 요소로 작용한다.

공개특허공보 제10-2017-0107283호(2017.09.25)

본 발명이 해결하고자 하는 과제는 심층학습을 활용하여 유형을 분류하는 모델 생성시 전체 데이터셋을 분할하여 학습, 검증 및 시험에 활용할 때 유형 분류 성능을 향상시키기 위하여 학습 데이터의 특성에 따라 데이터의 유형 별로 샘플링 기법을 적용하는, 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치를 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법은 유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하는 단계; 상기 모델 학습용 데이터를 기반으로 제N 유형 분류 모델을 학습하는 단계; 상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계; 상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계; 상기 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하는 단계; 상기 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델을 학습하는 단계; 및 상기 모델 시험용 데이터를 상기 제N+1 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계를 포함한다.

본 발명의 일부 실시예에서, 상기 유형 분류 대상인 전체 데이터셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하는 단계는, 상기 전체 데이터셋의 유형별 데이터 개수 분포에 비례하여 각 모델 학습용 데이터 및 모델 시험용 데이터의 유형별 개수를 분할할 수 있다.

본 발명의 일부 실시예는, 상기 모델 학습용 데이터를 소정의 모델 생성 기법에 적용하여 복수 개의 유형 분류 모델을 생성하는 단계를 더 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계는, 학습되는 데이터의 개수 및 상기 제N 유형 분류 모델의 유형 분류 추론성능을 포함하는 유형 그룹별 특성 정보에 따라 등급별로 구분된 복수의 유형 그룹으로 구성된 유형 추론 데이터를 생성할 수 있다.

본 발명의 일부 실시예에서, 상기 복수의 유형 그룹은 제1 내지 제4 유형 그룹을 포함하고, 상기 제1 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고, 상기 제2 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 낮은 그룹이고, 상기 제3 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고, 상기 제4 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 낮은 그룹일 수 있다.

본 발명의 일부 실시예에서, 상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계는, 상기 복수의 유형 그룹의 유형 그룹별 특성 정보에 기초하여 언더 샘플링, 데이터 증강, 재레이블링 및 데이터 증강 기법을 각 유형 그룹에 선택적으로 적용할 수 있다.

본 발명의 일부 실시예에서, 상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계는, 상기 제1 유형 그룹을 대상으로 학습용 데이터를 랜덤하게 언더 샘플링하는 기법을 적용하고, 상기 제2 유형 그룹을 대상으로 재레이블링 기법을 적용하고, 상기 제3 유형 그룹을 대상으로 샘플링없이 혼합 샘플링 기반 모델 학습 데이터에 포함시키고, 상기 제4 유형 그룹을 대상으로 데이터 증강 기법을 적용할 수 있다.

본 발명의 일부 실시예는, 상기 제N 및 제N+1 유형 분류 모델에 의해 생성된 각 유형 추론 데이터를 시각화 그래프 타입으로 제공하는 단계를 더 포함할 수 있다.

또한, 본 발명의 제2 측면에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치는 통신모듈, 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 데이터 전처리부에서 유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하고, 모델 학습부를 통해 상기 모델 학습용 데이터를 기반으로 제N 유형 분류 모델의 학습을 수행하며, 모델 시험부를 통해 상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하며, 모델 평가부를 통해 상기 유형 추론 데이터의 유형 그룹별 특성 정보를 평가하여 유형 그룹을 정의하고, 상기 데이터 전처리부를 통해 모델 학습용 데이터에 혼합 샘플링 기법을 적용하고, 상기 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하며, 상기 모델 학습부를 통해 상기 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델의 학습을 수행하고, 상기 모델 시험부를 통해 상기 모델 시험용 데이터를 상기 제N+1 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성한다.

본 발명의 일부 실시예에서, 상기 데이터 전처리부는 상기 전체 데이터셋의 유형별 데이터 개수 분포에 비례하여 각 모델 학습용 데이터 및 모델 시험용 데이터의 유형별 개수를 분할할 수 있다.

본 발명의 일부 실시예에서, 상기 데이터 전처리부는 상기 모델 학습용 데이터를 소정의 모델 생성 기법에 적용하여 복수 개의 유형 분류 모델을 생성할 수 있다.

본 발명의 일부 실시예에서, 상기 모델 시험부는, 학습되는 데이터의 개수 및 상기 제N 유형 분류 모델의 유형 분류 추론성능을 포함하는 유형 그룹별 특성 정보에 따라 등급별로 구분된 복수의 유형 그룹으로 구성된 유형 추론 데이터를 생성할 수 있다.

본 발명의 일부 실시예에서, 상기 복수의 유형 그룹은 제1 내지 제4 유형 그룹을 포함하고, 상기 제1 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고, 상기 제2 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고, 상기 제3 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고, 상기 제4 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 낮은 그룹일 수 있다.

본 발명의 일부 실시예에서, 상기 데이터 전처리부는 상기 복수의 유형 그룹의 유형 그룹별 특성 정보에 기초하여 언더 샘플링, 데이터 증강, 재레이블링 및 데이터 증강 기법을 각 유형 그룹에 선택적으로 적용할 수 있다.

본 발명의 일부 실시예에서, 상기 데이터 전처리부는, 상기 제1 유형 그룹을 대상으로 학습용 데이터를 랜덤하게 언더 샘플링하는 기법을 적용하고, 상기 제2 유형 그룹을 대상으로 재레이블링 기법을 적용하고, 상기 제3 유형 그룹을 대상으로 샘플링없이 혼합 샘플링 기반 모델 학습 데이터에 포함시키고, 상기 제4 유형 그룹을 대상으로 데이터 증강 기법을 적용할 수 있다.

본 발명의 일부 실시예에서, 사용자로부터 상기 혼합 샘플링 기법의 선택 적용을 입력받으며, 상기 제N 및 제N+1 유형 분류 모델에 의해 생성된 각 유형 추론 데이터를 시각화 그래프 타입으로 제공하는 사용자 인터페이스를 더 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치를 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

전술한 본 발명의 일 실시예에 의하면, 실제 데이터를 심층학습 모델에 적용하고자 할 때, 학습 데이터 유형의 분포, 유형별 추론 정확도 등을 우선 평가하여, 유형 그룹에 따라 적절한 샘플링 기법을 적용한 혼합 샘플링 방식을 통해 학습 데이터를 구성하고, 해당 학습 데이터를 이용한 모델 학습을 통해 추론 성능을 더욱 향상시킬 수 있다는 장점이 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법을 설명하기 위한 도면이다.
도 3은 유형 추론 데이터를 시각화한 일 예시를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치의 기능을 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하에서는 도 1 내지 도 3을 참조하여 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법에 대해 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법의 순서도이다. 도 2는 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법을 설명하기 위한 도면이다. 도 3은 유형 추론 데이터를 시각화한 일 예시를 도시한 도면이다.

한편, 도 1에 도시된 각 단계들은 후술하는 도 4의 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치(100)에 의해 수행되는 것으로 이해될 수 있으나, 반드시 이에 한정되는 것은 아니다.

먼저, 유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터와 모델 시험용 데이터로 분할한다(S110).

일 실시예로, S110 단계에서는 전체 데이터 셋의 유형별 데이터 개수 분포에 비례하여 각 모델 학습용 데이터 및 모델 시험용 데이터의 유형별 개수를 분할할 수 있다.

이와 같이 모델 학습용 데이터와 모델 시험용 데이터가 분할되고 나면, 분할된 데이터 중 모델 학습용 데이터를 소정의 모델 생성 기법에 적용하여 복수 개의 유형 분류 모델을 생성할 수 있다. 즉, 분할된 데이터 중 모델 학습용 데이터는 데이터의 형태(modality)나 특징(feature)에 따라, 소정의 모델 생성 기법을 통한 유형 분류 모델 생성에 이용된다. 이러한 모델 생성 과정에 따라 모델 저장소에는 복수의 유형 분류 모델 셋이 저장된다.

한편, 본 발명의 일 실시예는 유형 분류 모델의 학습을 위하여 최근 텍스트 데이터의 유형 분류 등에서 좋은 성능을 보이고 있는 BERT 모델을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니다.

다음으로, 모델 학습용 데이터를 기반으로 제N(N은 자연수) 유형 분류 모델을 학습한다(S120). 일 예로, 모델 학습용 데이터는 사전 학습된 BERT 모델을 기초로 미세조정(fine tuning) 학습을 통해 제N 유형 분류 모델을 학습할 수 있다.

다음으로, 앞선 단계에서 분할된 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 모델 시험 과정을 통해 유형 추론 데이터를 생성한다(S130).

다음으로, 학습되는 데이터의 개수 및 제N 유형 분류 모델의 유형 분류 추론 성능을 포함하는 유형 그룹별 특성 정보를 평가하여 유형 그룹을 정의한다(S140). S140 단계에서는, 등급별로 구분된 복수의 유형 그룹으로 구성된 유형 추론 데이터를 생성할 수 있다.

구체적으로 본 발명에서의 유형 분류 모델의 추론 결과는 제1 내지 제4 유형 그룹을 포함하는 복수의 유형 그룹으로 구성될 수 있다.

실시예로 각 구성된 유형 그룹의 유형 그룹별 특성 정보를 살펴보면, 제1 유형 그룹(Major class & HQ)은 타 유형 그룹 대비 학습되는 데이터의 개수가 상대적으로 많으며, 유형 분류의 추론 성능은 상대적으로 높은 그룹이다. 제2 유형 그룹(Major class & LQ)은 타 유형 그룹 대비 학습되는 데이터의 개수가 상대적으로 많으며, 유형 분류의 추론성능은 상대적으로 낮은 그룹이다. 제3 유형 그룹(Minor class & HQ)는 타 유형 그룹 대비 학습되는 데이터의 개수는 상대적으로 적으며, 유형 분류의 추론성능은 상대적으로 높은 그룹이다. 제4 유형 그룹(Minor class & LQ)은 타 유형 그룹 대비 학습되는 데이터의 개수는 상대적으로 적으며, 유형 분류의 추론성능은 상대적으로 낮은 그룹이다.

이렇게 추론된 데이터는 실시예에 따라, 도 3에 도시된 '제N 유형 분류 모델 기반 항목별 시험 개수 및 분류 성능 결과 평가' 그래프와 같이, 모델 전체 성능 및 유형별 분류 성능을 같이 시각화하여 제공된다.

실시예에 따라, 제N 유형 분류 모델을 기반으로 모델 시험용 데이터를 적용한 결과를 제시한 시각화 결과에 따라, 4개의 유형 그룹들에 포함된 데이터의 유형 그룹별 특성 정보를 분석할 수 있다.

일 실시예로, 제1 유형 그룹은 타 유형과의 배타성이 높으며 데이터의 수가 많은 그룹에 해당한다. 제2 유형 그룹은 타 유형과의 배타성이 낮으며 특히 타 유형과 포함관계에 해당하거나, 재분류가 필요한 그룹이다. 실시예에 따라, 실제 도메인 데이터는 데이터 학습 및 분류를 위한 요구사항 없이 수집되고 저장된 경우가 대부분이다. 특히, 실제 도메인 데이터는 사회의 변화에 따라 기존 유형들이 하나로 결합되거나 세부 유형이 추가되는 경우가 발생한다. 이러한 경우, 누적된 데이터를 학습하는 경우와 같은 유형의 원천 데이터가 다른 유형의 레이블을 갖는 경우가 빈번하다.

제3 유형 그룹은 타 유형과 배타성이 높으며 데이터의 수는 상대적으로 적은 그룹이다. 제4 유형 그룹은 데이터의 수가 극히 적어 모델 학습시 영향력이 매우 적은 그룹이다.

본 발명의 일 실시예는 이러한 각 유형 그룹의 유형 그룹별 특성 정보에 기초하여 유형 추론 데이터에 혼합 샘플링 기법을 적용한다(S150).

구체적으로, 복수의 유형 그룹의 유형 그룹별 특성 정보에 기초하여 언더 샘플링, 데이터 증강, 재레이블링 및 데이터 증강 기법을 각 유형 그룹에 선택적으로 적용할 수 있다.

예를 들어, 제1 유형 그룹은 전술한 유형 그룹별 특성 정보에 따라 데이터 학습 속도를 개선하고, 데이터의 수가 낮아 추론 성능이 낮은 유형 그룹 등의 성능을 보완하기 위하여 학습용 데이터를 랜덤하게 언더 샘플링하는 기법을 적용할 수 있다. 이때, 제1 유형 그룹에 대한 언더 샘플링 기법을 적용할 경우 해당 유형 그룹의 추론성능이 떨어지는 현상이 발생할 수 있음을 고려하여 언더 샘플링의 규모를 선정해야 한다.

또한, 제2 유형 그룹을 대상으로는 재레이블링 기법을 적용할 수 있다. 제2 유형 그룹은 타 유형과 배타성이 낮거나 분류 성능이 낮거나, 타 유형으로 재분류가 필요하면서 데이터의 개수가 많은 그룹의 특성을 갖고 있다. 따라서, 제2 유형 그룹의 경우 재레이블링 기법을 적용하는 것이 정확도 향상에 매우 적절하나, 제2 유형 그룹의 경우 데이터의 개수가 많은 특성이 있다. 이에 따라, 제2 유형 그룹의 경우 능동적 학습(Active learning), 준지도 학습(Semi supervised learning) 기법 등을 함께 적용하여 레이블링할 데이터의 수는 줄이면서 동시에 학습에 보다 효율적인 데이터를 선택할 수 있도록 한다.

제3 유형 그룹을 대상으로는 샘플링을 수행하지 않고, 추후 혼합 샘플링 기반 모델 학습 데이터에 그대로 포함시킬 수 있다. 즉, 제3 유형 그룹은 타 유형과 배타성이 높고 데이터의 수는 적은 유형 그룹으로, 일반적으로 샘플링 없이 학습 데이터에 포함시킨다.

제4 유형 그룹은 데이터의 수가 극히 적어, 모델 학습에 대한 영향력을 높이기 위해 데이터 증강 기법을 적용할 수 있다. 이때, 단순히 데이터를 복제하는 데이터 증강 기법을 적용하게 되면 해당 학습 데이터에만 과적합(Overfit)되는 치명적인 단점이 발생할 수 있다. 따라서, 본 발명의 일 실시예는 제4 유형 그룹에 대한 학습 데이터의 수를 증가시키기 위해 적절한 증강 기법을 선택적으로 적용할 수 있다.

예를 들어, 텍스트 데이터의 경우 텍스트 언어에 맞는 유의어 사전이나, 바꿔쓰기 쌍 사전이 있는 경우, 특정 어휘를 대체하여 학습 데이터를 증강시킬 수 있다. 또는, 학습 데이터가 토크나이징(tokenizing) 되었고, 유형 분류 모델 학습시 토큰 출현 순서가 중요하지 않은 경우 토큰들을 랜덤하게 순서를 바꾸어 증강시킬 수 있다. 그리고, 일정 비율의 토큰을 삭제, 일정 비율로 랜덤 토큰을 추가하는 등으로 학습 데이터 수를 증강시킬 수 있다. 또는, Word2Vec와 같은 단어 임베딩 알고리즘을 통하여 유사한 벡터를 가진 어휘를 대체하여 학습 데이터의 수를 증강시킬 수도 있다.

다음으로, 상기 혼합 샘플링 기법의 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결(Concatenation)한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하고(S160), 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델을 학습한다(S170). 일 예로, 전술한 제N 유형 분류 모델의 학습 방법과 같이 사전 학습된 BERT 모델을 기초로 미세조정(fine tuning) 학습을 통해 제N+1 유형 분류 모델을 학습할 수 있다.

이렇게 학습된 제N+1 유형 분류 모델를 대상으로 S110 단계에서 분할된 모델 시험용 데이터를 입력으로 설정하여 유형 추론 데이터를 생성한다(S180).

S180 단계에 따라 추론된 데이터는, 도 3에 도시된 '제N+1 유형 분류 모델 기반 항목별 시험 개수 및 분류 성능 결과 평가' 그래프와 같이, 모델 전체 성능 및 유형별 분류 성능을 같이 시각화하여 제공된다.

한편, 본 발명의 일 실시예에서 유형 분류 모델의 재학습을 위한 혼합 샘플링 과정은 1회 수행되는 것으로 설명하고 있으나, 반드시 이에 한정되는 것은 아니며, 실시예에 따라 적절한 유형 그룹의 선정 및 샘플링 기법 적용을 차별화하여 복수 회 반복적으로 실시가 가능함은 물론이다.

한편, 상술한 설명에서, 단계 S110 내지 S180은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3의 내용은 도 4 및 도 5의 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치(100)에도 적용된다.

도 4는 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치(100)의 블록도이다. 도 5는 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치(100)의 기능을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 장치(100)는 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함하여 구성될 수 있다.

프로세서(130)는 메모리에 저장된 프로그램을 실행시킴에 따라, 데이터 전처리부(131)에서 유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하고, 모델 학습부(132)를 통해 상기 모델 학습용 데이터를 기반으로 제N 유형 분류 모델의 학습을 수행하며, 모델 시험부(133)를 통해 상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하며, 모델 평가부(134)를 통해 상기 유형 추론 데이터의 유형 그룹별 특성 정보를 평가한다.

또한, 데이터 전처리부(131)를 통해 유형 추론 데이터에 혼합 샘플링 기법을 적용하고, 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하며, 모델 학습부(132)를 통해 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델의 학습을 수행하고, 모델 시험부(133)를 통해 상기 모델 시험용 데이터를 상기 제N+1 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하며, 모델 평가부(134)를 통해 상기 유형 추론 데이터의 유형 그룹별 특성 정보를 평가한다.

또한, 본 발명의 일 실시예는 사용자로부터 혼합 샘플링 기법의 선택 적용을 입력받으며, 제N 및 제N+1 유형 분류 모델에 의해 생성된 각 유형 추론 데이터를 시각화 그래프 타입으로 제공하는 사용자 인터페이스(140)를 더 포함할 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 학습 데이터 유형 분류 성능 개선 장치
110: 통신모듈
120: 메모리
130: 프로세서

Claims

컴퓨터에 의해 수행되는 방법에 있어서,
유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하는 단계;
상기 모델 학습용 데이터를 기반으로 제N 유형 분류 모델을 학습하는 단계;
상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계;
상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계;
상기 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하는 단계;
상기 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델을 학습하는 단계; 및
상기 모델 시험용 데이터를 상기 제N+1 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계를 포함하는,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제1항에 있어서,
상기 유형 분류 대상인 전체 데이터셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하는 단계는,
상기 전체 데이터셋의 유형별 데이터 개수 분포에 비례하여 각 모델 학습용 데이터 및 모델 시험용 데이터의 유형별 개수를 분할하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제1항에 있어서,
상기 모델 학습용 데이터를 소정의 모델 생성 기법에 적용하여 복수 개의 유형 분류 모델을 생성하는 단계를 더 포함하는,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제1항에 있어서,
상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 단계는,
학습되는 데이터의 개수 및 상기 제N 유형 분류 모델의 유형 분류 추론성능을 포함하는 유형 그룹별 특성 정보에 따라 등급별로 구분된 복수의 유형 그룹으로 구성된 유형 추론 데이터를 생성하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제4항에 있어서,
상기 복수의 유형 그룹은 제1 내지 제4 유형 그룹을 포함하고,
상기 제1 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고,
상기 제2 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 낮은 그룹이고,
상기 제3 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고,
상기 제4 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 낮은 그룹인 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제5항에 있어서,
상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계는,
상기 복수의 유형 그룹의 유형 그룹별 특성 정보에 기초하여 언더 샘플링, 데이터 증강, 재레이블링 및 데이터 증강 기법을 각 유형 그룹에 선택적으로 적용하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제6항에 있어서,
상기 유형 추론 데이터의 유형 그룹별 특성 정보에 기초하여 상기 유형 추론 데이터에 혼합 샘플링 기법을 적용하는 단계는,
상기 제1 유형 그룹을 대상으로 학습용 데이터를 랜덤하게 언더 샘플링하는 기법을 적용하고,
상기 제2 유형 그룹을 대상으로 재레이블링 기법을 적용하고,
상기 제3 유형 그룹을 대상으로 샘플링없이 혼합 샘플링 기반 모델 학습 데이터에 포함시키고,
상기 제4 유형 그룹을 대상으로 데이터 증강 기법을 적용하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
제1항에 있어서,
상기 제N 및 제N+1 유형 분류 모델에 의해 생성된 각 유형 추론 데이터를 시각화 그래프 타입으로 제공하는 단계를 더 포함하는,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 방법.
통신모듈, 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 데이터 전처리부에서 유형 분류가 필요한 전체 데이터 셋을 모델 학습용 데이터 및 모델 시험용 데이터로 분할하고, 모델 학습부를 통해 상기 모델 학습용 데이터를 기반으로 제N 유형 분류 모델의 학습을 수행하며, 모델 시험부를 통해 상기 모델 시험용 데이터를 제N 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하며, 모델 평가부를 통해 상기 유형 추론 데이터의 유형 그룹별 특성 정보를 평가하여 유형 그룹을 정의하고,
상기 데이터 전처리부를 통해 모델 학습용 데이터에 혼합 샘플링 기법을 적용하고, 상기 적용 결과에 따른 혼합 샘플링 데이터를 각각 연결한 혼합 샘플링 기반 제N+1 유형 분류 모델을 위한 모델 학습 데이터를 재구성하며, 상기 모델 학습부를 통해 상기 혼합 샘플링 기반 모델 학습 데이터를 기반으로 제N+1 유형 분류 모델의 학습을 수행하고, 상기 모델 시험부를 통해 상기 모델 시험용 데이터를 상기 제N+1 유형 분류 모델의 입력으로 설정하여 유형 추론 데이터를 생성하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제9항에 있어서,
상기 데이터 전처리부는 상기 전체 데이터셋의 유형별 데이터 개수 분포에 비례하여 각 모델 학습용 데이터 및 모델 시험용 데이터의 유형별 개수를 분할하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제9항에 있어서,
상기 데이터 전처리부는 상기 모델 학습용 데이터를 소정의 모델 생성 기법에 적용하여 복수 개의 유형 분류 모델을 생성하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제9항에 있어서,
상기 모델 시험부는, 학습되는 데이터의 개수 및 상기 제N 유형 분류 모델의 유형 분류 추론성능을 포함하는 유형 그룹별 특성 정보에 따라 등급별로 구분된 복수의 유형 그룹으로 구성된 유형 추론 데이터를 생성하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제12항에 있어서,
상기 복수의 유형 그룹은 제1 내지 제4 유형 그룹을 포함하고,
상기 제1 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고,
상기 제2 유형 그룹은 학습되는 데이터의 개수가 상대적으로 많고, 유형 분류의 추론성능은 상대적으로 낮은 그룹이고,
상기 제3 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 높은 그룹이고,
상기 제4 유형 그룹은 학습되는 데이터의 개수가 상대적으로 적고, 유형 분류의 추론성능은 상대적으로 낮은 그룹인 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제13항에 있어서,
상기 데이터 전처리부는 상기 복수의 유형 그룹의 유형 그룹별 특성 정보에 기초하여 언더 샘플링, 데이터 증강, 재레이블링 및 데이터 증강 기법을 각 유형 그룹에 선택적으로 적용하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제14항에 있어서,
상기 데이터 전처리부는,
상기 제1 유형 그룹을 대상으로 학습용 데이터를 랜덤하게 언더 샘플링하는 기법을 적용하고,
상기 제2 유형 그룹을 대상으로 재레이블링 기법을 적용하고,
상기 제3 유형 그룹을 대상으로 샘플링없이 혼합 샘플링 기반 모델 학습 데이터에 포함시키고,
상기 제4 유형 그룹을 대상으로 데이터 증강 기법을 적용하는 것인,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.
제9항에 있어서,
사용자로부터 상기 혼합 샘플링 기법의 선택 적용을 입력받으며, 상기 제N 및 제N+1 유형 분류 모델에 의해 생성된 각 유형 추론 데이터를 시각화 그래프 타입으로 제공하는 사용자 인터페이스를 더 포함하는,
혼합 샘플링 기반의 학습 데이터 유형 분류 성능 개선 장치.