KR102545256B1

KR102545256B1 - 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치, 및 그 동작 방법

Info

Publication number: KR102545256B1
Application number: KR1020210008374A
Authority: KR
Inventors: 홍승현
Original assignee: 주식회사 한글과컴퓨터
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2023-06-20
Also published as: KR20220105545A

Abstract

기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치 및 그 동작 방법이 개시된다. 본 발명은 데이터 분류가 완료된 소정의 데이터들을 이용해서 데이터 분류를 위한 분류 모델을 생성해 놓은 후 사용자에 의해 소정의 신규 데이터들에 대한 저장 명령이 인가되면, 상기 사용자로 하여금 상기 신규 데이터들에 대해 데이터 분류를 위한 태그를 할당하도록 하고, 상기 분류 모델을 통해 상기 신규 데이터들에 대응되는 태그를 예측한 후 상기 사용자가 할당한 태그와 상기 분류 모델을 통해 예측한 태그가 서로 일치하는지 비교하여, 양 태그가 서로 일치하지 않는 신규 데이터에 대해 상기 사용자로 하여금 태그 할당을 재수행하도록 유도함으로써 상기 신규 데이터들에 대한 태그 할당을 완료한 후, 학습 데이터 저장소 상에 상기 신규 데이터들을 각 신규 데이터에 할당된 태그와 서로 대응시켜 저장함으로써, 추후 사용자로부터 소정의 데이터 분류 그룹에 속하는 학습용 데이터의 검색 명령이 인가되면, 상기 학습 데이터 저장소로부터 해당 데이터 분류 그룹에 따른 태그가 할당된 데이터들만을 학습용 데이터로 검색하여 상기 사용자에게 제공할 수 있는 데이터 처리 장치 및 그 동작 방법에 대한 것이다.

Description

기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치, 및 그 동작 방법{DATA PROCESSING APPARATUS THAT SUPPORTS CLASSIFICATION, STORAGE AND RETRIEVAL OF MACHINE LEARNING DATA, AND THE OPERATING METHOD THEREOF}

본 발명은 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치, 및 그 동작 방법에 대한 것이다.

최근, 인공지능 기술에 대한 관심이 증가함에 따라, 다양한 분야에서 인공지능 기술을 활용한 서비스를 도입하는 사례가 증가하고 있다.

특히, 이러한 인공지능 기술 중에서 일부의 데이터를 기초로 기계학습을 수행함으로써, 소정의 예측 모델을 생성하는 기계학습 기술의 활용이 크게 증가하고 있다.

보통, 사용자가 원하는 예측 모델을 만들기 위한 기계학습을 수행하기 위해서는 트레이닝 셋(set)을 적절하게 구성할 필요가 있다. 일반적인 지도학습은 소정의 입력 데이터와 그에 대응되는 정답 값을 트레이닝 셋으로 구성해 놓은 후 상기 입력 데이터를 인공 신경망에 입력으로 인가하였을 때 산출되는 출력 값과 각 입력 데이터에 대응되는 정답 값 간의 차이를 산출해서 해당 차이를 최소화하는 방향으로 상기 인공 신경망을 학습하는 방식으로 진행된다.

이렇게, 기계학습에서는 학습에 사용되는 데이터가 중요하다는 점에서, 웹 등에서 다양한 데이터들을 수집한 후 이에 대한 데이터들을 종류나 특징에 따라 적절하게 분류하여 학습 데이터 저장소 상에 저장해 놓음으로써, 추후 기계학습이 필요할 때 사용자가 적절하게 학습용 데이터를 취사선택할 수 있도록 지원하는 기술의 도입이 필요하다.

예컨대, 웹 등에서 소정의 데이터들을 수집한 후 데이터의 특징이나 패턴의 유사성을 기반으로, 수집된 데이터들이 뉴스 기사에 대한 데이터인지, 동물 이미지에 대한 데이터인지, 쇼핑몰의 후기와 관련된 데이터인지 등으로 적절히 분류해 놓음으로써, 추후 사용자가 원하는 기계학습 모델을 만들고자 할 때, 분류된 정보를 기초로 적절하게 학습용 데이터를 취사선택할 수 있도록 지원하는 기술의 도입이 필요하다.

본 발명은 데이터 분류가 완료된 소정의 데이터들을 이용해서 데이터 분류를 위한 분류 모델을 생성해 놓은 후 사용자에 의해 소정의 신규 데이터들에 대한 저장 명령이 인가되면, 상기 사용자로 하여금 상기 신규 데이터들에 대해 데이터 분류를 위한 태그를 할당하도록 하고, 상기 분류 모델을 통해 상기 신규 데이터들에 대응되는 태그를 예측한 후 상기 사용자가 할당한 태그와 상기 분류 모델을 통해 예측한 태그가 서로 일치하는지 비교하여, 양 태그가 서로 일치하지 않는 신규 데이터에 대해 상기 사용자로 하여금 태그 할당을 재수행하도록 유도함으로써 상기 신규 데이터들에 대한 태그 할당을 완료한 후, 학습 데이터 저장소 상에 상기 신규 데이터들을 각 신규 데이터에 할당된 태그와 서로 대응시켜 저장함으로써, 추후 사용자로부터 소정의 데이터 분류 그룹에 속하는 학습용 데이터의 검색 명령이 인가되면, 상기 학습 데이터 저장소로부터 해당 데이터 분류 그룹에 따른 태그가 할당된 데이터들만을 학습용 데이터로 검색하여 상기 사용자에게 제공할 수 있는 데이터 처리 장치 및 그 동작 방법을 제시하고자 한다.

본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치는 사전 설정된 복수의 데이터 분류 그룹들 각각을 지시하는 태그가 저장되어 있는 태그 저장부, n(n은 2이상의 자연수)개 데이터들 - 상기 n개의 데이터들 각각에는 상기 복수의 데이터 분류 그룹들 중 각 데이터가 속하는 것으로 사전 지정된 데이터 분류 그룹을 지시하는 태그가 할당되어 있음 - 이 저장되어 있는 데이터 저장부, 상기 n개의 데이터들 각각을 입력으로, 상기 n개의 데이터들 각각에 할당된 태그를 정답으로 갖는 n개의 트레이닝 셋(set)들을 생성하는 생성부, 상기 n개의 트레이닝 셋들을 기초로 기계학습을 수행함으로써, 입력 데이터를 상기 복수의 데이터 분류 그룹들로 분류하기 위한 분류 모델 - 상기 분류 모델은 상기 입력 데이터가 입력으로 인가되면, 상기 복수의 데이터 분류 그룹들 중 상기 입력 데이터가 속하는 것으로 예측되는 데이터 분류 그룹에 대한 태그를 출력으로 산출하는 모델임 - 을 생성하는 모델 생성부, 상기 분류 모델이 생성된 이후, 사용자로부터 k(k는 2이상의 자연수)개의 신규 데이터들을 학습 데이터 저장소에 저장할 것을 지시하는 데이터 저장 명령이 인가되면, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 각 신규 데이터가 속하는 것으로 판단되는 데이터 분류 그룹을 지시하는 태그를 할당할 것을 요청하는 요청 메시지를 화면 상에 표시하는 요청부, 상기 요청 메시지에 대응하여 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 대해, 데이터 분류 그룹을 지시하는 사용자 태그의 할당이 완료되면, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출하는 산출부, 상기 k개의 신규 데이터들 각각에 대해, 상기 사용자에 의해 할당된 사용자 태그와 상기 산출부에 의해 산출된 예측 태그를 서로 비교하여 양 태그가 서로 일치하지 않는 신규 데이터를 검출하는 검출부, 상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터로 적어도 하나의 제1 신규 데이터가 검출된 경우, 상기 적어도 하나의 제1 신규 데이터에 대해 사용자 태그의 재할당을 수행할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 안내부, 상기 안내 메시지가 표시된 이후, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장하는 학습 데이터 저장 처리부, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 상기 복수의 데이터 분류 그룹들 중 제1 데이터 분류 그룹으로 분류되는 학습용 데이터의 검색 명령이 인가되면, 상기 태그 저장부를 참조하여 상기 제1 데이터 분류 그룹을 지시하는 제1 태그를 확인한 후 상기 학습 데이터 저장소로부터 상기 제1 태그와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들을 검색 데이터로 추출하는 데이터 추출부 및 상기 검색 데이터로 추출된 데이터들을 상기 학습용 데이터의 검색 명령에 대응되는 검색 결과로 상기 화면 상에 표시하는 검색 처리부를 포함한다.

또한, 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법은 사전 설정된 복수의 데이터 분류 그룹들 각각을 지시하는 태그가 저장되어 있는 태그 저장부를 유지하는 단계, n(n은 2이상의 자연수)개 데이터들 - 상기 n개의 데이터들 각각에는 상기 복수의 데이터 분류 그룹들 중 각 데이터가 속하는 것으로 사전 지정된 데이터 분류 그룹을 지시하는 태그가 할당되어 있음 - 이 저장되어 있는 데이터 저장부를 유지하는 단계, 상기 n개의 데이터들 각각을 입력으로, 상기 n개의 데이터들 각각에 할당된 태그를 정답으로 갖는 n개의 트레이닝 셋들을 생성하는 단계, 상기 n개의 트레이닝 셋들을 기초로 기계학습을 수행함으로써, 입력 데이터를 상기 복수의 데이터 분류 그룹들로 분류하기 위한 분류 모델 - 상기 분류 모델은 상기 입력 데이터가 입력으로 인가되면, 상기 복수의 데이터 분류 그룹들 중 상기 입력 데이터가 속하는 것으로 예측되는 데이터 분류 그룹에 대한 태그를 출력으로 산출하는 모델임 - 을 생성하는 단계, 상기 분류 모델이 생성된 이후, 사용자로부터 k(k는 2이상의 자연수)개의 신규 데이터들을 학습 데이터 저장소에 저장할 것을 지시하는 데이터 저장 명령이 인가되면, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 각 신규 데이터가 속하는 것으로 판단되는 데이터 분류 그룹을 지시하는 태그를 할당할 것을 요청하는 요청 메시지를 화면 상에 표시하는 단계, 상기 요청 메시지에 대응하여 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 대해, 데이터 분류 그룹을 지시하는 사용자 태그의 할당이 완료되면, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출하는 단계, 상기 k개의 신규 데이터들 각각에 대해, 상기 사용자에 의해 할당된 사용자 태그와 상기 산출하는 단계에 의해 산출된 예측 태그를 서로 비교하여 양 태그가 서로 일치하지 않는 신규 데이터를 검출하는 단계, 상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터로 적어도 하나의 제1 신규 데이터가 검출된 경우, 상기 적어도 하나의 제1 신규 데이터에 대해 사용자 태그의 재할당을 수행할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 단계, 상기 안내 메시지가 표시된 이후, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장하는 단계, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 상기 복수의 데이터 분류 그룹들 중 제1 데이터 분류 그룹으로 분류되는 학습용 데이터의 검색 명령이 인가되면, 상기 태그 저장부를 참조하여 상기 제1 데이터 분류 그룹을 지시하는 제1 태그를 확인한 후 상기 학습 데이터 저장소로부터 상기 제1 태그와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들을 검색 데이터로 추출하는 단계 및 상기 검색 데이터로 추출된 데이터들을 상기 학습용 데이터의 검색 명령에 대응되는 검색 결과로 상기 화면 상에 표시하는 단계를 포함한다.

본 발명에 따른 데이터 처리 장치 및 그 동작 방법은 데이터 분류가 완료된 소정의 데이터들을 이용해서 데이터 분류를 위한 분류 모델을 생성해 놓은 후 사용자에 의해 소정의 신규 데이터들에 대한 저장 명령이 인가되면, 상기 사용자로 하여금 상기 신규 데이터들에 대해 데이터 분류를 위한 태그를 할당하도록 하고, 상기 분류 모델을 통해 상기 신규 데이터들에 대응되는 태그를 예측한 후 상기 사용자가 할당한 태그와 상기 분류 모델을 통해 예측한 태그가 서로 일치하는지 비교하여, 양 태그가 서로 일치하지 않는 신규 데이터에 대해 상기 사용자로 하여금 태그 할당을 재수행하도록 유도함으로써 상기 신규 데이터들에 대한 태그 할당을 완료한 후, 학습 데이터 저장소 상에 상기 신규 데이터들을 각 신규 데이터에 할당된 태그와 서로 대응시켜 저장함으로써, 추후 사용자로부터 소정의 데이터 분류 그룹에 속하는 학습용 데이터의 검색 명령이 인가되면, 상기 학습 데이터 저장소로부터 해당 데이터 분류 그룹에 따른 태그가 할당된 데이터들만을 학습용 데이터로 검색하여 상기 사용자에게 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법을 도시한 순서도이다.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.

한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.

도 1은 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 구조를 도시한 도면이다.

도 1을 참조하면, 본 발명에 따른 데이터 처리 장치(110)는 태그 저장부(111), 데이터 저장부(112), 생성부(113), 모델 생성부(114), 요청부(115), 산출부(116), 검출부(117), 안내부(118), 학습 데이터 저장 처리부(119), 데이터 추출부(120) 및 검색 처리부(121)를 포함한다.

태그 저장부(111)에는 사전 설정된 복수의 데이터 분류 그룹들 각각을 지시하는 태그(tag)가 저장되어 있다.

여기서, 데이터 분류 그룹이란 데이터의 특징이나 패턴의 유사성을 기반으로, 소정의 데이터들을 분류하기 위한 그룹을 의미하는 것으로, 데이터들을 뉴스 기사에 대한 데이터, 동물 이미지에 대한 데이터, 쇼핑몰의 후기와 관련된 데이터 따위로 분류하기 위한 개발자에 의해 사전 설정된 그룹을 의미한다.

이와 관련해서, 태그 저장부(111)에는 하기의 표 1과 같이 상기 복수의 데이터 분류 그룹들 각각을 지시하는 태그가 저장되어 있을 수 있다.

복수의 데이터 분류 그룹들	태그
데이터 분류 그룹 1	태그 1
데이터 분류 그룹 2	태그 2
데이터 분류 그룹 3	태그 3
...	...

데이터 저장부(112)에는 n(n은 2이상의 자연수)개 데이터들이 저장되어 있다.

여기서, 상기 n개의 데이터들 각각에는 상기 복수의 데이터 분류 그룹들 중 각 데이터가 속하는 것으로 사전 지정된 데이터 분류 그룹을 지시하는 태그가 할당되어 있다. 예컨대, '데이터 1'이 '데이터 분류 그룹 1'에 속하는 것으로 지정되어 있다면, '데이터 1'에는 '태그 1'이 할당되어 있을 수 있다.

생성부(113)는 상기 n개의 데이터들 각각을 입력으로, 상기 n개의 데이터들 각각에 할당된 태그를 정답으로 갖는 n개의 트레이닝 셋(set)들을 생성한다.

모델 생성부(114)는 상기 n개의 트레이닝 셋들을 기초로 기계학습을 수행함으로써, 입력 데이터를 상기 복수의 데이터 분류 그룹들로 분류하기 위한 분류 모델을 생성한다.

여기서, 상기 분류 모델은 상기 입력 데이터가 입력으로 인가되면, 상기 복수의 데이터 분류 그룹들 중 상기 입력 데이터가 속하는 것으로 예측되는 데이터 분류 그룹에 대한 태그를 출력으로 산출하는 모델을 의미한다.

구체적으로, 모델 생성부(114)는 상기 n개의 데이터들 각각을 소정의 인공 신경망에 입력으로 인가하여 각 데이터별로 상기 복수의 데이터 분류 그룹들 각각에 대응되는 태그가 선택될 확률 값을 산출해 보았을 때, 상기 n개의 데이터들 각각에 정답으로 지정된 태그에 대한 확률 값이 최대가 나오도록 상기 인공 신경망을 반복 학습함으로써, 상기 분류 모델을 생성할 수 있다.

요청부(115)는 상기 분류 모델이 생성된 이후, 사용자로부터 k(k는 2이상의 자연수)개의 신규 데이터들을 학습 데이터 저장소(미도시)에 저장할 것을 지시하는 데이터 저장 명령이 인가되면, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 각 신규 데이터가 속하는 것으로 판단되는 데이터 분류 그룹을 지시하는 태그를 할당할 것을 요청하는 요청 메시지를 화면 상에 표시한다.

산출부(116)는 상기 요청 메시지에 대응하여 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 대해, 데이터 분류 그룹을 지시하는 사용자 태그의 할당이 완료되면, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출한다.

여기서, 본 발명에서는 사용자에 의해 데이터에 직접 할당된 태그를 '사용자 태그'라고 칭하고, 상기 분류 모델을 통해 데이터에 할당된 태그를 '예측 태그'라고 칭하기로 한다.

이때, 본 발명의 일실시예에 따르면, 요청부(115)는 상기 분류 모델이 생성된 이후, 상기 사용자로부터 상기 k개의 신규 데이터들을 상기 학습 데이터 저장소에 저장할 것을 지시하는 상기 데이터 저장 명령이 인가되면, 상기 요청 메시지를 상기 화면 상에 표시함과 동시에, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택 가능하도록 하는 선택 인터페이스를 생성하여 상기 화면 상에 표시할 수 있다.

관련해서, 요청부(115)는 도 2의 도면부호 210에 도시된 그림과 같이, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택 가능하도록 하는 선택 인터페이스(210)를 생성하여 상기 화면 상에 표시할 수 있다. 이때, 요청부(115)는 도면부호 210에 도시된 그림과 같이, 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택 가능하도록 하는 소정의 콤보박스를 상기 화면 상에 표시할 수 있다.

이렇게, 화면 상에 선택 인터페이스(210)가 표시되면, 사용자는 선택 인터페이스(210)를 통해서 상기 k개의 신규 데이터들 각각에 대해, 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택할 수 있다.

이때, 산출부(116)는 상기 사용자에 의해 선택 인터페이스(210)를 통해서 상기 k개의 신규 데이터들 각각에 대한 태그가 선택될 때마다, 선택된 태그를 상기 k개의 신규 데이터들 각각에 사용자 태그로 할당할 수 있다.

그러고 나서, 산출부(116)는 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출할 수 있다.

이렇게, 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 사용자 태그가 할당되고, 산출부(116)에 의해 상기 k개의 신규 데이터들 각각에 대한 예측 태그가 산출되면, 검출부(117)는 상기 k개의 신규 데이터들 각각에 대해, 상기 사용자에 의해 할당된 사용자 태그와 산출부(116)에 의해 산출된 예측 태그를 서로 비교하여 양 태그가 서로 일치하지 않는 신규 데이터를 검출한다.

이렇게, 검출부(117)에 의해, 상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터에 대한 검출이 수행된 결과, 상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터로 적어도 하나의 제1 신규 데이터가 검출된 경우, 안내부(118)는 상기 적어도 하나의 제1 신규 데이터에 대해 사용자 태그의 재할당을 수행할 것을 안내하는 안내 메시지를 상기 화면 상에 표시한다.

즉, 본 발명에 따른 데이터 처리 장치(110)는 데이터 분류가 완료된 소정의 데이터들을 이용해서 데이터 분류를 위한 분류 모델을 생성해 놓은 후 사용자에 의해 소정의 신규 데이터들에 대한 저장 명령이 인가되면, 상기 사용자로 하여금 상기 신규 데이터들에 대해 데이터 분류를 위한 태그를 할당하도록 하고, 상기 분류 모델을 통해 상기 신규 데이터들에 대응되는 태그를 예측한 후 상기 사용자가 할당한 태그와 상기 분류 모델을 통해 예측한 태그가 서로 일치하는지 비교하여 양 태그가 서로 일치하지 않는 신규 데이터에 대해 상기 사용자로 하여금 태그 할당을 재수행하도록 유도함으로써, 데이터의 정확한 분류가 가능하도록 지원할 수 있다.

학습 데이터 저장 처리부(119)는 안내부(118)를 통해 상기 안내 메시지가 표시된 이후, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장한다.

관련해서, 학습 데이터 저장 처리부(119)는 하기의 표 2와 같이, 상기 학습 데이터 저장소 상에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장할 수 있다.

k개의 신규 데이터들	사용자 태그
데이터 1	태그 3
데이터 2	태그 2
데이터 3	태그 6
데이터 4	태그 2
...	...

데이터 추출부(120)는 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 상기 복수의 데이터 분류 그룹들 중 제1 데이터 분류 그룹으로 분류되는 학습용 데이터의 검색 명령이 인가되면, 태그 저장부(111)를 참조하여 상기 제1 데이터 분류 그룹을 지시하는 제1 태그를 확인한 후 상기 학습 데이터 저장소로부터 상기 제1 태그와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들을 검색 데이터로 추출한다.

예컨대, 상기 학습 데이터 저장소에 상기 표 2와 같이, 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 데이터 처리 장치(110)에 '데이터 분류 그룹 2'로 분류되는 학습용 데이터의 검색 명령이 인가되었다고 하는 경우, 데이터 추출부(120)는 상기 표 1과 같은 태그 저장부(111)를 참조하여 '데이터 분류 그룹 2'를 지시하는 '태그 2'를 확인한 후 상기 표 2와 같은 학습 데이터 저장소로부터 '태그 2'와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들인 '데이터 2, 데이터 4, ...'를 검색 데이터로 추출할 수 있다.

검색 처리부(121)는 데이터 추출부(120)를 통해 상기 검색 데이터의 추출이 완료되면, 상기 검색 데이터로 추출된 데이터들을 상기 학습용 데이터의 검색 명령에 대응되는 검색 결과로 상기 화면 상에 표시한다.

결국, 본 발명에 따른 데이터 처리 장치(110)는 데이터 분류가 완료된 소정의 데이터들을 이용해서 데이터 분류를 위한 분류 모델을 생성해 놓은 후 사용자에 의해 소정의 신규 데이터들에 대한 저장 명령이 인가되면, 상기 사용자로 하여금 상기 신규 데이터들에 대해 데이터 분류를 위한 태그를 할당하도록 하고, 상기 분류 모델을 통해 상기 신규 데이터들에 대응되는 태그를 예측한 후 상기 사용자가 할당한 태그와 상기 분류 모델을 통해 예측한 태그가 서로 일치하는지 비교하여, 양 태그가 서로 일치하지 않는 신규 데이터에 대해 상기 사용자로 하여금 태그 할당을 재수행하도록 유도함으로써 상기 신규 데이터들에 대한 태그 할당을 완료한 후, 학습 데이터 저장소 상에 상기 신규 데이터들을 각 신규 데이터에 할당된 태그와 서로 대응시켜 저장함으로써, 추후 사용자로부터 소정의 데이터 분류 그룹에 속하는 학습용 데이터의 검색 명령이 인가되면, 상기 학습 데이터 저장소로부터 해당 데이터 분류 그룹에 따른 태그가 할당된 데이터들만을 학습용 데이터로 검색하여 상기 사용자에게 제공할 수 있다.

본 발명의 일실시예에 따르면, 데이터 처리 장치(110)는 확률분포 확인부(122) 및 모델 평가부(123)를 더 포함할 수 있다.

확률분포 확인부(122)는 상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율에 대한 제1 확률분포를 확인하고, 상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 예측 태그가 산출된 비율에 대한 제2 확률분포를 확인한다.

예컨대, k가 '100'이라고 하고, 상기 복수의 데이터 분류 그룹들이 '3개'의 그룹으로 구성되어 있다면, 확률분포 확인부(122)는 100개의 신규 데이터들 전체에서 3개의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율에 대한 제1 확률분포를 확인할 수 있고, 100개의 신규 데이터들 전체에서 3개의 데이터 분류 그룹들 각각에 대응되는 예측 태그가 산출된 비율에 대한 제2 확률분포를 확인할 수 있다.

관련해서, 3개의 데이터 분류 그룹들 중 '그룹 1'에 대응되는 사용자 태그가 할당된 신규 데이터의 개수가 '20개', '그룹 2'에 대응되는 사용자 태그가 할당된 신규 데이터의 개수가 '30개', '그룹 3'에 대응되는 사용자 태그가 할당된 신규 데이터의 개수가 '50개'라고 하는 경우, 확률분포 확인부(122)는 100개의 신규 데이터들 전체에서 '그룹 1', '그룹 2', '그룹 3'에 대응되는 사용자 태그가 할당된 비율인 '0.2', '0.3', '0.5'를 상기 제1 확률분포로 확인할 수 있다.

이와 유사하게, 3개의 데이터 분류 그룹들 중 '그룹 1'에 대응되는 예측 태그가 산출된 신규 데이터의 개수가 '40개', '그룹 2'에 대응되는 예측 태그가 산출된 신규 데이터의 개수가 '30개', '그룹 3'에 대응되는 예측 태그가 산출된 신규 데이터의 개수가 '30개'라고 하는 경우, 확률분포 확인부(122)는 100개의 신규 데이터들 전체에서 '그룹 1', '그룹 2', '그룹 3'에 대응되는 예측 태그가 산출된 비율인 '0.4', '0.3', '0.3'을 상기 제2 확률분포로 확인할 수 있다.

모델 평가부(123)는 상기 제1 확률분포와 상기 제2 확률분포 간의 쿨백-라이블러 발산(Kullback-Leibler Divergence)에 기초한 비유사도(dissimilarity)를 연산한 후 상기 비유사도가 사전 설정된 임계치를 초과하는 것으로 확인되면, 상기 분류 모델의 분류 정확도가 낮은 것으로 판단한 후 상기 분류 모델을 재생성할 것을 안내하는 모델 재생성 안내 메시지를 상기 화면 상에 표시한다.

이때, 본 발명의 일실시예에 따르면, 상기 비유사도는 하기의 수학식 1에 따라 연산될 수 있다.

여기서, S는 상기 비유사도, I는 상기 복수의 데이터 분류 그룹들의 총 개수, P_X(i)는 상기 제1 확률분포에 따른 확률 질량 함수로서, 상기 k개의 신규 데이터들 전체에서 i번째 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 비율, P_Y(i)는 상기 제2 확률분포에 따른 확률 질량 함수로서, 상기 k개의 신규 데이터들 전체에서 i번째 데이터 분류 그룹에 대응되는 예측 태그가 산출된 비율을 의미한다.

쿨백-라이블러 발산이란 두 확률분포 간의 차이를 나타내는 지표로서, 그 값이 클수록 두 확률분포는 서로 유사하지 않다는 것을 의미한다. 관련해서, 상기 수학식 1에서 '

'는 상기 제1 확률분포와 상기 제2 확률분포 간의 쿨백-라이블러 발산이고, '

'는 상기 제2 확률분포와 상기 제1 확률분포 간의 쿨백-라이블러 발산을 의미한다. 이와 관련해서, 상기 수학식 1에 따른 비유사도가 크다는 의미는 상기 제1 확률분포와 상기 제2 확률분포 간의 차이가 크다는 의미로서, 상기 k개의 신규 데이터들을 사용자가 직접 분류한 분포와 상기 분류 모델을 이용해서 분류한 분포 간의 차이가 크다는 것을 의미한다.

이때, 상기 k개의 신규 데이터들에 대해서 사용자가 직접 분류한 분포와 상기 분류 모델을 통해 분류한 분포 간의 차이가 크다는 것은 상기 분류 모델의 분류 정확도가 낮다는 의미로 볼 수 있기 때문에, 모델 평가부(123)는 상기 비유사도가 상기 임계치를 초과하는 것으로 확인되면, 상기 분류 모델을 재생성할 것을 안내하는 모델 재생성 안내 메시지를 화면 상에 표시할 수 있다.

이를 통해, 사용자는 상기 모델 재생성 안내 메시지를 보고 상기 분류 모델을 재생성하기 위한 기계학습을 다시 수행할 수 있다.

본 발명의 일실시예에 따르면, 데이터 처리 장치(110)는 추가 안내부(124)를 더 포함할 수 있다.

추가 안내부(124)는 사용자 태그와 예측 태그가 서로 일치하지 않는 것으로 검출된 상기 적어도 하나의 제1 신규 데이터 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율을 기초로 하기의 수학식 2에 따른 지니 인덱스를 연산할 수 있다.

여기서, G는 상기 지니 인덱스, I는 상기 복수의 데이터 분류 그룹들의 총 개수, P_l은 상기 적어도 하나의 제1 신규 데이터 전체에서 l번째 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 비율을 의미한다.

상기 수학식 2에 따른 지니 인덱스는 상기 적어도 하나의 제1 신규 데이터가 상기 복수의 데이터 분류 그룹들로 분류되었을 때, 상기 적어도 하나의 제1 신규 데이터가 상기 복수의 데이터 분류 그룹들에 얼마나 골고루 분류가 되었는지를 나타내는 척도로 활용될 수 있다.

예컨대, 상기 적어도 하나의 제1 신규 데이터의 개수가 '20개'이고, 상기 복수의 데이터 분류 그룹들이 '3개'의 그룹으로 구성되어 있다고 한다면, 추가 안내부(124)는 20개의 제1 신규 데이터에서 3개의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율을 기초로 상기 수학식 2에 따른 지니 인덱스를 연산할 수 있다.

관련해서, 3개의 데이터 분류 그룹들 중 '그룹 1'에 대응되는 사용자 태그가 할당된 신규 데이터의 개수가 '10개', '그룹 2'에 대응되는 사용자 태그가 할당된 신규 데이터의 개수가 '5개', '그룹 3'에 대응되는 사용자 태그가 할당된 신규 데이터의 개수가 '5개'라고 하는 경우, 추가 안내부(124)는 상기 수학식 2의 P_l에 '0.5', '0.25', '0.25'를 각각 인가함으로써, 지니 인덱스를 연산할 수 있다.

상기 수학식 2에서의 지니 인덱스가 0에 가까운 수로 산출될수록 상기 적어도 하나의 제1 신규 데이터에는 상기 복수의 데이터 분류 그룹들 중 특정 몇몇 데이터 분류 그룹에 대응되는 사용자 태그가 많이 할당되어 있다는 것을 의미하고, 지니 인덱스가 1에 가까운 수로 산출될수록 상기 적어도 하나의 제1 신규 데이터에는 상기 복수의 데이터 분류 그룹들 전체에 대응되는 사용자 태그가 골고루 할당되어 있다는 것을 의미한다.

이렇게, 상기 지니 인덱스가 연산되면, 추가 안내부(124)는 상기 지니 인덱스가 사전 설정된 기준 인덱스 미만인지 여부를 확인하고, 상기 지니 인덱스가 상기 기준 인덱스 미만인 것으로 확인되면, 상기 복수의 데이터 분류 그룹들 중 상기 적어도 하나의 제1 신규 데이터 전체에서의 사용자 태그의 할당 비율이 최대인 제2 데이터 분류 그룹을 선택한 후, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터 전체에 대해서 사용자 태그의 재할당을 수행할 것을 안내하는 추가 안내 메시지를 상기 화면 상에 표시할 수 있다.

관련해서, 상기 적어도 하나의 제1 신규 데이터는 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터라는 점에서 사용자가 데이터 분류를 잘못한 데이터라고 볼 수 있고, 상기 수학식 2에서의 지니 인덱스가 0에 가까운 수로 산출되는 경우, 상기 적어도 하나의 제1 신규 데이터에는 상기 복수의 데이터 분류 그룹들 중 특정 몇몇 데이터 분류 그룹에 대응되는 사용자 태그가 많이 할당되어 있다는 것을 의미하기 때문에, 추가 안내부(124)는 상기 지니 인덱스가 사전 설정된 기준 인덱스 미만인 것으로 확인되면, 사용자가 상기 복수의 데이터 분류 그룹들 중 특정 몇몇 데이터 분류 그룹에 대해서만 신규 데이터에 태그를 잘못 할당한 상황이라고 판단할 수 있다.

따라서, 추가 안내부(124)는 상기 지니 인덱스가 상기 기준 인덱스 미만인 것으로 확인되면, 상기 복수의 데이터 분류 그룹들 중 상기 적어도 하나의 제1 신규 데이터 전체에서의 사용자 태그의 할당 비율이 최대인 제2 데이터 분류 그룹을 선택한 후, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터 전체에 대해서 사용자 태그의 재할당을 수행할 것을 안내하는 추가 안내 메시지를 상기 화면 상에 표시할 수 있다.

즉, 추가 안내부(124)는 상기 지니 인덱스가 상기 기준 인덱스 미만인 것으로 확인되면, 사용자 태그와 예측 태그가 서로 일치하지 않는 것으로 확인된 상기 적어도 하나의 제1 신규 데이터에서 사용자 태그가 가장 많이 할당되어 있는 제2 데이터 분류 그룹을 사용자 태그가 잘못 할당된 대표적인 분류 그룹으로 확인할 수 있다.

그 이후, 추가 안내부(124)는 상기 k개의 신규 데이터들 중 상기 사용자에 의해 상기 제2 데이터 분류 그룹으로 분류된 데이터들이 전부 잘못 분류되었을 가능성이 높은 것으로 보고, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터들을 찾아낸 후 해당 신규 데이터들 전부에 대해서 사용자 태그를 재할당할 것을 안내하는 추가 안내 메시지를 상기 화면 상에 표시할 수 있다.

이를 통해, 사용자는 상기 추가 안내 메시지를 보고, 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터들에 대한 태그 재할당을 수행함으로써, 상기 k개의 신규 데이터들에 대한 보다 정교한 데이터 분류 작업을 수행할 수 있다.

이때, 학습 데이터 저장 처리부(119)는 안내부(118)를 통해서 상기 안내 메시지가 화면 상에 표시되고, 추가 안내부(124)를 통해서 상기 추가 안내 메시지가 화면 상에 표시됨에 따라, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되고, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터 전체에 대해서 사용자 태그의 재할당이 모두 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장할 수 있다.

도 3은 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법을 도시한 순서도이다.

단계(S300)에서는 사전 설정된 복수의 데이터 분류 그룹들 각각을 지시하는 태그가 저장되어 있는 태그 저장부를 유지한다.

단계(S301)에서는 n(n은 2이상의 자연수)개 데이터들(상기 n개의 데이터들 각각에는 상기 복수의 데이터 분류 그룹들 중 각 데이터가 속하는 것으로 사전 지정된 데이터 분류 그룹을 지시하는 태그가 할당되어 있음)이 저장되어 있는 데이터 저장부를 유지한다.

단계(S302)에서는 상기 n개의 데이터들 각각을 입력으로, 상기 n개의 데이터들 각각에 할당된 태그를 정답으로 갖는 n개의 트레이닝 셋들을 생성한다.

단계(S303)에서는 상기 n개의 트레이닝 셋들을 기초로 기계학습을 수행함으로써, 입력 데이터를 상기 복수의 데이터 분류 그룹들로 분류하기 위한 분류 모델(상기 분류 모델은 상기 입력 데이터가 입력으로 인가되면, 상기 복수의 데이터 분류 그룹들 중 상기 입력 데이터가 속하는 것으로 예측되는 데이터 분류 그룹에 대한 태그를 출력으로 산출하는 모델임)을 생성한다.

단계(S304)에서는 상기 분류 모델이 생성된 이후, 사용자로부터 k(k는 2이상의 자연수)개의 신규 데이터들을 학습 데이터 저장소에 저장할 것을 지시하는 데이터 저장 명령이 인가되면, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 각 신규 데이터가 속하는 것으로 판단되는 데이터 분류 그룹을 지시하는 태그를 할당할 것을 요청하는 요청 메시지를 화면 상에 표시한다.

단계(S305)에서는 상기 요청 메시지에 대응하여 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 대해, 데이터 분류 그룹을 지시하는 사용자 태그의 할당이 완료되면, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출한다.

단계(S306)에서는 상기 k개의 신규 데이터들 각각에 대해, 상기 사용자에 의해 할당된 사용자 태그와 단계(S305)에 의해 산출된 예측 태그를 서로 비교하여 양 태그가 서로 일치하지 않는 신규 데이터를 검출한다.

단계(S307)에서는 상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터로 적어도 하나의 제1 신규 데이터가 검출된 경우, 상기 적어도 하나의 제1 신규 데이터에 대해 사용자 태그의 재할당을 수행할 것을 안내하는 안내 메시지를 상기 화면 상에 표시한다.

단계(S308)에서는 상기 안내 메시지가 표시된 이후, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장한다.

단계(S309)에서는 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 상기 복수의 데이터 분류 그룹들 중 제1 데이터 분류 그룹으로 분류되는 학습용 데이터의 검색 명령이 인가되면, 상기 태그 저장부를 참조하여 상기 제1 데이터 분류 그룹을 지시하는 제1 태그를 확인한 후 상기 학습 데이터 저장소로부터 상기 제1 태그와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들을 검색 데이터로 추출한다.

단계(S310)에서는 상기 검색 데이터로 추출된 데이터들을 상기 학습용 데이터의 검색 명령에 대응되는 검색 결과로 상기 화면 상에 표시한다.

이때, 본 발명의 일실시예에 따르면, 단계(S304)에서는 상기 분류 모델이 생성된 이후, 상기 사용자로부터 상기 k개의 신규 데이터들을 상기 학습 데이터 저장소에 저장할 것을 지시하는 상기 데이터 저장 명령이 인가되면, 상기 요청 메시지를 상기 화면 상에 표시함과 동시에, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택 가능하도록 하는 선택 인터페이스를 생성하여 상기 화면 상에 표시할 수 있다.

이때, 단계(S305)에서는 상기 사용자에 의해 상기 선택 인터페이스를 통해서 상기 k개의 신규 데이터들 각각에 대한 태그가 선택될 때마다, 선택된 태그를 상기 k개의 신규 데이터들 각각에 사용자 태그로 할당한 후, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출할 수 있다.

또한, 본 발명의 일실시예에 따르면, 상기 데이터 처리 장치의 동작 방법은 상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율에 대한 제1 확률분포를 확인하고, 상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 예측 태그가 산출된 비율에 대한 제2 확률분포를 확인하는 단계 및 상기 제1 확률분포와 상기 제2 확률분포 간의 쿨백-라이블러 발산에 기초한 비유사도를 연산한 후 상기 비유사도가 사전 설정된 임계치를 초과하는 것으로 확인되면, 상기 분류 모델의 분류 정확도가 낮은 것으로 판단한 후 상기 분류 모델을 재생성할 것을 안내하는 모델 재생성 안내 메시지를 상기 화면 상에 표시하는 단계를 더 포함할 수 있다.

이때, 본 발명의 일실시예에 따르면, 상기 비유사도는 상기 수학식 1에 따라 연산될 수 있다.

또한, 본 발명의 일실시예에 따르면, 상기 데이터 처리 장치의 동작 방법은 상기 적어도 하나의 제1 신규 데이터 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율을 기초로 하기의 수학식 2에 따른 지니 인덱스를 연산하고, 상기 지니 인덱스가 사전 설정된 기준 인덱스 미만인 것으로 확인되면, 상기 복수의 데이터 분류 그룹들 중 상기 적어도 하나의 제1 신규 데이터 전체에서의 사용자 태그의 할당 비율이 최대인 제2 데이터 분류 그룹을 선택한 후, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터 전체에 대해서 사용자 태그의 재할당을 수행할 것을 안내하는 추가 안내 메시지를 상기 화면 상에 표시하는 단계를 더 포함할 수 있다.

이상, 도 3을 참조하여 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법은 도 1 내지 도 2를 이용하여 설명한 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.

본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.

또한, 본 발명의 일실시예에 따른 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

110: 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치
111: 태그 저장부 112: 데이터 저장부
113: 생성부 114: 모델 생성부
115: 요청부 116: 산출부
117: 검출부 118: 안내부
119: 학습 데이터 저장 처리부 120: 데이터 추출부
121: 검색 처리부 122: 확률분포 확인부
123: 모델 평가부 124: 추가 안내부

Claims

사전 설정된 복수의 데이터 분류 그룹들 각각을 지시하는 태그가 저장되어 있는 태그 저장부;
n(n은 2이상의 자연수)개 데이터들 - 상기 n개의 데이터들 각각에는 상기 복수의 데이터 분류 그룹들 중 각 데이터가 속하는 것으로 사전 지정된 데이터 분류 그룹을 지시하는 태그가 할당되어 있음 - 이 저장되어 있는 데이터 저장부;
상기 n개의 데이터들 각각을 입력으로, 상기 n개의 데이터들 각각에 할당된 태그를 정답으로 갖는 n개의 트레이닝 셋(set)들을 생성하는 생성부;
상기 n개의 트레이닝 셋들을 기초로 기계학습을 수행함으로써, 입력 데이터를 상기 복수의 데이터 분류 그룹들로 분류하기 위한 분류 모델 - 상기 분류 모델은 상기 입력 데이터가 입력으로 인가되면, 상기 복수의 데이터 분류 그룹들 중 상기 입력 데이터가 속하는 것으로 예측되는 데이터 분류 그룹에 대한 태그를 출력으로 산출하는 모델임 - 을 생성하는 모델 생성부;
상기 분류 모델이 생성된 이후, 사용자로부터 k(k는 2이상의 자연수)개의 신규 데이터들을 학습 데이터 저장소에 저장할 것을 지시하는 데이터 저장 명령이 인가되면, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 각 신규 데이터가 속하는 것으로 판단되는 데이터 분류 그룹을 지시하는 태그를 할당할 것을 요청하는 요청 메시지를 화면 상에 표시하는 요청부;
상기 요청 메시지에 대응하여 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 대해, 데이터 분류 그룹을 지시하는 사용자 태그의 할당이 완료되면, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출하는 산출부;
상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율에 대한 제1 확률분포를 확인하고, 상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 예측 태그가 산출된 비율에 대한 제2 확률분포를 확인하는 확률분포 확인부;
상기 제1 확률분포와 상기 제2 확률분포 간의 쿨백-라이블러 발산(Kullback-Leibler Divergence)에 기초한 비유사도(dissimilarity)를 연산한 후 상기 비유사도가 사전 설정된 임계치를 초과하는 것으로 확인되면, 상기 분류 모델의 분류 정확도가 낮은 것으로 판단한 후 상기 분류 모델을 재생성할 것을 안내하는 모델 재생성 안내 메시지를 상기 화면 상에 표시하는 모델 평가부;
상기 k개의 신규 데이터들 각각에 대해, 상기 사용자에 의해 할당된 사용자 태그와 상기 산출부에 의해 산출된 예측 태그를 서로 비교하여 양 태그가 서로 일치하지 않는 신규 데이터를 검출하는 검출부;
상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터로 적어도 하나의 제1 신규 데이터가 검출된 경우, 상기 적어도 하나의 제1 신규 데이터에 대해 사용자 태그의 재할당을 수행할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 안내부;
상기 안내 메시지가 표시된 이후, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장하는 학습 데이터 저장 처리부;
상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 상기 복수의 데이터 분류 그룹들 중 제1 데이터 분류 그룹으로 분류되는 학습용 데이터의 검색 명령이 인가되면, 상기 태그 저장부를 참조하여 상기 제1 데이터 분류 그룹을 지시하는 제1 태그를 확인한 후 상기 학습 데이터 저장소로부터 상기 제1 태그와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들을 검색 데이터로 추출하는 데이터 추출부; 및
상기 검색 데이터로 추출된 데이터들을 상기 학습용 데이터의 검색 명령에 대응되는 검색 결과로 상기 화면 상에 표시하는 검색 처리부
를 포함하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치.
제1항에 있어서,
상기 요청부는
상기 분류 모델이 생성된 이후, 상기 사용자로부터 상기 k개의 신규 데이터들을 상기 학습 데이터 저장소에 저장할 것을 지시하는 상기 데이터 저장 명령이 인가되면, 상기 요청 메시지를 상기 화면 상에 표시함과 동시에, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택 가능하도록 하는 선택 인터페이스를 생성하여 상기 화면 상에 표시하고,
상기 산출부는
상기 사용자에 의해 상기 선택 인터페이스를 통해서 상기 k개의 신규 데이터들 각각에 대한 태그가 선택될 때마다, 선택된 태그를 상기 k개의 신규 데이터들 각각에 사용자 태그로 할당한 후, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치.
삭제
제1항에 있어서,
상기 비유사도는 하기의 수학식 1에 따라 연산되는 것을 특징으로 하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치.
[수학식 1]

여기서, S는 상기 비유사도, I는 상기 복수의 데이터 분류 그룹들의 총 개수, P_X(i)는 상기 제1 확률분포에 따른 확률 질량 함수로서, 상기 k개의 신규 데이터들 전체에서 i번째 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 비율, P_Y(i)는 상기 제2 확률분포에 따른 확률 질량 함수로서, 상기 k개의 신규 데이터들 전체에서 i번째 데이터 분류 그룹에 대응되는 예측 태그가 산출된 비율을 의미함.
제1항에 있어서,
상기 적어도 하나의 제1 신규 데이터 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율을 기초로 하기의 수학식 2에 따른 지니 인덱스를 연산하고, 상기 지니 인덱스가 사전 설정된 기준 인덱스 미만인 것으로 확인되면, 상기 복수의 데이터 분류 그룹들 중 상기 적어도 하나의 제1 신규 데이터 전체에서의 사용자 태그의 할당 비율이 최대인 제2 데이터 분류 그룹을 선택한 후, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터 전체에 대해서 사용자 태그의 재할당을 수행할 것을 안내하는 추가 안내 메시지를 상기 화면 상에 표시하는 추가 안내부
를 더 포함하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치.
[수학식 2]

여기서, G는 상기 지니 인덱스, I는 상기 복수의 데이터 분류 그룹들의 총 개수, P_l은 상기 적어도 하나의 제1 신규 데이터 전체에서 l번째 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 비율을 의미함.
사전 설정된 복수의 데이터 분류 그룹들 각각을 지시하는 태그가 저장되어 있는 태그 저장부를 유지하는 단계;
n(n은 2이상의 자연수)개 데이터들 - 상기 n개의 데이터들 각각에는 상기 복수의 데이터 분류 그룹들 중 각 데이터가 속하는 것으로 사전 지정된 데이터 분류 그룹을 지시하는 태그가 할당되어 있음 - 이 저장되어 있는 데이터 저장부를 유지하는 단계;
상기 n개의 데이터들 각각을 입력으로, 상기 n개의 데이터들 각각에 할당된 태그를 정답으로 갖는 n개의 트레이닝 셋(set)들을 생성하는 단계;
상기 n개의 트레이닝 셋들을 기초로 기계학습을 수행함으로써, 입력 데이터를 상기 복수의 데이터 분류 그룹들로 분류하기 위한 분류 모델 - 상기 분류 모델은 상기 입력 데이터가 입력으로 인가되면, 상기 복수의 데이터 분류 그룹들 중 상기 입력 데이터가 속하는 것으로 예측되는 데이터 분류 그룹에 대한 태그를 출력으로 산출하는 모델임 - 을 생성하는 단계;
상기 분류 모델이 생성된 이후, 사용자로부터 k(k는 2이상의 자연수)개의 신규 데이터들을 학습 데이터 저장소에 저장할 것을 지시하는 데이터 저장 명령이 인가되면, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 각 신규 데이터가 속하는 것으로 판단되는 데이터 분류 그룹을 지시하는 태그를 할당할 것을 요청하는 요청 메시지를 화면 상에 표시하는 단계;
상기 요청 메시지에 대응하여 상기 사용자에 의해 상기 k개의 신규 데이터들 각각에 대해, 데이터 분류 그룹을 지시하는 사용자 태그의 할당이 완료되면, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출하는 단계;
상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율에 대한 제1 확률분포를 확인하고, 상기 k개의 신규 데이터들 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 예측 태그가 산출된 비율에 대한 제2 확률분포를 확인하는 단계;
상기 제1 확률분포와 상기 제2 확률분포 간의 쿨백-라이블러 발산(Kullback-Leibler Divergence)에 기초한 비유사도(dissimilarity)를 연산한 후 상기 비유사도가 사전 설정된 임계치를 초과하는 것으로 확인되면, 상기 분류 모델의 분류 정확도가 낮은 것으로 판단한 후 상기 분류 모델을 재생성할 것을 안내하는 모델 재생성 안내 메시지를 상기 화면 상에 표시하는 단계;
상기 k개의 신규 데이터들 각각에 대해, 상기 사용자에 의해 할당된 사용자 태그와 상기 산출하는 단계에 의해 산출된 예측 태그를 서로 비교하여 양 태그가 서로 일치하지 않는 신규 데이터를 검출하는 단계;
상기 k개의 신규 데이터들 중 사용자 태그와 예측 태그가 서로 일치하지 않는 신규 데이터로 적어도 하나의 제1 신규 데이터가 검출된 경우, 상기 적어도 하나의 제1 신규 데이터에 대해 사용자 태그의 재할당을 수행할 것을 안내하는 안내 메시지를 상기 화면 상에 표시하는 단계;
상기 안내 메시지가 표시된 이후, 상기 사용자에 의해 상기 적어도 하나의 제1 신규 데이터 각각에 대한 사용자 태그의 재할당이 완료되면, 상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 상기 k개의 신규 데이터들 각각에 할당된 사용자 태그를 서로 대응시켜 저장하는 단계;
상기 학습 데이터 저장소에 상기 k개의 신규 데이터들과 사용자 태그가 저장된 이후, 상기 사용자로부터 상기 복수의 데이터 분류 그룹들 중 제1 데이터 분류 그룹으로 분류되는 학습용 데이터의 검색 명령이 인가되면, 상기 태그 저장부를 참조하여 상기 제1 데이터 분류 그룹을 지시하는 제1 태그를 확인한 후 상기 학습 데이터 저장소로부터 상기 제1 태그와 매칭되는 사용자 태그에 대응되어 저장되어 있는 데이터들을 검색 데이터로 추출하는 단계; 및
상기 검색 데이터로 추출된 데이터들을 상기 학습용 데이터의 검색 명령에 대응되는 검색 결과로 상기 화면 상에 표시하는 단계
를 포함하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법.
제6항에 있어서,
상기 요청 메시지를 화면 상에 표시하는 단계는
상기 분류 모델이 생성된 이후, 상기 사용자로부터 상기 k개의 신규 데이터들을 상기 학습 데이터 저장소에 저장할 것을 지시하는 상기 데이터 저장 명령이 인가되면, 상기 요청 메시지를 상기 화면 상에 표시함과 동시에, 상기 k개의 신규 데이터들 각각에 대해 상기 복수의 데이터 분류 그룹들 중 어느 하나의 데이터 분류 그룹을 지시하는 태그를 선택 가능하도록 하는 선택 인터페이스를 생성하여 상기 화면 상에 표시하고,
상기 산출하는 단계는
상기 사용자에 의해 상기 선택 인터페이스를 통해서 상기 k개의 신규 데이터들 각각에 대한 태그가 선택될 때마다, 선택된 태그를 상기 k개의 신규 데이터들 각각에 사용자 태그로 할당한 후, 상기 k개의 신규 데이터들을 상기 분류 모델에 입력으로 인가하여 상기 k개의 신규 데이터들 각각에 대한 예측 태그를 산출하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법.
삭제
제6항에 있어서,
상기 비유사도는 하기의 수학식 1에 따라 연산되는 것을 특징으로 하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법.
[수학식 1]

여기서, S는 상기 비유사도, I는 상기 복수의 데이터 분류 그룹들의 총 개수, P_X(i)는 상기 제1 확률분포에 따른 확률 질량 함수로서, 상기 k개의 신규 데이터들 전체에서 i번째 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 비율, P_Y(i)는 상기 제2 확률분포에 따른 확률 질량 함수로서, 상기 k개의 신규 데이터들 전체에서 i번째 데이터 분류 그룹에 대응되는 예측 태그가 산출된 비율을 의미함.
제6항에 있어서,
상기 적어도 하나의 제1 신규 데이터 전체에서 상기 복수의 데이터 분류 그룹들 각각에 대응되는 사용자 태그가 할당된 비율을 기초로 하기의 수학식 2에 따른 지니 인덱스를 연산하고, 상기 지니 인덱스가 사전 설정된 기준 인덱스 미만인 것으로 확인되면, 상기 복수의 데이터 분류 그룹들 중 상기 적어도 하나의 제1 신규 데이터 전체에서의 사용자 태그의 할당 비율이 최대인 제2 데이터 분류 그룹을 선택한 후, 상기 k개의 신규 데이터들 중 상기 제2 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 신규 데이터 전체에 대해서 사용자 태그의 재할당을 수행할 것을 안내하는 추가 안내 메시지를 상기 화면 상에 표시하는 단계
를 더 포함하는 기계학습용 데이터의 분류 저장 및 검색을 지원하는 데이터 처리 장치의 동작 방법.
[수학식 2]

여기서, G는 상기 지니 인덱스, I는 상기 복수의 데이터 분류 그룹들의 총 개수, P_l은 상기 적어도 하나의 제1 신규 데이터 전체에서 l번째 데이터 분류 그룹에 대응되는 사용자 태그가 할당된 비율을 의미함.
제6항, 제7항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
제6항, 제7항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.