KR20150049877A

KR20150049877A - 데이터 군집 관리 장치 및 방법

Info

Publication number: KR20150049877A
Application number: KR1020130131012A
Authority: KR
Inventors: 권순환; 김형찬; 오규삼; 서범준
Original assignee: 삼성에스디에스 주식회사
Priority date: 2013-10-31
Filing date: 2013-10-31
Publication date: 2015-05-08
Also published as: CN104598512A; US20150120734A1; CN104598512B

Abstract

데이터 군집 관리 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 데이터 군집 관리 장치는 데이터 군집들 각각과 입력 데이터 간의 유사도를 산출하고, 상기 유사도에 기반하여 상기 데이터 군집들 중 하나의 데이터 군집을 선정하는 군집 선정부; 및 상기 선정된 데이터 군집 및 상기 입력 데이터를 기반으로 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되는지 여부를 판단하고, 상기 판단에 따라 상기 입력 데이터를 이용하여 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트하는 군집 업데이트부를 포함할 수 있다.

Description

데이터 군집 관리 장치 및 방법{APPARATUS AND METHOD FOR MANAGING DATA CLUSTER}

본 발명은 데이터 군집을 상황에 맞게 적응적으로 업데이트할 수 있는 데이터 군집 관리 장치 및 방법에 관한 것이다.

최근 데이터의 용량이 기하급수적으로 증가함에 따라 그러한 데이터를 군집화(clustering)하여 관리하는 방식이 주목을 받고 있다. 여기에서, 군집(cluster)은 데이터의 여러 속성들을 비교하여 유사한 특성을 갖는 항목들을 그룹화하는 것을 의미한다. 이러한 군집의 개념을 이용하여 대용량의 데이터를 이용한 진단 시스템이 개발되고 있다.

이러한 대용량 데이터를 이용하는 시스템에서, 입력 데이터의 사소한 변화(minor change)는 지속적으로 발생된다. 예를 들어, 데이터 센터의 경우 소프트웨어 패치, 장비 이동, 계절의 변화 등의 사소한 변화가 지속적으로 발생한다.

이러한 사소한 변화에 따라 군집 기반의 진단 시스템은 군집을 이동시키거나, 삭제하거나, 생성되거나 또는 확률적으로 조정하는 등과 같이 군집을 재구축할 필요가 있다. 그러나, 사소한 변화에 따라 군집을 재구축하는 방법은 많은 비용과 시간이 필요하다. 또한, 종래의 군집 기반 진단 시스템은 고정된 군집을 이용하여 데이터에 대한 진단을 수행하기 때문에 시스템의 변화가 있을 때마다 군집을 재생성해야 하는 단점이 있다. 나아가, 고정된 군집을 이용하는 진단 시스템은 진단 정확도가 떨어지는 단점이 있다.

대한민국 등록특허 제10-1182126호(2012.09.06)

본 발명의 실시예들은 입력 데이터와 군집들간의 유사도를 통해 군집을 업데이트하거나 새로운 군집을 생성할 수 있는 데이터 군집 관리 장치 및 방법을 제공하기 위한 것이다.

또한, 본 발명의 실시예들은 입력 데이터의 대표 값과 군집들의 대표 값을 기반으로 유사도를 산출하며, 임계 값을 기반으로 업데이트할 군집을 선정할 수 있는 데이터 군집 관리 장치 및 방법을 제공하기 위한 것이다.

본 발명의 실시예들은 사용자 입력을 통해 군집을 수정, 삭제, 복원 또는 생성할 수 있는 데이터 군집 관리 장치 및 방법을 제공하기 위한 것이다.

본 발명의 예시적인 실시예에 따르면, 데이터 군집들 각각과 입력 데이터 간의 유사도를 산출하고, 상기 유사도에 기반하여 상기 데이터 군집들 중 하나의 데이터 군집을 선정하는 군집 선정부; 및 상기 선정된 데이터 군집 및 상기 입력 데이터를 기반으로 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되는지 여부를 판단하고, 상기 판단에 따라 상기 입력 데이터를 이용하여 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트하는 군집 업데이트부를 포함하는 데이터 군집 관리 장치가 제공된다.

상기 데이터 군집 관리 장치에서 상기 유사도는 상기 입력 데이터의 대표 값과 상기 각각의 데이터 군집의 대표 값 간의 거리를 나타낼 수 있다.

상기 데이터 군집 관리 장치에서, 상기 데이터 군집들 각각은 임계 값과 연관되고, 상기 군집 선정부는 상기 데이터 군집들 중에서 상기 유사도가 상기 임계 값보다 작은 데이터 군집들을 추출하며 상기 추출된 데이터 군집들 중에서 가장 작은 값의 유사도를 갖는 데이터 군집을 선정할 수 있다.

상기 데이터 군집 관리 장치에서 상기 군집 업데이트부는 상기 입력 데이터의 대표 값과 상기 선정된 데이터 군집의 대표 값을 기반으로 상기 판단을 수행할 수 있다.

상기 데이터 군집 관리 장치에서 상기 군집 업데이트부는 상기 입력 데이터의 대표 값 및 상기 입력 데이터의 메타데이터를 이용하여 상기 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트할 수 있다.

상기 데이터 군집 관리 장치에서 상기 군집 업데이트부는 상기 판단 결과 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되지 않을 경우 새로운 데이터 군집을 생성하고 상기 선정된 데이터 군집과 연관된 임계 값에 기반하여 상기 새로운 데이터 군집의 임계 값을 설정할 수 있다.

상기 데이터 군집 관리 장치에서 상기 새로운 데이터 군집의 임계 값은 상기 선정된 데이터 군집과 연관된 임계 값보다 작게 설정될 수 있다.

상기 데이터 군집 관리 장치는 상기 데이터 군집들을 저장하는 군집 저장소; 및 상기 군집 저장소에 저장된 군집들에 대한 수정, 삭제 또는 복원 또는 추가적인 데이터 군집의 생성을 위한 사용자 입력을 수신하는 편집부를 더 포함할 수 있다.

상기 데이터 군집 관리 장치에서 상기 편집부는 상기 저장된 데이터 군집들과 연관된 임계 값을 기준으로 상기 저장된 데이터 군집들을 디스플레이할 수 있다.

상기 데이터 군집 관리 장치에서 상기 저장된 데이터 군집 각각은 삭제 상태를 나타내는 식별자와 연관되며, 상기 편집부는 상기 사용자 입력에 따라 삭제 또는 복원을 위해 선택된 데이터 군집의 상기 식별자를 변경할 수 있다.

본 발명의 예시적인 다른 실시예에 따르면, 데이터 군집들 각각 및 입력 데이터 간의 유사도를 산출하고, 상기 유사도에 기반하여 상기 데이터 군집들 중 하나의 데이터 군집을 선정하는 단계; 및 상기 선정된 데이터 군집 및 상기 입력 데이터를 기반으로 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되는지의 여부를 판단하고, 상기 판단에 따라 상기 입력 데이터를 이용하여 새로운 데이터 군집을 생성하는 것 또는 상기 선정된 데이터 군집을 업데이트하는 것을 수행하는 단계를 포함하는, 데이터 군집 관리 방법이 제공된다.

상기 데이터 군집 관리 방법에서 상기 유사도는 상기 입력 데이터의 대표 값과 상기 각각의 데이터 군집의 대표 값 간의 거리를 나타낼 수 있다상기 데이터 군집 관리 방법에서 상기 데이터 군집들 각각은 임계 값과 연관되고, 상기 데이터 군집을 선정하는 단계는, 상기 데이터 군집들 중에서 상기 유사도가 임계 값보다 작은 데이터 군집들을 추출하는 단계; 및 상기 추출된 데이터 군집들 중에서 가장 작은 값의 유사도를 갖는 데이터 군집을 선정하는 단계를 포함할 수 있다.

상기 데이터 군집 관리 방법에서 상기 판단은 상기 입력 데이터의 대표 값과 상기 선정된 데이터 군집의 대표 값을 기반으로 수행될 수 있다.

상기 데이터 군집 관리 방법에서 상기 수행하는 단계는 상기 입력 데이터의 대표 값 및 상기 입력 데이터의 메타데이터를 이용하여 상기 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트하는 단계를 포함할 수 있다.

상기 데이터 군집 관리 방법에서, 상기 수행하는 단계는, 상기 판단 결과 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되지 않을 경우 새로운 데이터 군집을 생성하는 단계; 및 상기 선정된 데이터 군집과 연관된 임계 값에 기반하여 상기 새로운 데이터 군집의 임계 값을 설정하는 단계를 포함할 수 있다.

상기 데이터 군집 관리 방법에서 상기 설정하는 단계는 상기 새로운 데이터 군집의 임계 값을 상기 선정된 데이터 군집의 임계 값보다 작게 설정하는 단계를 포함할 수 있다.

상기 데이터 군집 관리 방법은 상기 데이터 군집들에 대한 수정, 삭제 또는 복원 또는 추가적인 데이터군집의 생성을 위한 사용자 입력을 수신하는 단계를 더 포함할 수 있다.

상기 데이터 군집 관리 방법은 상기 데이터 군집들의 임계 값을 기준으로 상기 데이터 군집들을 디스플레이하는 단계를 더 포함할 수 있다.

상기 데이터 군집 관리 방법에서 상기 데이터 군집들 각각은 삭제 상태를 나타내는 식별자와 연관되며, 상기 데이터 군집 관리 방법은, 상기 사용자 입력에 따라 삭제 또는 복원을 위해 선택된 데이터 군집의 상기 식별자를 변경하는 단계를 더 포함할 수 있다.

본 발명의 실시예들에 따르면, 입력 데이터와 군집들간의 유사도를 기반으로 군집을 업데이트하거나 새로운 군집을 생성함으로써, 다양한 변화를 반영할 수 있는 데이터 군집 관리 장치 및 방법을 제공할 수 있다.

또한, 본 발명의 실시예들에 따르면, 새로운 진단 대상(입력 데이터)이 소프트웨어 패치, 장비의 위치 이동, 사계절의 변화 등의 사소한 변화에 의한 것인지를 유사도 및 임계 값을 기반으로 판단하고, 판단 결과를 반영하여 군집을 업데이트하거나 새로운 군집을 생성하는 데이터 군집 관리 장치 및 방법을 제공한다. 따라서, 이러한 데이터 군집 관리 장치 및 방법이 적용된 진단 시스템을 운영함으로써, 사소한 변화가 적응적으로 반영된 시스템 구현이 가능하다.

본 발명의 실시예들에 따르면, 입력 데이터를 기반으로 군집을 자동으로 생성 및 업데이트함으로써, 군집 관리 측면에 있어서 비용을 절감시킬 수 있다.

도 1은 본 발명의 실시예에 따른 데이터 데이터 군집 관리 장치를 도시한 블록도
도 2는 본 발명의 실시예에 따른 데이터 데이터 군집 관리 장치에서 데이터 군집의 포맷을 도시한 도면
도 3은 본 발명의 실시예에 따른 선정된 군집의 업데이트를 설명하기 위한 도면
도 4는 본 발명의 실시예에 따른 새로운 군집 생성 및 임계 값을 설정하는 과정을 설명하기 위한 도면
도 5는 본 발명의 실시예에 따른 군집 관리 방법을 도시한 흐름도
도 6은 본 발명의 실시예에 따른 데이터 군집 관리 장치의 편집부에 의한 군집의 수정 방법을 도시한 흐름도
도 7은 본 발명의 실시예에 따른 데이터 군집 관리 장치의 편집부에 의한 군집의 삭제 방법을 도시한 흐름도
도 8은 본 발명의 실시예에 따른 데이터 군집 관리 장치의 편집부에 의한 군집의 복원 방법을 도시한 흐름도
도 9는 본 발명의 실시예에 따른 데이터 군집 관리 장치의 편집부에 의한 군집의 생성 방법을 도시한 흐름도.

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 본 발명의 실시예에 따른 데이터 데이터 군집 관리 장치를 도시한 블록도이며, 도 2는 본 발명의 실시예에 따른 데이터 데이터 군집 관리 장치에서 데이터 군집의 포맷을 도시한 도면이다.

본 발명의 실시예들을 상세히 설명하기 앞서, 먼저 본 발명의 실시예에서 사용되는 데이터 군집이란, 데이터의 여러 속성들을 비교하여 유사한 특성을 갖는 항목들을 그룹화하는 것을 의미한다. 이하에서는 데이터 군집을 군집이라고 칭하기로 한다.

도 1에 도시된 바와 같이, 데이터 군집 관리 장치(100)는 군집 저장소(110), 진단부(120), 군집 선정부(130), 군집 업데이트부(140) 및 편집부(150) 등을 포함하여 구성될 수 있다.

군집 저장소(110)는 도 2에 도시된 바와 같은 군집 포맷을 갖는 다수의 군집을 저장하고 있다. 여기에서, 군집 포맷은 군집 아이디(cluster ID), 대표 값(value), 메타데이터(metadata) 및 임계 값(threshold)으로 구성될 수 있다. 소정의 실시예에서는 군집 아이디별로 다수의 대표 값, 메타데이터 및 임계 값이 설정된다. 또한, 메타데이터는 통계 자료, 해당 군집이 생성될 때 참고한 선정된 군집(해당 군집과 가장 근접한 군집)의 군집 아이디, 군집의 생성 날짜, 수정 날짜, 삭제 플래그, 카운트, 비율 등을 포함할 수 있다.

임계 값은 외부로부터 입력되는 진단 대상(이하, '입력 데이터'라고 함)과 군집 간의 유사도를 비교하기 위한 것이다. 또한, 삭제 플래그는 군집의 삭제 상태를 의미하는 식별자이다. 구체적으로, 삭제 플래그가 "1"의 값인 경우 해당 군집은 삭제된 상태를 의미할 수 있다.

진단부(120)는 대표 값과 메타데이터를 갖는 입력 데이터를 수신하며, 군집 저장소(110)에 저장된 군집과 입력 데이터의 비교를 통해 진단을 수행할 수 있다. 또한, 진단부(120)는 입력 데이터를 군집 선정부(130)에 제공할 수 있다.

한편, 본 발명의 실시예에서 입력 데이터는 데이터 센터 및 빌딩으로부터 발생되는 실시간 데이터일 수 있다.

군집 선정부(130)는 입력 데이터와 군집 저장소(110)에 저장된 군집들을 이용하여 각각의 군집과 입력 데이터 간의 유사도를 산출할 수 있다. 소정의 실시예에서, 군집 선정부(130)는 입력 데이터의 대표 값과 군집 저장소(110)에 저장된 각 군집의 대표 값 간의 거리를 계산하여 각각의 군집에 대한 유사도를 산출할 수 있다.

여기에서, 거리는 'Euclidean distance", "Manhattan distance" 등을 통해 계산될 수 있으나, 이에 한정되지는 않는다.

한편, 입력 데이터의 대표 값과 선정된 군집의 대표 값이 2차원으로 구성될 때, 거리 값은 아래의 수학식 1을 통해 산출될 수 있다.

상기의 수학식 1에서 "(Val0, Val1)"은 입력 데이터의 대표 값이고, "(Val0', Val1')"은 선정된 군집의 대표 값이다.

또한, 군집 선정부(130)는 유사도를 기반하여 군집들 중 하나의 군집을 선정할 수 있다. 소정의 실시예에서, 군집 선정부(130)는 군집들 중에서 유사도가 군집의 임계 값보다 작은 군집들을 추출하며, 추출된 군집들 중에서 가장 작은 값의 유사도를 갖는 군집을 선정할 수 있다.

군집 업데이트부(140)는 선정된 군집과 입력 데이터를 기반으로 입력 데이터가 선정된 군집에 포함되는지의 여부를 판단할 수 있다. 소정의 실시예에서, 군집 업데이트부(140)는 입력 데이터의 대표 값이 선정된 군집에 대응 가능한지를 통해 입력 데이터가 군집에 포함되는지의 여부를 판단할 수 있다.

군집 업데이트부(140)는 판단 결과에 따라 군집 저장소(110)에 새로운 군집을 생성하거나, 군집 저장소(110)에서 선정된 군집을 업데이트시킬 수 있다. 구체적으로, 군집 업데이트부(140)는 입력 데이터의 대표 값과 메타데이터를 이용하여 선정된 군집을 업데이트하거나, 입력 데이터의 대표 값과 메타데이터 및 임계 값을 이용하여 새로운 군집을 군집 저장소(110)에 생성할 수 있다.

이때, 새로운 군집의 임계 값은 선정된 군집의 임계 값보다 작게 설정할 수 있다.

상기와 같은 군집 선정부(130) 및 군집 업데이트부(140)가 적용된 예에 대해 도 3 및 도 4를 참조하여 설명한다.

도 3은 본 발명의 실시예에서 군집 저장소(110)에서 선정된 군집을 업데이트하는 과정을 설명하기 위한 도면이며, 도 4는 본 발명 실시예에 따른 새로운 군집 생성 및 임계 값을 설정하는 과정을 설명하기 위한 도면이다.

먼저, 선정된 군집의 내부 데이터를 의미하는 선정된 군집의 범위(310) 및 대표 값(320)이 도 3에 도시된 바와 같으며, 입력 데이터의 대표 값(330)이 선정된 군집의 범위(310)에 포함되는 경우, 즉 입력 데이터의 대표 값(330)이 선정된 군집의 내부 데이터에 포함될 수 있을 경우 군집 업데이트부(140)는 입력 데이터를 이용하여 선정된 군집에 대한 업데이트가 수행될 수 있다. 여기에서, 입력 데이터는 대표 값(330)과 메타데이터 등을 가질 수 있다.

예를 들어, 입력 데이터의 대표 값(330)과 선정된 군집의 대표값(320) 및 군집을 이루는 값들의 카운트 수를 고려한 새로운 무게중심점으로 선정된 군집의 대표값(320)을 이동시키며, 진단부(120)의 진단 결과가 입력 데이터가 선정된 군집의 타입 1의 자료로 분류될 때, 타입 1의 카운트를 "1" 증가시키고, 타입 1의 비율을 수정한다. 다시 말해서, 선정된 군집의 대표 값(320) 및 메타데이터는 입력 데이터의 대표 값(330) 및 메타데이터를 통해 업데이트될 수 있다

한편, 입력 데이터가 새로운 군집에 해당되는 경우, 도 4에 도시된 바와 같이, 입력 데이터의 대표 값(420)이 선정된 군집(310)에 설정된 임계 값(410) 범위에 포함되면서, 입력 데이터의 대표 값(420)의 선정된 군집의 내부에 포함되지 않을 경우 군집 업데이트부(140)는 선정된 군집의 임계 값(410)보다 작은 값을 새로운 군집(440)에 대한 임계 값(430)으로 설정하고, 임계 값(430), 입력 데이터의 대표 값(420) 및 메타데이터를 이용하여 새로운 군집(440)을 생성할 수 있다.

임계 값 설정에 대해 예를 들어 설명하면 아래와 같다.

예를 들어, 군집 아이디 U1에 대응되는 선정된 군집의 임계 값이 1.3일 때, 선정된 군집의 범위에 포함되지 않은 입력 데이터의 임계 값은 선정된 군집의 임계 값에 "A(0<A<1)" 값을 곱한 결과 값이 될 수 있다. 따라서, 도 4에 도시된 바와 같은 선정된 군집의 임계 값보다 작은 임계 값을 갖는 새로운 군집(440)이 생성될 수 있다. 여기에서, "A"가 "0.5일 때, 새로운 군집(440)의 임계 값은 0.65가 될 수 있다.

상술한 바와 같이, 새로운 군집의 임계 값을 선정된 군집의 임계 값보다 작게 설정하는 것은 운영자가 직접 선택하거나 신뢰할 수 있는 것으로 판단되어 생성된 군집이 아닌 진단의 결과로 인해 생성되는 군집, 즉 신뢰성이 떨어진 군집이기 때문이다.

한편, 임계 값을 설정하는 방법으로는 "k fold cross validation"을 이용할 수 있으나, 이에 한정되지는 않는다. "k fold cross validation" 방법은 군집을 구성하는 데이터를 K 등분으로 나누어 데이터 개수 기준으로 1:k-1로 분할, 테스트 셋(test set), 학습 셋(learning set)을 구성한다. 학습 셋으로 군집화를 수행하고, 테스트 셋에 적응형 군집화를 적용하여 입력 데이터에 적합한 임계 값을 찾아낸다. 이러한 과정을 전체 k등분에 대해 테스트 셋이 겹치지 않도록 k회 수행하며, k회 수행한 결과 값, 예컨대 평균 값을 계산하여 새로운 군집을 생성할 수 있다.

한편, 편집부(150)는 군집 저장소(110)에 저장된 군집들에 대한 수정, 삭제 또는 복원 또는 군집의 생성을 위한 사용자 입력을 수신하는 인터페이스를 제공할 수 있다.

편집부(150)는 사용자 입력이 수신됨에 사용자 입력에 대한 검증을 통해 군집의 편집 가능 여부를 판단할 수 있으며, 편집이 불가능할 경우 편집 불가를 사용자에게 알려줄 수 있다. 예를 들어, 편집부(150)는 사용자 입력이 군집 포맷에 부합되는지의 여부를 통해 편집 가능한지를 판단하며, 편집 불가능할 경우 소정의 편집 불가 메시지를 생성하여 디스플레이 장치(미도시됨)에 표시할 수 있다.

또한, 편집부(150)는 사용자의 입력이 군집의 생성 또는 복원일 경우 생성 또는 복원될 군집의 중복성을 군집 저장소(110)에 저장된 군집들 기반으로 생성 또는 복원될 군집의 중복성을 확인하며, 확인 결과에 따라 생성 또는 복원 여부를 결정할 수 있다. 여기에서, 생성 또는 복원될 군집이 중복되는 경우 편집부(150)는 불가 메시지를 생성하여 디스플레이 장치(미도시됨)에 표시할 수 있다.

한편, 편집부(150)는 임계 값을 기반으로 군집 저장소(110)에 저장된 군집을 디스플레이해줄 수 있다. 여기에서, 디스플레이되는 군집의 수는 사용자의 선택 및 조건 입력을 통해 설정될 수 있다.

상기와 같은 데이터 군집 관리 장치(100)의 전반적인 동작 과정에 대해 도 5를 참조하여 설명한다.

도 5는 본 발명의 실시예에 따른 군집 관리 방법(500)을 도시한 흐름도이다.

도 5에 도시된 방법은 예를 들어, 전술한 데이터 군집 관리 장치(100)의 진단부(120), 군집 선정부(130) 및 군집 업데이트부(140)에 의해 수행될 수 있다. 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다. 또한 실시예에 따라 도 5에 도시되지 않은 하나 이상의 단계들이 도 5에 도시된 방법과 함께 수행될 수도 있다.

도 5에 도시된 바와 같이, 단계 502에서 입력 데이터가 진단부(120)에 수신되면, 군집 선정부(130)는 군집 저장소(110)에 저장된 각각의 군집과 입력 데이터 간의 유사도를 계산한다(단계 504). 구체적으로, 입력 데이터의 대표 값과 각 군집의 대표 값 간의 거리 값을 계산하여 입력 데이터와 각 군집 간의 유사도가 산출될 수 있다.

그런 다음, 군집 선정부(130)는 각 유사도와 각 군집에 설정된 임계 값 간의 비교를 통해 군집 저장소(110)에서 하나의 군집을 선정한다(단계 506). 구체적으로, 군집 선정부(130)는 군집들 중에서 유사도가 임계 값보다 작은 군집들을 추출하고, 추출된 군집들의 유사도들 중 가장 작은 값의 유사도를 갖는 군집을 선정할 수 있다.

그리고, 군집 업데이트부(140)는 선정된 군집과 입력 데이터를 기반으로 입력 데이터가 선정된 군집에 포함되는지를 판단한다(단계 508). 구체적으로, 군집 업데이트부(140)는 입력 데이터의 대표 값이 선정된 군집의 내부에 대응될 수 있는지의 여부를 통해 입력 데이터가 선정된 군집에 포함되는지를 판단할 수 있다.

단계 508의 판단 결과, 입력 데이터가 선정된 군집에 포함되는 경우, 군집 업데이트부(140)는 입력 데이터를 이용하여 선정된 군집을 업데이트한다(단계 510). 구체적으로, 군집 업데이트부(140)는 입력 데이터의 대표 값과 메타데이터를 이용하여 선정된 군집을 업데이트할 수 있다.

단계 508의 판단 결과, 입력 데이터가 선정된 군집에 포함되지 않을 경우 군집 업데이트부(140)는 입력 데이터를 근거하여 새로운 군집을 생성하여 군집 저장소(110)에 저장한다(단계 512). 구체적으로, 군집 업데이트부(140)는 선정된 군집의 임계 값을 기반으로 새로운 군집의 임계 값을 설정하고, 설정된 임계 값, 입력 데이터의 대표 값 및 메타 데이터를 반영하여 새로운 군집을 생성할 수 있다.

본 발명의 실시예에 따른 데이터 군집 관리 장치(100)의 편집부(150)에 의해 군집 저장소(110)에 저장된 군집을 관리하는 방법에 대해 도 6 내지 도 9을 참조하여 설명한다.

도 6은 본 발명의 실시예에 따른 데이터 군집 관리 장치(100)의 편집부(150)에 의한 군집의 수정 방법(600)을 도시한 흐름도이다.

도 6에 도시된 바와 같이, 단계 602에서 편집부(150)는 군집을 수정하고자 하는 사용자 입력, 즉 군집의 선택과 관련된 입력을 수신한다. 이에 따라, 편집부(150)는 사용자 입력에 대응되는 군집을 군집 저장소(110)에 선택할 수 있다.

이후, 편집부(150)는 수정하고자 하는 사용자 입력, 즉 수정 관련 정보를 수신한다(단계 604).

그런 다음, 편집부(150)는 수정 관련 정보에 대한 로직 확인을 통해 군집으로 사용 가능한지를 판단한다 (단계 606).

단계 606의 판단 결과, 군집으로 사용 가능한 경우, 편집부(150)는 수정 관련 정보를 이용하여 선택된 군집을 수정하며(단계 608), 그렇지 않을 경우 수정 불가를 사용자에게 통보한다(단계 610). 구체적으로, 편집부(150)는 수정 불가 메시지를 생성한 후 이를 디스플레이해줌으로써, 사용자에게 통보할 수 있다.

도 7은 본 발명의 실시예에 따른 데이터 군집 관리 장치(100)의 편집부(150)에 의한 군집의 삭제 방법(600)을 도시한 흐름도이다.

도 7에 도시된 바와 같이, 단계 702에서 편집부(150)는 군집을 삭제하고자 하는 사용자 입력, 즉 군집의 선택과 관련된 입력을 수신한다.

이후, 편집부(150)는 삭제 요구 신호, 예컨대 삭제 요청에 따른 사용자 조작이 수신되는지를 판단한다(단계 704).

단계 704의 판단 결과, 삭제 요구 신호가 수신되는 경우, 편집부(150)는 단계 702에서 선택된 군집의 삭제 플래그를 "1"로 수정한다(단계 706).

도 8은 본 발명의 실시예에 따른 데이터 군집 관리 장치(100)의 편집부(150)에 의한 군집의 복원 방법(800)을 도시한 흐름도이다.

도 8에 도시된 바와 같이, 단계 802에서 편집부(150)는 복원하고자 하는 사용자 입력, 즉 복원하고자 하는 군집의 선택과 관련된 입력을 수신한다.

이후, 편집부(150)는 복원 요구 신호, 예컨대 복원 요청에 따른 사용자 조작이 수신되는지를 판단한다(단계 804).

단계 804의 판단 결과, 복원 요구 신호가 수신되는 경우, 편집부(150)는 복원하고자 하는 군집, 즉 선택된 군집에 대한 중복성과 로직 확인을 통해 군집으로서 사용 가능한지를 판단한다(단계 806).

단계 806의 판단 결과, 군집으로 사용 가능한 경우, 편집부(150)는 단계 802에서 선택된 군집의 삭제 플래그를 "0"로 수정한다(단계 808).

한편, 단계 806의 판단 결과, 군집으로 사용 가능하지 않을 경우, 편집부(150)는 복원 불가를 사용자에게 통보한다(단계 810). 구체적으로, 편집부(150)는 복원 불가 메시지를 생성한 후 이를 디스플레이해줌으로써, 사용자에게 통보할 수 있다.

도 9는 본 발명의 실시예에 따른 데이터 군집 관리 장치(100)의 편집부(150)에 의한 군집의 생성 방법(600)을 도시한 흐름도이다.

도 9에 도시된 바와 같이, 단계 902에서 편집부(150)는 생성하고자 하는 군집에 관련된 사용자 입력, 즉 새로 생성될 군집에 대한 정보를 입력을 수신한다.

이후, 편집부(150)는 생성하고자 하는 군집, 즉 선택된 군집에 대한 중복성과 로직 확인을 통해 군집으로서 사용 가능한지를 판단한다(단계 904).

단계 904의 판단 결과, 군집으로 사용 가능한 경우, 편집부(150)는 사용자 입력을 기반으로 군집 저장소(110)에 군집을 생성한다(단계 906).

한편, 단계 904의 판단 결과, 군집으로 사용 가능하지 않을 경우, 편집부(150)는 생성 불가를 사용자에게 통보한다(단계 908). 구체적으로, 편집부(150)는 생성 불가 메시지를 생성한 후 이를 디스플레이해줌으로써, 사용자에게 통보할 수 있다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들, 즉 입력 데이터를 기반으로 한 군집 관리 방법(500), 편집부(150)에 의한 군집의 수정, 삭제, 생성 및 복원 방법(600, 700, 800, 900)을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100 : 데이터 군집 관리 장치
110 : 군집 저장소
120 : 진단부
130 : 군집 선정부
140 : 군집 업데이트부
150 : 편집부

Claims

데이터 군집들 각각과 입력 데이터 간의 유사도를 산출하고, 상기 유사도에 기반하여 상기 데이터 군집들 중 하나의 데이터 군집을 선정하는 군집 선정부; 및
상기 선정된 데이터 군집 및 상기 입력 데이터를 기반으로 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되는지 여부를 판단하고, 상기 판단에 따라 상기 입력 데이터를 이용하여 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트하는 군집 업데이트부를 포함하는, 데이터 군집 관리 장치.
제1항에 있어서,
상기 유사도는 상기 입력 데이터의 대표 값과 상기 각각의 데이터 군집의 대표 값 간의 거리를 나타내는, 데이터 군집 관리 장치.
제1항에 있어서,
상기 데이터 군집들 각각은 임계 값과 연관되고,
상기 군집 선정부는 상기 데이터 군집들 중에서 상기 유사도가 상기 임계 값보다 작은 데이터 군집들을 추출하며 상기 추출된 데이터 군집들 중에서 가장 작은 값의 유사도를 갖는 데이터 군집을 선정하는, 데이터 군집 관리 장치.
제1항에 있어서,
상기 군집 업데이트부는 상기 입력 데이터의 대표 값과 상기 선정된 데이터 군집의 대표 값을 기반으로 상기 판단을 수행하는, 데이터 군집 관리 장치.
제1항에 있어서,
상기 군집 업데이트부는 상기 입력 데이터의 대표 값 및 상기 입력 데이터의 메타데이터를 이용하여 상기 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트하는, 데이터 군집 관리 장치.
제5항에 있어서,
상기 군집 업데이트부는 상기 판단 결과 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되지 않을 경우 새로운 데이터 군집을 생성하고 상기 선정된 데이터 군집과 연관된 임계 값에 기반하여 상기 새로운 데이터 군집의 임계 값을 설정하는, 데이터 군집 관리 장치
제6항에 있어서,
상기 새로운 데이터 군집의 임계 값은 상기 선정된 데이터 군집과 연관된 임계 값보다 작게 설정되는, 데이터 군집 관리 장치.
제1항에 있어서,
상기 데이터 군집들을 저장하는 군집 저장소; 및
상기 군집 저장소에 저장된 군집들에 대한 수정, 삭제 또는 복원 또는 추가적인 데이터 군집의 생성을 위한 사용자 입력을 수신하는 편집부를 더 포함하는, 데이터 군집 관리 장치.
제8항에 있어서,
상기 편집부는 상기 저장된 데이터 군집들과 연관된 임계 값을 기준으로 상기 저장된 데이터 군집들을 디스플레이하는, 데이터 군집 관리 장치.
제8항에 있어서,
상기 저장된 데이터 군집 각각은 삭제 상태를 나타내는 식별자와 연관되며, 상기 편집부는 상기 사용자 입력에 따라 삭제 또는 복원을 위해 선택된 데이터 군집의 상기 식별자를 변경하는, 데이터 군집 관리 장치.
데이터 군집들 각각과 입력 데이터 간의 유사도를 산출하고, 상기 유사도에 기반하여 상기 데이터 군집들 중 하나의 데이터 군집을 선정하는 단계; 및
상기 선정된 데이터 군집 및 상기 입력 데이터를 기반으로 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되는지의 여부를 판단하고, 상기 판단에 따라 상기 입력 데이터를 이용하여 새로운 데이터 군집을 생성하는 것 또는 상기 선정된 데이터 군집을 업데이트하는 것을 수행하는 단계를 포함하는, 데이터 군집 관리 방법.
제11항에 있어서,
상기 유사도는 상기 입력 데이터의 대표 값과 상기 각각의 데이터 군집의 대표 값 간의 거리를 나타내는, 데이터 군집 관리 방법.
제11항에 있어서,
상기 데이터 군집들 각각은 임계 값과 연관되고,
상기 데이터 군집을 선정하는 단계는,
상기 데이터 군집들 중에서 상기 유사도가 임계 값보다 작은 데이터 군집들을 추출하는 단계; 및
상기 추출된 데이터 군집들 중에서 가장 작은 값의 유사도를 갖는 데이터 군집을 선정하는 단계를 포함하는, 데이터 군집 관리 방법.
제11항에 있어서,
상기 판단은 상기 입력 데이터의 대표 값과 상기 선정된 데이터 군집의 대표 값을 기반으로 수행되는, 데이터 군집 관리 방법.
제11항에 있어서,
상기 수행하는 단계는 상기 입력 데이터의 대표 값 및 상기 입력 데이터의 메타데이터를 이용하여 상기 새로운 데이터 군집을 생성하거나 상기 선정된 데이터 군집을 업데이트하는 단계를 포함하는, 데이터 군집 관리 방법.
제11항에 있어서,
상기 수행하는 단계는,
상기 판단 결과 상기 입력 데이터가 상기 선정된 데이터 군집에 포함되지 않을 경우 새로운 데이터 군집을 생성하는 단계; 및
상기 선정된 데이터 군집과 연관된 임계 값에 기반하여 상기 새로운 데이터 군집의 임계 값을 설정하는 단계를 포함하는, 데이터 군집 관리 방법.
제16항에 있어서,
상기 설정하는 단계는 상기 새로운 데이터 군집의 임계 값을 상기 선정된 데이터 군집의 임계 값보다 작게 설정하는 단계를 포함하는, 데이터 군집 관리 방법.
제11항에 있어서,
상기 데이터 군집들에 대한 수정, 삭제 또는 복원 또는 추가적인 데이터군집의 생성을 위한 사용자 입력을 수신하는 단계를 더 포함하는, 데이터 군집 관리 방법.
제18항에 있어서,
상기 데이터 군집들의 임계 값을 기준으로 상기 데이터 군집들을 디스플레이하는 단계를 더 포함하는, 데이터 군집 관리 방법.
제18항에 있어서,
상기 데이터 군집들 각각은 삭제 상태를 나타내는 식별자와 연관되며,
상기 데이터 군집 관리 방법은, 상기 사용자 입력에 따라 삭제 또는 복원을 위해 선택된 데이터 군집의 상기 식별자를 변경하는 단계를 더 포함하는, 데이터 군집 관리 방법.