KR20030026575A

KR20030026575A - 고객 관리 기능을 갖는 데이터 분석 시스템 및 그 방법

Info

Publication number: KR20030026575A
Application number: KR1020010059620A
Authority: KR
Inventors: 최경현
Original assignee: (주)프리즘엠아이텍
Priority date: 2001-09-26
Filing date: 2001-09-26
Publication date: 2003-04-03
Also published as: KR100451940B1

Abstract

본 발명은 사용자가 몇가지 조건을 입력하여 주면 이를 근거로 기업 경영의 마케팅 대상이 되는 고객들의 정보를 K 프로토타입을 이용하여 고객 특성에 따라 분석하고, 그 결과를 사용자가 쉽게 인식할 수 있는 그래프 등으로 표시 출력해 주는 고객 관리 기능을 갖는 데이터 분석 시스템 및 그 방법에 관한 것이다.

본 발명은 사용자가 입력한 분석 대상이 되는 데이터 베이스와 요소 데이터를 근거로 K 프로토타입을 이용하여 데이터 베이스 내의 내용을 세분화하고 군집화하여 쉽게 구별할 수 있게 시각적으로 표시 출력하는 데이터 분석 시스템의 고객 관리 방법에 있어서, 데이터 분석에 필요한 데이터를 입력하기 위한 데이터 입력 폼을 출력하는 단계, 상기 데이터 입력 폼을 통해 입력된 데이터를 임시 저장하는 단계, 상기 입력된 데이터 베이스내의 데이터를 표준화시키는 단계, 상기 입력된 데이터를 근거로 K 프로토타입 알고리즘을 이용하여 세분화하고 군집화하는 단계, 상기 군집화된 결과를 시각적으로 출력하는 단계를 포함하는 것을 특징으로 하는 데이터 분석 시스템의 고객 관리 방법을 제공한다.

본 발명에 의하면, 사용자의 간단한 입력 조작만으로도 고객 데이터 베이스의 고객 특성을 분석하여 그 결과를 쉽게 알아볼 수 있도록 표시 출력하게 됨으로써, 사용자는 이를 근거로 판매 전략을 용이하게 수립할 수 있는 효과가 있다.

Description

고객 관리 기능을 갖는 데이터 분석 시스템 및 그 방법{Data Analysis System and Method capable of Managing Customer Relations}

본 발명은 고객 관리 기능을 갖는 데이터 분석 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 사용자가 몇가지 조건을 입력하여 주면 이를 근거로 기업 경영의 마케팅 대상이 되는 고객들의 정보를 K 프로토타입을 이용하여 고객 특성에 따라 분석하고, 그 결과를 사용자가 쉽게 인식할 수 있는 그래프 등으로 표시 출력해 주는 고객 관리 기능을 갖는 데이터 분석 시스템 및 그 방법에 관한 것이다.

최근, 기업 경영 환경이 공급자 중심에서 수요자 중심으로 변화되면서, 소비자들의 다양한 욕구를 개인별로 얼마나 적절히 충족시켜 줄 수 있는가가 기업 경영의 성패를 좌우하게 되었다.

기업 경영의 의사 결정과 마케팅 활동을 위해 대상 고객의 신상 정보나 구매 및 마케팅 관련 정보를 수집하고 축적하는 일은 매우 중요하다. 고객 개개인의 성향이나 욕구에 관한 정보는 거래 내역이나, 고객 불만 등의 데이터를 분석하거나 설문조사 등을 통하여 수집할 수 있고, 이의 적절한 분석 및 해석을 통해 의사 결정에 유용한 정보를 도출할 수 있다.

경영 의사 결정을 위하여는 다량의 데이터 처리와 변환을 수반하는 복잡한 분석이 필요하게 되며, 통계학적인 지식 기반과 고가의 통계 분석 소프트웨어 없이는 수행하기가 곤란하다는 문제가 있다.

최근에는 전사적인 차원에서 데이터웨어 하우스(Dataware House)를 설립하거나 통합적 데이터 마이닝(Data Mining) 환경을 구축하는 경향이 있고, 이런 맥락에서 데이터 분석 환경 구축을 위한 회사의 비용은 더욱 높아지게 되었다. 이에 일반적인 기업의 마케터들은 자신의 고객 정보 분석과 잠재 고객 예측 등의 고난도 분석을 고가의 데이터 마이닝 시스템(Data Mining System) 구축 없이도 마치 엑셀(Excel) 등의 오피스(Office) 프로그램을 사용하듯이 쉽고 저렴하게 사용할 수 있는 새로운 데이터 분석 솔루션의 필요성을 인식하게 되었다.

전술한 필요성에 의해 데이터 마이닝 툴(Data Mining Tool)이라는 명칭으로 시장에 출시된 제품은 전 세계적으로 100여개가 넘고 그 가격 또한 천차만별이다. 그 중 잘 알려진 제품은 SAS(Statistical Analysis System)사의 "Enterprise Miner"와 SPSS(Statistical Package for the Social Sciences)사의 "Clementine", IBM사의 "Intelligent Miner" 및 오라클사의 "Darwin" 등이 있다.

상기 솔루션들은 종류마다 조금씩 다르지만 통계 분석 기법을 근간으로 하여 데이터베이스와의 연결 기능이나 분석 결과 도출 기능, 필터링 및 데이터 변환 기능, 매크로 기능 등을 제공해 주고 있지만, 다음과 같은 문제점들을 가지고 있다.

첫째, 전문 통계 분석가의 도움이 없이는 사용이 곤란하다는 것이다. 데이터 분석 자체가 통계학에 기반을 두고 있으므로, 통계학적인 배경이 없는 일반 마케터나 분석가가 접근하기에는 무리가 있으며, 전문가나 외부 컨설턴트의 도움이 절대적으로 필요하다는 것이다. 인터페이스적인 측면에서도 안내자 등이 없어 사용자가 데이터 상태 및 분석 과정 프로세스 등에 대하여 사전 지식이 없이는 진행하기가 곤란하다는 문제점이 있다.

둘째, 실제 비지니스 중심이 아닌 분석 툴로서의 기능에만 촛점을 두고 있다는 것이다. 툴이 제공하는 분석 과정 및 분석 결과를 사용자가 해석하여 자신의 문제에 적용하여야 하기 때문에 구체적인 비즈니스 문제에 적용하는데 부족한 면이 있다. 사용자의 비즈니스 이슈(Business Issue)에 맞추어 그 이슈를 해결하는데 적당한 분석 모형 및 알고리즘을 선정하기가 쉽지 않으며, 분석 모형 및 알고리즘의 선정 및 최적화에 있어서 많은 시행착오가 필요하다는 문제점이 있다.

셋째, 가격 및 구축 기간의 문제이다. 일반적인 데이터 마이닝 툴은 그 규모가 매우 방대하여 구입 비용만 억대에 달하는 고가이며, 데이터 마이닝 툴 자체의 구매 가격 이외에도 컨설팅 비용을 추가로 지불해야 하고, 툴을 구축할 엔지니어와 컨설턴트가 필요하여 상당 기간동안 이들의 지원을 받아야 하는 문제점이 있다.

마지막으로, 외부의 데이터 베이스나 데이터 파일과의 연결 과정이 까다로울 뿐만 아니라 사용자가 데이터를 직접 입력하는 데이터 로딩 과정이 번거롭고 세부 과정이 많아 컴퓨터에 대한 전문 지식이 없는 분석가가 이용하기에는 다소 곤란하다는 것과, 데이터 변환 및 표준화 과정이 사용자의 판단과 통찰력을 필요로 하는 복잡한 기능들을 조합하여 수행되어야 하므로 사용자에 따라 데이터 분석의 질이 천차만별이어서 분석 결과의 신뢰성을 보장해 주지 못한다는 문제점이 있다.

전술한 문제점을 해결하기 위해 본 발명은, 고객의 정보가 저장되어 있는 데이터 베이스의 내용을 사용자가 입력한 조건을 근거로 K 프로토타입을 이용하여 분석하고 그 결과를 표시 출력해 주는 고객 관리 기능을 갖는 데이터 분석 시스템을 제공함에 그 목적이 있다.

본 발명에 따른 또 다른 목적은 사용자가 몇가지 조건을 입력해 주면, 이를 근거로 기업 경영의 마케팅 대상이 되는 고객들의 정보를 K 프로토타입을 이용해 고객 특성에 따라 분석하고, 그 결과를 쉽게 구별할 수 있는 그래프 등으로 표시 출력해 주는 고객 관리 데이터 분석 방법을 제공함에 있다.

본 발명의 목적에 의하면, 고객의 정보가 저장되어 있는 데이터 베이스의 내용을 사용자가 입력한 조건을 근거로 K 프로토타입을 이용하여 분석하고 그 결과를 표시 출력해 주는 고객 관리 기능을 갖는 데이터 분석 시스템에 있어서, 데이터를 입력 또는 선택하기 위한 키입력부와, 데이터 입력을 위한 데이터 입력 폼을 제시하고 이를 통해 입력된 데이터를 중앙 처리 장치에 전달하는 데이터 입력 스레드, 입력된 데이터를 표준화시키기 위해 표준 데이터로 변환하는 기능을 담당하는 데이터 변환 스레드, 분석 대상이 되는 데이터 베이스내의 데이터들을 중앙 처리 장치에 매칭하는 기능을 담당하는 DB 매칭 스레드, K 프로토타입 알고리즘의 연산을 실행하는 알고리즘 스레드, 상기 알고리즘 스레드에 의해 연산된 결과를 도식화하는 기능을 담당하는 결과 분석 스레드, 상기 키입력부를 통해 입력된 데이터나 알고리즘의 연산 처리된 중간 값을 임시 저장하기 위한 데이터 저장부, 시스템의 동작 실행 현황이나 데이터 베이스의 분석된 결과를 가시적으로 출력하는 모니터, 상기 키입력부를 통해 입력된 데이터를 근거로 상기 데이터 입력 스레드나 상기 데이터 변환 스레드, 상기 알고리즘 스레드를 구동하여 상기 분석 대상이 되는 데이터 베이스의 내용을 읽어들여 분석하고, 그 분석 결과를 상기 모니터로 출력하는 중앙 처리 장치를 포함하는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템이 제공된다.

본 발명의 다른 목적에 의하면, 사용자가 입력한 분석 대상이 되는 데이터 베이스와 요소 데이터를 근거로 K 프로토타입을 이용하여 데이터 베이스 내의 내용을 세분화하고 군집화하여 쉽게 구별할 수 있게 시각적으로 표시 출력하는 고객 관리 데이터 분석 방법에 있어서, 데이터 분석에 필요한 데이터를 입력하기 위한 데이터 입력 폼을 출력하는 단계, 상기 데이터 입력 폼을 통해 입력된 데이터를 임시 저장하는 단계, 상기 입력된 데이터를 근거로 데이터 베이스내의 데이터를 표준화시키는 단계, 상기 입력된 데이터를 근거로 K 프로토타입 알고리즘을 이용하여 세분화하고 군집화하는 단계, 상기 군집화된 결과를 시각적으로 출력하는 단계를 포함하는 것을 특징으로 하는 고객 관리 데이터 분석 방법이 제공된다.

도 1은 본 발명의 실시예에 따른 고객 관리 기능을 갖는 데이터 분석 시스템의 구성을 개략적으로 나타낸 블럭 구성도,

도 2는 본 발명의 실시예에 따른 데이터 분석 시스템의 고객 관리 방법을 나타낸 순서도,

도 3은 데이터를 입력하기 위한 데이터 입력 폼을 나타낸 도면,

도 4는 중앙 처리 장치가 읽어들인 분석 대상이 되는 데이터 베이스의 내용을 나타낸 도면,

도 5a는 K 프로토타입을 이용해 분석한 결과를 막대 그래프로 출력한 도면,

도 5b는 K 프로토타입을 이용해 분석한 결과를 도넛 그래프로 출력한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

10 : 키입력부20 : 데이터 입력 스레드

21 : 데이터 베이스 입력란22 : 클러스터 입력란

23 : 속성 리스트 입력란24 : 독립 변수 입력란

25 : 독립 변수 선택 버튼26 : 종속 변수 입력란

27 : 종속 변수 선택 버튼30 : 데이터 변환 스레드

40 : DB 매칭 스레드50 : 알고리즘 스레드

60 : 결과 분석 스레드70 : 데이터 저장부

80 : 모니터90 : 중앙처리장치(CPU)

이하, 첨부한 도면을 참조하여 본 발명에 따른 바람직한 실시예를 설명한다.

먼저, 본 발명의 이해를 돕기 위해, 본 발명에 따른 고객 관리 기능을 갖는 데이터 분석 시스템의 개념을 개략적으로 설명하고, 본 발명에서 사용되는 용어에 대해 간단히 설명한다.

본 발명에 따른 고객 관리 기능을 갖는 데이터 분석 시스템은 솔루션 형태의 프로그램으로서, 사용자가 데이터 분석 시스템 프로그램을 실행하여 분석해야 할 대상이 되는 데이터 베이스의 화일명과, 그 데이터 베이스 내 요소 중 데이터 분석에 이용할 독립 변수와 종속 변수를 지정함과 더불어 클러스터 수를 임의로 설정하게 된다. 여기서, 클러스터 수는 사용자가 원하는 동질적인 고객 군의 갯수이고, 독립 변수는 고객의 직업이나 주소, 나이 등과 같이 데이터 베이스의 내용을 세분화하는 기준이 되는 속성을 나타내는 변수이며, 종속 변수는 독립 변수를 이용한 세분화를 통해 각 클러스터별로 더 알고 싶은 속성을 나타내는 변수이다. 예컨대, 고객의 연체료나 연체율 또는 구입 품목, 구입량을 나타낸다.

전술한 바와 같이 사용자가 입력한 데이터를 근거로 데이터 분석 시스템은 K 프로토타입(K-Prototype) 알고리즘을 이용하여 유사한 속성을 가지는 개체들을 분류하고 묶어서 그룹을 구성하고, 구성된 각 그룹별로 종속 변수, 독립 변수 요인별 비율을 통계 처리하여 그 결과를 화면상에 출력해 줌으로써, 사용자는 고객들의 물품 구입 성향이나 특성을 한눈에 파악할 수 있게 되는 것이다. 여기서, 상기 프로토타입이란 어떤 시스템에 대하여 특정 기능 등을 수행하기 위해 만든 알고리즘으로서, 본 발명에 따른 기능을 수행하는 알고리즘을 K 프로토타입이라 정의한다.

또한, 본 발명에 따른 데이터 분석 시스템은 각각의 스레드(Thread)를 통해 그 기능을 수행하게 되는데, 하나의 프로그램을 프로세스(Process)라고 볼 때 이 스레드는 하나의 프로그램 내에서의 실행 단위를 말한다. 즉, 한 프로세스 내에서 서로 독립적인 프로그램 카운터(Program Counter)를 갖고 있는 프로그램의 흐름을말한다. 따라서, 본 발명은 각 작업(Task)을 스레드로 표현하고, 이러한 스레드를 여러 개 둘 수 있도록 함으로써 멀티태스킹(Multitasking)이 가능하도록 하였다.

도 1은 본 발명의 실시예에 따른 고객 관리 기능을 갖는 데이터 분석 시스템의 구성을 개략적으로 나타낸 블럭 구성도이다.

도 1에서 참조 번호 10은 분석 대상이 되는 고객 관련 데이터를 담고 있는 데이터 베이스명을 선택 입력하거나, 클러스터의 수 또는 독립 및 종속 변수를 선택하기 위한 키입력부이고, 참조 번호 20은 데이터 베이스의 분석에 필요한 요소 데이터를 입력하기 위한 데이터 입력 폼(Input Form)을 제시하고 이를 통해 입력된 요소 데이터를 이후에 설명할 중앙 처리 장치(90)에 전달하는 데이터 입력 스레드, 참조 번호 30은 입력된 데이터를 표준화시키기 위해 표준 데이터로 변환하는 기능을 담당하는 데이터 변환 스레드, 참조 번호 40은 분석 대상이 되는 데이터 베이스 내의 개별 데이터들을 본 시스템에 적용할 수 있도록 매칭하는 기능을 담당하는 DB 매칭 스레드이다.

또한, 참조 번호 50은 데이터 형태에 따라 K 프로토타입 알고리즘의 연산을 실행하는 알고리즘 스레드로서, 수치형 데이터일 경우 유클리디안 거리 함수로, 범주형 데이터일 경우 클러스터의 프로토타입이 차지하는 비율로서 나타내되, 수치형 데이터에 대한 범주형 데이터의 가중치는 수치형 데이터에 대한 표준 편차의 1/2을 적용하게 된다.

도 1에서, 참조 번호 60은 알고리즘 스레드(50)에 의해 연산된 결과를 각 클러스터별로 각 속성별 요인의 비율이 높은 순위대로 선별해, 예컨대, 막대 그래프나 도넛 그래프 등으로 도식화하는 기능을 담당하는 결과 분석 스레드, 참조 번호 70은 키입력부(10)를 통해 선택 입력된 요소 데이터 또는 알고리즘의 연산 처리된 중간 값 등을 임시 저장하기 위한 데이터 저장부, 참조 번호 80은 시스템의 동작 실행 과정이나 데이터 베이스의 분석된 결과를 가시적으로 출력하는 모니터, 참조 번호 90은 분석 대상인 데이터 베이스에 포함되어 있는 데이터를 읽어들이고, 키입력부(10)를 통해 선택 입력된 요소 데이터를 근거로 데이터 입력 스레드(20)나 데이터 변환 스레드(30) 및 알고리즘 스레드(50)를 구동하여 데이터를 분석하고, 그 분석 결과를 모니터(80)로 출력 제어하는 중앙 처리 장치(CPU)이다.

이어, 전술한 바와 같이 구성된 고객 관리 기능을 갖는 데이터 분석 시스템의 동작과 관련하여 도 2a 및 도 2b에 도시된 순서도를 참조하여 본 발명에 따른 고객 관리 데이터 분석 방법에 대하여 설명한다.

사용자가 키입력부(10)에 구비된 키들을 이용하거나 마우스 버튼을 이용하여 시스템의 동작을 실행시키면(S2 단계), 키입력부(10)로부터 시스템 동작 실행에 관한 키입력을 인식한 중앙 처리 장치(90)는 데이터 입력 스레드(20)를 구동하여 도 3에 도시된 바와 같은 데이터 입력 양식을 모니터(80)로 출력시키게 된다(S4 단계).

도 3에 도시된 데이터 입력 양식은 분석 대상이 되는 데이터 베이스명이나 데이터 베이스의 화일명을 선택적으로 입력하는 데이터베이스 입력란(21)과, 클러스터 수를 입력하는 클러스터 입력란(22), 데이터베이스의 필드명들의 목록을 보여 주는 속성 리스트 입력란(23), 독립 변수의 목록을 보여 주는 독립 변수입력란(24), 속성 리스트 중에서 독립 변수의 요소로 설정하기 위한 독립 변수 선택 버튼(25), 종속 변수의 목록을 보여 주는 종속 변수 입력란(26), 속성 리스트 중 종속 변수의 요소를 설정하기 위한 종속 변수 선택 버튼(27) 등으로 구성된다.

사용자는 모니터(80)로 출력된 데이터 입력 양식을 확인하고, 키입력부(10)에 구비된 다수의 키들을 사용해 입력란에서 요구하는 데이터들을 입력하게 된다.

즉, 사용자는 데이터 베이스 입력란(21)을 통해 분석 대상이 되는 데이터베이스를 선택하거나 화일 형태, 예컨대, 액세스(Access)나 엑셀(Excel) 등으로 된 화일명을 선택하게 된다. 데이터베이스 입력란(21)을 통해 데이터 베이스나 화일이 선택 입력되면(S6 단계), 중앙 처리 장치(90)는 DB 매칭 스레드(40)를 구동하여 선택 입력한 데이터 베이스의 내용을 도 4에 제시한 바와 같이 읽어 들이고, 그 내용을 데이터 저장부(70)의 일정 주소 번지에 임시 저장해 둠과 더불어 속성 리스트 입력란(23)으로 데이터 베이스의 필드에 해당하는 속성 목록을 출력해 주게 된다(S8 단계).

상기 읽어들인 데이터 베이스나 화일의 데이터 내용 중 속성에 해당하는, 예컨대, 도 4에 도시된 데이터 베이스 내용의 경우, 컬럼(Column)명이나 필드(Field)명에 해당하는 직업, 주소, 나이 등을 속성 리스트 입력란(23)에 데이터 베이스 속성에 대한 목록으로 나타내 주게 된다.

이어, 사용자는 자신이 원하는 클러스터 갯수를 클러스터 입력란(22)을 통해 선택 입력하게 되고, 중앙 처리 장치(90)는 이 입력된 클러스터 갯수에 대한 데이터를 데이터 저장부(70)에 임시 저장한다. 또한, 사용자는 모니터(80)로 출력된 도3에 도시된 데이터 입력 양식에서, 속성 리스트 입력란(23)에 나타나 있는 목록 중에서 독립 변수로 이용할 목록을 지정하고, 독립 변수 선택 버튼(25)을 클릭하여 독립 변수 입력란(24)으로 이동 설정하게 된다. 마찬가지로, 속성 리스트 중 종속 변수로 이용할 목록을 지정하고, 종속 변수 선택 버튼(27)을 클릭하여 종속 변수 입력란(26)으로 이동 설정하게 된다.

분석 대상이 되는 데이터 베이스는 도 4에 도시된 바와 같이 속성에 해당하는 각 필드에 해당 데이터들이 배치되어 있는 것을 볼 수 있다. 속성에 해당하는 필드(Field)들은 데이터 베이스 설계시, 그 데이터 타입(Data Type)으로서 텍스트(Text)나 숫자, 날짜/시간 등이 설정되므로, 중앙 처리 장치(90)는 설정된 데이터 타입을 근거로 각 필드에 속한 데이터가 범주형 데이터인지 수치형 데이터인지를 인식하게 되는 것이다. 즉, 중앙 처리 장치(90)는 DB 매칭 스레드(40)를 구동하여 분석 대상이 되는 데이터 베이스의 내용을 읽어들일 때, 도 4에 도시된 필드 중 직업이나 주소, 구입 품목 등은 범주형 데이터로 인식하고, 나이나 구입량 필드에 속한 데이터는 수치형 데이터로 인식하게 되는 것이다.

전술한 과정에 의해서 데이터 베이스 이외의 다른 데이터, 즉, 클러스터 수나 독립 변수, 종속 변수 등의 데이터 입력이 완료되면(S10 단계), 중앙 처리 장치(90)는 상기 입력된 데이터들을 데이터 저장부(70)의 일정 주소 번지에 임시 저장해 두게 된다(S12 단계).

그리고, 중앙 처리 장치(90)는 데이터 변환 스레드(30)를 구동하여 데이터 베이스로부터 읽어들인 데이터 중 수치형 데이터를 0과 1 사이로 표준화시킨다(S14단계). 이 표준화는 각각의 데이터를 수치형 데이터 중 가장 큰 값으로 나누어 주면 가장 큰 값은 1이 되고 그보다 작은 데이터들은 0과 1 사이의 데이터로 변환되는 원리를 이용하여 달성된다. 이 표준화는 그 수치값이 예컨대, 10,000이나 100,000처럼 큰 값을 갖더라도 0과 1 사이의 상대적인 값으로 변환시켜 줌으로써 범주형 데이터와의 편차를 줄이게 된다.

이어, 중앙 처리 장치(90)는 데이터 입력 폼을 통해 입력된 데이터들을 근거로 클러스터 입력란(22)에 입력된 클러스터 갯수만큼 클러스터를 랜덤하게 설정하고, 각 클러스터마다 클러스터 내 중심이 되는 프로토타입을 임의로 설정하게 된다(S16 단계).

중앙 처리 장치(90)는 상기 설정된 각 클러스터마다 수치형 속성이 존재하는지를 판별하게 되는데(S18 단계), 검사한 클러스터에 수치형 속성이 존재하는 경우(S20 단계)에는 알고리즘 스레드(50)를 구동하여 수학식 1과 같은 K 프로토타입 알고리즘을 실행해 수치형 데이터를 유클리디안 거리 함수로 계산하게 된다(S22 단계).

상기 수학식 1에서, j는 독립 변수 또는 종속 변수, i는 클러스터, x는 수치형 데이터, q는 클러스터내 프로토타입, l은 클러스터 번호를 나타내며, r는 수치형을 나타내는 상징적 기호이다. 또한,는 i 번째 데이터의 j 번째 수치형 속성의 값을 나타내고,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입을 나타낸다. 따라서, 수학식 1에 의해 j 번째 수치형 속성의 i 번째 데이터와 l 번째 클러스터의 j 번째 프로토타입과의 거리 값을 구하게 된다.

상기 S20 단계에서, 상기 설정된 클러스터마다 수치형 속성이 존재하는지를 검사한 결과, 클러스터내 수치형 속성이 존재하지 않는 경우에는 데이터 베이스에서 읽어들인 모든 데이터를 각 클러스터마다 랜덤하게 배정하게 된다(S24 단계).

다음으로, 중앙 처리 장치(90)는 알고리즘 스레드(50)를 구동하고 수학식 2와 같이 프로토타입에 대해 범주형 데이터가 속하는 클러스터내에서 임의의 데이터가 차지하는 비율을 계산한다(S26 단계).

상기 수학식 2에서,는 i번째 데이터의 j번째 범주형 속성의 값을 나타내고,는 l번째 클러스터의 j번째 범주형 속성의 프로토타입을 나타내며, δ는 클러스터내 프로토타입이 차지하는 비율을 구하는 함수를 나타낸다. 또한,의 의미는가 l 클러스터내에서 j 번째 범주형 속성의 모든 요인들의 하나의 요소임을 나타낸다. 그리고, p는 l 클러스터내에서가 차지하는 비율을 나타내고,은 l 클러스터내 데이터의 갯수를 나타내며,는 범주형속성의 갯수를 나타낸다.

따라서, 상기 수학식 2가 의미하는 것은 임의의 데이터가 클러스터내에서 차지하는 비율은 전체(1)에서 프로토타입가 차지하는 비율을 빼면 구할수 있게 된다.

이어, 중앙 처리 장치(90)는 각 클러스터내 데이터들과 프로토타입의 동질값을 수학식 3과 같이 구하게 된다(S28 단계).

상기 수학식 3에서,는 i 번째 데이터의 j 번째 수치형 속성의 값을 나타내고,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입을 나타내며,은 l 번째 클러스터의 수치형 속성에 대한 범주형 속성의 가중치를 나타낸다.

그리고,는 i번째 데이터의 j번째 범주형 속성의 값을 나타내고,는 l번째 클러스터의 j번째 범주형 속성의 프로토타입을 나타내며, δ는 클러스터내 프로토타입이 차지하는 비율을 나타낸다.

상기은 수치형 데이터에 대한 범주형 데이터의 가중치를 나타내는 것으로서, 수치형 데이터에 대한 표준 편차의 1/2을 적용하여 얻게 된다.

즉, 수학식 3이 의미하는 것은 각 클러스터내 데이터들과 프로토타입의 동질값은 가중치가 적용된 범주형 값에 수치형 값을 더하여 얻는 것을 나타낸다.

중앙 처리 장치(90)는 상기 구한 값들을 근거로 수학식 4와 같은 세분화 알고리즘, 즉 K 프로토타입 알고리즘을 이용하여 유사한 속성을 가지는 개체들간의 군집화를 실행하게 된다(S30 단계).

수학식 4에서,는 i 번째 데이터의 j 번째 수치형 속성의 값을 나타내고,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입을 나타내며,은 l 번째 클러스터의 수치형 속성에 대한 범주형 속성의 가중치를 나타낸다.

그리고,는 i번째 데이터의 j번째 범주형 속성의 값을 나타내고,는 l번째 클러스터의 j번째 범주형 속성의 프로토타입을 나타내며, δ는 클러스터내 프로토타입이 차지하는 비율을 구하는 함수를 나타낸다.

또한,은 i 데이터가 l 클러스터에 속하는지의 여부를 나타내고,는 I 클러스터부터 k 클러스터까지의 클러스터 중 그 값이 최소인 것을 나타낸다. 즉, 수학식 4가 의미하는 것은 임의의 데이터에 대해 범주형 데이터와 수치형 데이터를 포함한 모든 데이터의 거리의 합을 각 클러스터별로 최소화하여 그 값이 가장 최소인 클러스터를 얻는다는 것이다.

중앙 처리 장치(90)는 임의의 데이터에 대해 상기 그 값이 가장 최소인 클러스터를 배정하고, 이러한 작업을 모든 데이터에 대해 실행하여 군집화를 이루게 된다.

상기 수학식 4의 알고리즘에 따라 클러스터내 유사한 속성을 가지는 개체들간의 군집화를 실행한 중앙 처리 장치(90)는, 설정된 모든 클러스터에 대해 K 프로토타입에 의한 군집화를 실행했는지를 판단하고(S32 단계), 아직 모든 클러스터에 대해 실행하지 않았다면 다음 클러스터를 대상으로 상기 S20 단계로 복귀하여 K 프로토타입에 의한 군집화를 실행하게 된다(S34 단계).

이후, 알고리즘 스레드(50)를 구동하여 각 클러스터마다 K 프로토타입에 의한 군집화를 실행한 중앙 처리 장치(90)는 그 결과를 결과 분석 스레드(60)를 구동하여 수학식 5와 같이 계산하여 모니터(80)로 그 결과를 표시 출력하는데, 수치형 속성일 경우 도 5a와 같이 막대 그래프로 표시 출력하고, 범주형 속성일 경우 도넛 그래프로 표시 출력하게 된다(S36 단계).

수학식 5에서, "클러스터i*독립변수j*요인k"는 클러스터 i에 속하며, 독립변수 j인 요인 k를 나타낸다.

결과 분석 스레드(60)는 모니터(80)로 출력된 군집화 결과를 수치형 속성일 경우, 막대 그래프를 이용하여 속성내의 각 요인별 클러스터에서의 비율과 전체에서의 비율을 사용자가 쉽게 비교할 수 있도록 구별되는 색으로 표시하며, 범주형 속성일 경우 도넛 그래프를 이용하여 속성내의 각 요인별 클러스터에서의 비율은 안쪽에, 전체에서의 비율은 바깥쪽에 표시함으로써 사용자가 쉽게 알아볼 수 있도록 한다.

즉, 상기 실시예에 의하면 사용자가 분석해야 할 대상이 되는 데이터 베이스와, 데이터 분석에 이용할만한 독립 변수, 종속 변수 및 클러스터 수를 입력하게 되면, 분석 시스템은 사용자가 입력한 데이터를 근거로 K 프로토타입(K-Prototype) 알고리즘을 이용하여 유사한 속성을 가지는 개체들간의 군집화를 이루고, 각 그룹별로 종속 변수, 독립 변수 요인별 비율을 통계 처리하여 그 결과를 화면상에 출력해 주게 된다.

본 발명은 상기한 실시예에 한정되지 않고, 본 발명의 기술적 요지를 벗어나지 않는 범위내에서 다양하게 수정 및 변경 실시할 수 있음은 이 기술 분야에서 통상의 기술을 가진 자라면 누구나 이해할 수 있을 것이다.

전술한 바와 같이 본 발명에 의하면, 사용자의 간단한 입력 조작만으로도 고객 데이터 베이스의 고객 특성을 분석하여 그 결과를 쉽게 알아볼 수 있도록 표시 출력하게 됨으로써, 사용자는 이를 근거로 용이하게 판매 전략을 수립할 수 있는 효과가 있다.

Claims

사용자가 입력한 분석 대상이 되는 데이터베이스와 요소 데이터를 근거로 K 프로토타입 알고리즘을 이용하여 데이터베이스 내의 내용을 세분화하고 군집화하여 쉽게 구별할 수 있게 시각적으로 표시 출력하는 고객 관리 데이터 분석 방법에 있어서,

(a) 데이터 분석에 필요한 로우(Raw) 데이터를 입력받기 위한 데이터 입력 폼을 출력하는 단계,

(b) 상기 데이터 입력 폼을 통해 입력된 상기 로우 데이터를 임시 저장하는 단계,

(c) 상기 (b)단계에서 임시 저장된 상기 로우 데이터를 근거로 데이터 베이스내에 있는 데이터를 표준화하여 표준화된 데이터를 생성하는 단계,

(d) 상기 표준화된 데이터를 근거로 K 프로토타입 알고리즘을 이용하여 데이터 베이스내에 있는 데이터를 세분화하고 군집화하여 군집화된 데이터를 생성하는 단계,

(e) 상기 군집화된 데이터를 도표를 이용하여 시각적으로 출력하는 단계

를 포함하는 것을 특징으로 하는 고객 관리 데이터 분석 방법.
제 1 항에 있어서,

상기 데이터 분석에 필요한 데이터는 데이터베이스와, 클러스터 수, 독립 변수, 종속 변수인 것을 특징으로 하는 고객 관리 데이터 분석 방법.
제 1 항에 있어서,

상기 입력된 데이터 베이스내의 데이터 표준화는 수치형 데이터를 0과 1사이의 데이터로 변환하는 것을 특징으로 하는 고객 관리 데이터 분석 방법.
제 1 항에 있어서,

상기 K 프로토타입 알고리즘을 이용하여 세분화하고 군집화하는 것은 수치형 데이터의 경우 유클리디안 거리 함수로 계산하고, 범주형 데이터의 경우 클러스터내 프로토타입이 차지하는 비율로 계산하는 것을 특징으로 하는 고객 관리 데이터 분석 방법.
제 1 항에 있어서,

상기 K 프로토타입 알고리즘은

이고, 여기서,는 i 번째 데이터의 j 번째 수치형 속성의 값,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입,은 l 번째 클러스터의 수치형 속성에 대한 범주형 속성의 가중치,는 i번째 데이터의 j번째 범주형 속성의 값,는 l번째 클러스터의 j번째 범주형 속성의 프로토타입, δ는 클러스터내 프로토타입이 차지하는 비율을 구하는 함수,은 i 데이터가 l 클러스터에 속하는지의 여부,는 I 클러스터부터 k 클러스터까지의 클러스터 중 그 값이 최소인 것을 나타내며, 상기 K 프로토타입이 의미하는 것은 임의의 데이터에 대해 범주형 데이터와 수치형 데이터를 포함한 모든 데이터의 거리의 합을 각 클러스터별로 최소화하여 그 값이 가장 최소인 클러스터를 얻어,에 대한 클러스터로 정하는 것을 특징으로 하는 데이터 분석 시스템의 고객 관리 방법.
제 4 항에 있어서,

상기 유클리디안 거리 함수는,

이고, 여기서, j는 독립 변수 또는 종속 변수, i는 클러스터, x는 수치형 데이터, q는 클러스터내 프로토타입, l은 클러스터 번호, r은 수치형을 나타내는 상징적 기호,는 i 번째 데이터의 j 번째 수치형 속성의 값,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입을 나타내며, 그 의미는 j 번째 수치형 속성의 i 번째 데이터와 l 번째 클러스터의 j 번째 프로토타입과의 거리 값을 구하는 것을 특징으로 하는 데이터 분석 시스템의 고객 관리 방법.
제 4 항에 있어서,

상기 클러스터내 프로토타입이 차지하는 비율은

이고, 여기서,는 i 번째 데이터의 j 번째 수치형 속성의 값,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입,은 l 번째 클러스터의 수치형 속성에 대한 범주형 속성의 가중치,는 i번째 데이터의 j번째 범주형 속성의 값,는 l번째 클러스터의 j번째 범주형 속성의 프로토타입, δ는 클러스터내 프로토타입이 차지하는 비율을 구하는 함수,은 수치형 데이터에 대한 범주형 데이터의 가중치를 나타내며, 상기 가중치는 수치형 데이터에 대한 표준 편차의 1/2을 적용하고, 상기 수학식이 의미하는 것은 각 클러스터내 데이터들과 프로토타입의 동질값은 가중치가 적용된 범주형 값에 수치형 값을 더하여 얻는 것을 나타내는 것을 특징으로 하는 데이터 분석 시스템의 고객 관리 방법.
고객의 정보가 저장되어 있는 데이터 베이스의 내용을 사용자가 입력한 조건을 근거로 K 프로토타입을 이용하여 분석하여 그 결과를 표시 출력해 주는 고객 관리 기능을 갖는 데이터 분석 시스템에 있어서,

데이터를 입력 또는 선택하기 위한 키입력부와,

데이터 입력을 위한 데이터 입력 폼을 제시하고 이를 통해 입력된 입력 데이터를 중앙 처리 장치에 전달하는 데이터 입력 스레드,

상기 데이터 베이스내에 있는 데이터를 표준화된 데이터로 변환하는 기능을 담당하는 데이터 변환 스레드,

분석 대상이 되는 데이터 베이스내의 데이터들을 상기 중앙 처리 장치에 매칭하는 기능을 담당하는 DB 매칭 스레드,

상기 입력 데이터를 근거로 표준화된 데이터에 대해 K 프로토타입 알고리즘을 실행하는 알고리즘 스레드,

상기 알고리즘 스레드에 의해 연산된 결과를 도표화하는 기능을 담당하는 결과 분석 스레드,

상기 키입력부를 통해 입력된 데이터나 알고리즘의 연산 처리된 중간 값을 임시 저장하기 위한 데이터 저장부,

시스템의 동작 실행 현황이나 데이터베이스의 분석된 결과를 가시적으로 출력하는 모니터,

상기 키입력부를 통해 입력된 데이터를 근거로 상기 데이터 입력 스레드나 상기 데이터 변환 스레드, 상기 알고리즘 스레드를 구동하여 상기 분석 대상이 되는 데이터베이스의 내용을 읽어들여 분석하고, 그 분석 결과를 상기 모니터로 출력하도록 제어하는 중앙 처리 장치

를 포함하는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템.
제 8 항에 있어서,

상기 알고리즘 스레드는 연산의 대상이 수치형 데이터일 경우 유클리디안 거리 함수로 계산하고, 범주형 데이터일 경우 클러스터의 프로토타입이 차지하는 비율로서 계산하되, 수치형 데이터에 대한 범주형 데이터의 가중치는 수치형 데이터에 대한 표준 편차의 1/2을 적용하는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템.
제 8 항에 있어서,

상기 데이터 입력 스레드가 출력하는 데이터 입력 폼은 데이터 베이스 입력란과, 클러스터 입력란, 독립 변수 입력란, 종속 변수 입력란, 속성 리스트 입력란, 독립 변수 선택 버튼, 종속 변수 선택 버튼을 포함하는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템.
제 8 항에 있어서,

상기 데이터 변환 스레드는 데이터 베이스로부터 읽어들인 데이터 중 수치형 데이터를 0과 1 사이로 표준화시키는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템.
제 8 항에 있어서,

상기 결과 분석 스레드는 분석 결과가 수치형일 경우 막대 그래프로 표시 출력하고, 범주형일 경우 도우넛 그래프로 표시 출력하는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템.
제 8 항에 있어서,

상기 알고리즘 스레드는 수치형 데이터인 경우 유클리디안 거리 함수로 계산하고, 범주형 데이터인 경우 클러스터내 프로토타입이 차지하는 비율로 계산해

을 계산하고, 여기서,는 i 번째 데이터의 j 번째 수치형 속성의 값,는 l 번째 클러스터의 j 번째 수치형 속성의 프로토타입,은 l 번째 클러스터의 수치형 속성에 대한 범주형 속성의 가중치,는 i번째 데이터의 j번째 범주형 속성의 값,는 l번째 클러스터의 j번째 범주형 속성의 프로토타입, δ는 클러스터내 프로토타입이 차지하는 비율을 구하는 함수,은 i 데이터가 l 클러스터에 속하는지의 여부,는 I 클러스터부터 k 클러스터까지의 클러스터 중 그 값이 최소인 것을 나타내며, 상기 K 프로토타입이 의미하는 것은 임의의 데이터에 대해 범주형 데이터와 수치형 데이터를 포함한 모든 데이터의 거리의 합을 각 클러스터별로 최소화하여 그 값이 가장 최소인 클러스터를 얻어,에 대한 클러스터로 정하는 것을 특징으로 하는 고객 관리 기능을 갖는 데이터 분석 시스템.