KR101937494B1 - 알고리즘 저장장치를 포함하는 클러스터링 장치 - Google Patents
알고리즘 저장장치를 포함하는 클러스터링 장치 Download PDFInfo
- Publication number
- KR101937494B1 KR101937494B1 KR1020130150754A KR20130150754A KR101937494B1 KR 101937494 B1 KR101937494 B1 KR 101937494B1 KR 1020130150754 A KR1020130150754 A KR 1020130150754A KR 20130150754 A KR20130150754 A KR 20130150754A KR 101937494 B1 KR101937494 B1 KR 101937494B1
- Authority
- KR
- South Korea
- Prior art keywords
- equation
- algorithm
- data
- delete delete
- clustering
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
본 발명의 실시예에 따른 알고리즘 저장 장치는 케이 민 알고리즘을 저장하는 알고리즘 저장부, 데이터를 상수로 저장하는 상수 저장부, 및 상수를 포함하는 수학식, 코사인 방정식 및 목적 함수를 저장하는 수학식 저장부를 포함한다.
Description
본 발명은 알고리즘 저장장치를 포함하는 클러스터링 장치에 관한 것 이다.
최근 데이터 마이닝(Data mining)은 생물, 지질, 화학 분야 등 다양한 분야에서 연구되고 있다. 수집된 데이터는 큰 크기 및 많은 차원(dimensions)을 가지고 있기 때문에, 데이터 클러스터링(data clustering)하는데는 오랜 시간이 걸린다.
따라서 최근에는 빠른 시간에 데이터 클러스터링(data clustering)하는 장치 및 방법이 요구되고 있는 실정이다.
본 발명이 해결하고자 하는 과제는 빠른 시간에 데이터 클러스터링 알고리즘하는 장치를 제공하는 것이다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
본 발명의 실시예에 따른 클러스터링 장치는 알고리즘 저장 장치; 및 상기 알고리즘 저장 장치에 저장된 케이 민 알고리즘, 수학식, 코사인 방정식 또는 목적 함수에 기초하여 데이터를 클러스터링 하는 제어부를 포함하고, 상기 알고리즘 저장 장치는 상기 케이 민 알고리즘을 저장하는 알고리즘 저장부; 데이터를 상수로 저장하는 상수 저장부; 및 상기 상수를 포함하는 수학식, 상기 코사인 방정식 및 상기 목적 함수를 저장하는 수학식 저장부를 포함하고, 상기 수학식은 수식 8을 포함하고, 상기 수식 8은 이며, 여기서, Φ1, λ1와 Φ2, λ2는 지리적 위도와 두 점 x와 M의 경도를 나타내고, 상기 목적 함수는, 케이 민 알고리즘에서 센터로이드의 초기 랜덤 셋으로부터의 시작으로 로컬 클러스터의 최소를 발견하는 것을 목표로 하는 것일 수 있다.
상기 수학식은 수식 1 및 수식 2을 포함하고
상기 수식 1은 , 여기서, Y는 원에서의 분산이고, Y의 셋(SET)은 Y={y1, y2,...,yn}일 때 는 센터로이드이며, 상기 수식 2는 , 여기서, xi가 에서 X의 셋(SET)은 X={x1, x2,...,xn}이고, E는 유클리드 거리일 수 있다.
상기 수학식은 수식 5 및 수식 6을 포함하고, 상기 수식 5는 이고, 각각의 데이터 포인트 xi를 위한 클러스터 선택은 상기 수식 5를 따르며, 상기 수식 6은 이고, 새로운 센터로이드의 측정은 상기 수식 6을 따르는 것이며, D는 유클리드 거리의 제곱일 수 있다.
삭제
본 발명의 실시예에 따르면, 3차원 데이터를 빠르고 클러스터링 할 수 있다. 또한 본 발명의 실시예에 따르면, 구체 표면의 데이터를 분산할 수 있는 클러스터링 장치를 제공한다.
도 1은 본 발명의 실시예에 따른 데이터 클러스터링 장치에 관한 블록도이다.
도 2는 본 발명의 실시예에 따른 시간 결과를 나타낸 돈이다.
도 3 내지 도 5는 본 발명의 실시예에 따른 16클러스터를 찾기 위한 케이 민 알고리즘에 관한 것이다.
도 2는 본 발명의 실시예에 따른 시간 결과를 나타낸 돈이다.
도 3 내지 도 5는 본 발명의 실시예에 따른 16클러스터를 찾기 위한 케이 민 알고리즘에 관한 것이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이제 본 발명의 실시 예에 따른 데이터 클러스터링 장치 및 방법에 대하여 도면을 참고로 하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 데이터 클러스터링 장치에 관한 블록도이다.
본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 저장부(200), 제어부(300) 및 출력부(400)을 포함한다.
저장부(200)에는 데이터를 클러스터링 하기 위한 알고리즘이 저장된다. 또한 저장부(200)에는 데이터를 클러스터링 하기 위한 프로그램이 저장될 수도 있다. 또한 저장부(200)에는 데이터 클러스터링 장치(100)를 동작시키기 위한 알고리즘 또는 프로그램이 저장될 수 도 있다.
본 발명의 실시예에 따른 저장부(200)는 케이 민 알고르즘이 저장된 알고리즘 저장부, 각 수학식, 코사인 방정식 및 목적 함수를 저장하는 수학식 저장부, 지리적 위도(the geographical latitude), 경도(longitude) 또는 각종 데이터를 상수로 저장하는 상수 저장부를 포함할 수 도 있다.
제어부(300)는 저장부(200)에 저장된 알고리즘 또는 프로그램을 이용하여 데이터 클러스터링 장치(100)를 동작시킨다. 또한 제어부(300)는 데이터 클러스터링 장치(100)의 전반적인 동작을 제어한다.
출력부(400)는 제어부(300)의 제어 결과를 출력한다. 출력부(400)가 출력 결과를 출력함에 있어서 별도의 디스플레이부(미도시)를 이용할 수도 있다.
종래의 클러스터링은 K-Means 알고리즘에 기초하여, 클러스터(cluster)를 생성하였다.
본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 구 코디네이터(sphere coordinator)로 데이터를 전송한다. 또한 클러스터링 장치(100)는 구 표면(sphere surface)과 같이 관측 분산(observations distribute)된 3-차원(3-dimensions) 데이터를 구 코디네이터에 전송함으로써, 데이터를 클러스터링 할 수 있다.
구 코디네이터(sphere coordinator)에서 관측은 및 의 두가지 각도로 지정된다. 또한 구 코디네이터는 데이터를 클러스터링 하기 위해 목적 함수(objective function)와 케이 민 알고리즘(K-mean algorithim)의 조합의 최적화로서 대 원 방정식(great circle distance formula)를 따른다.
본 발명의 실시예에 따른 데이터 클러스터링 장치는 원 라인(circle line)에서 포인트 분산(points distribute)의 중심을 찾을 수 있다.
본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 세 개로 지정된 포인트들의 위치의 삼차원 공간 위한 코디네이트 시스템(coordinate system)이다
세 개로 지정된 포인트는 고정된 원점(origin)에서부터 포인트(point)까지 반경 거리, 고정된 천정(zenith) 방향에서부터 측정된 극각(polar angle) 그리고 지나고 그것과 직교하는 천정(zenith)로부터 평면위에 고정된 참조 방향(reference direction)부터 측정된 기준면(reference plane)에 미치는 정사영(orthogonal projection)의 방위각(azimuth angle)일 수 있다.
대 원 거리(Great-circle distance) 또는 오어서드라믹 거리 (orthodromic distance)는 구 표면의 두 포인트를 구 표면을 따라 측정했을 때 가장 짧은 거리이다.
또한 3 차원 데이터(3-dimensions data)가 있는 동일한 지점으로 관측 유클리드 거리(Euclidean distance)가 거의 동일하다. 그래서 관찰 분산(observations distribute)는 구 표면에 있는 것 같다.
Y를 원에서의 분산(distribute on circle)이라고 하면, yi가 에서 Y의 셋(SET)은 Y={y1, y2,...,yn}일 때, 센터로이드(centroid) 는 아래 수식 1을 따른다.
[수식1]
[수식2]
[수식3]
자바 수학 라이브러리(Java Math Library)에서 싸인(Sine) 또는 코사인(Cosine) 함수(function)사용으로, 컴퓨터가 정확하게 결과를 얻기 위해서는 수많은 리소스(resources)를 소요하여야 한다.
종래의 케이 민 알고리즘(K-means algorithm)을 이용하는 방법은 클러스터(cluster)의 수만큼의 K를 사용하여, 클러스터의 센틀로이드(centroid) 데이터를 특성화하고, 거리 측정을 위해 유클리드 거리(Euclidean distance)를 사용한다.
주어진 데이터 지점들(Given a data points) 셋이 이고, 케이 민 알고리즘은 데이터 의 케이 클러스터(k-clusters of data)를 만드는 것을 목표로 하고, 의 센터로이드가 로 표시된다면, 수식 4의 목적함수(objective function)를 갖는다.
[수식 4]
수식 4의 목적함수는 각 로컬 클러스터에서 최소화(minimized in each local cluster)된다.
이 알고리즘은 센터로이드(centroids)의 초기 랜덤 셋(initial random set)으로부터의 시작으로 로컬 클러스터(local cluster minimum)의 최소를 발견한다. 그리고 반복적으로 두 단계가 각 데이터 포인트의 클러스터를 선택하고 해당 후보자에게 새로운 센터로이드 기반(base)을 추정 반복하여 목적함수(objective function)를 개선한다.
각각의 데이터 포인트 xi를 위한 클러스터 선택은 수식 5를 따른다.
[수식 5]
새로운 센터로이드의 측정은 수식 6을 따른다.
[수식 6]
알고리즘의 센터로이드 단계의 측정에서는, 최적화(optimizatio) 문제가 있다. 그리고 종래의 케이 민스 알고리즘은 D를 사용한다. 여기서 D는 유클리드 거리의 제곱일 수 있다.
[수식 7]
수식 7을 참조하면, 본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 구형(spherical) 데이터를 활용하여, 데이터 포인트의 차원을 제거하고, 거리 측정을 위한 빠른 코사인 방정식(fast cosine formula )을 적용할 수 있다.
데이터 클러스터링 장치(100)는 , 및 , 인 지리적 위도(the geographical latitude) 그리고 두 점 x와 M의 경도(longitude) 그리고 완전이 다른 , 를 아래의 수식 8 및 수식 9에 적용한다.
[수식 8]
[수식 9]
데이터 클러스터링 장치(100)는 위 수식들에 기초하여 거리 측정에 'r'을 제거할 수 있다. 그 결과 수식 10이 나온다
[수식 10]
빠른 코사인 방정식의 조합(14x 빠름 또는 18x 빠름)으로 데이터 클러스터링 장치(100)는 거리 계산에 소비 시간을 감소할 수 있다.
본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 구형 데이터(spherical data)를 위한 케이 민 알고리즘을 사용한다.
또한 본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 위도와 경도의 이 차원으로, 삼 차원 구형 데이터(three-dimension spherical data)를 구형 코디네이터(spherical coordinator)로 전환하며 시작한다.
또한 데이터 클러스터링 장치(100)는 클러스터의 새로운 데이터 공간(cluster new data space)을 위해 케이 민스 알고리즘을 사용한다.
또한 데이터 클러스터링 장치(100)는 원 방정식(circle formula)에서 새로운 센터로이드(new centroid)를 측정하기 위해 센터로이드 포인트(centroid of point)를 사용한다.
다음은 도 2 내지 도 5를 참조하여 본 발명의 실시예에 따른 효과를 설명한다.
도 2는 본 발명의 실시예에 따른 시간 결과를 나타낸 돈이다.
도 2는 32개의 클러스터(Cluster)에서의 3D데이터를 예를 들고있다.
도 3 내지 도 5는 본 발명의 실시예에 따른 16클러스터를 찾기 위한 케이 민 알고리즘에 관한 것이다.
도 3 내지 도 5에서는 구체 표면에 244859 점이 무작위로 배포된 3D 데이터를 예를 들고 있다.
데이터 수집의 확대와 함께, 데이터가 커질수록 많은 차원을 가지고 있다. 종래에는 데이터를 줄이는 방법을 제안했다. 그러나, 본 발명의 실시예에 따른 데이터 클러스터링 장치(100)는 알고리즘 계산을 줄이기 위하여 2D로 3D의 데이터 사이즈를 줄일 수 있도록 한다.
데이터 클러스터링 장치(100)는 원 라인(Circle line)에서 포인트 분산(point distribute)의 중심을 찾는다. 그리고 데이터 클러스터링 장치(100)는 클러스터링 알고리즘의 거리 측정을 위해 대 원 거리(Great circle distance calculation)를 계산함 있어 빠른 코사인 방정식(fast cosine formula)을 적용한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100: 데이터 클러스터링 장치 200: 저장부
300: 제어부 400: 출력부
300: 제어부 400: 출력부
Claims (18)
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 알고리즘 저장 장치; 및
상기 알고리즘 저장 장치에 저장된 케이 민 알고리즘, 수학식, 코사인 방정식 또는 목적 함수에 기초하여 데이터를 클러스터링 하는 제어부를 포함하고
상기 알고리즘 저장 장치는
상기 케이 민 알고리즘을 저장하는 알고리즘 저장부;
데이터를 상수로 저장하는 상수 저장부; 및
상기 상수를 포함하는 수학식, 상기 코사인 방정식 및 상기 목적 함수를 저장하는 수학식 저장부를 포함하고,
상기 수학식은 수식 8을 포함하고,
상기 수식 8은
이며,
여기서, Φ1, λ1와 Φ2, λ2는 지리적 위도와 두 점 x와 M의 경도를 나타내고,
상기 목적 함수는, 케이 민 알고리즘에서 센터로이드의 초기 랜덤 셋으로부터의 시작으로 로컬 클러스터의 최소를 발견하는 것을 목표로 하는 것인 클러스터링 장치.
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130150754A KR101937494B1 (ko) | 2013-12-05 | 2013-12-05 | 알고리즘 저장장치를 포함하는 클러스터링 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130150754A KR101937494B1 (ko) | 2013-12-05 | 2013-12-05 | 알고리즘 저장장치를 포함하는 클러스터링 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150065433A KR20150065433A (ko) | 2015-06-15 |
KR101937494B1 true KR101937494B1 (ko) | 2019-01-10 |
Family
ID=53504349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130150754A KR101937494B1 (ko) | 2013-12-05 | 2013-12-05 | 알고리즘 저장장치를 포함하는 클러스터링 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101937494B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101871871B1 (ko) | 2016-12-14 | 2018-06-28 | 가천대학교 산학협력단 | G-optics를 이용한 데이터 클러스터링 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013218636A (ja) | 2012-04-12 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング処理装置、クラスタリング処理方法、及びプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100124532A (ko) * | 2009-05-19 | 2010-11-29 | 삼성전자주식회사 | 데이터 처리 장치 및 방법 |
KR101113006B1 (ko) * | 2010-02-22 | 2012-02-24 | 숭실대학교산학협력단 | 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 |
JP2012113625A (ja) * | 2010-11-26 | 2012-06-14 | Sony Corp | 情報処置装置、情報処置方法およびプログラム |
KR101700340B1 (ko) * | 2012-04-06 | 2017-01-26 | 에스케이플래닛 주식회사 | 대용량 데이터의 클러스터 결과 분석 시스템 및 방법 |
-
2013
- 2013-12-05 KR KR1020130150754A patent/KR101937494B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013218636A (ja) | 2012-04-12 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング処理装置、クラスタリング処理方法、及びプログラム |
Non-Patent Citations (4)
Title |
---|
Anil K. Jain, Data clustering: 50 years beyond K-means, Pattern Recognition Letters 31, pp.651-666, (2010.)* |
Mao J., A. Jain, A self-organizing network for hyper-ellipsoidal clustering (HEC), IEEE Trans. Neural Networks 7 Jan., pp.16-29. 1996. |
T. Tran, Method for Clustering of Data distribution on a Sphere Surface, 건국대학교 석사학위 논문, 2015. |
Z. Huang, Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values, Data Mining and Knowledge Discovery 2, pp.283-304, 1998. |
Also Published As
Publication number | Publication date |
---|---|
KR20150065433A (ko) | 2015-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6785768B2 (ja) | 地磁気に基づいてモバイル端末の測位を行う方法及び装置 | |
US11354870B2 (en) | Accurate positioning of augmented reality content | |
KR102041449B1 (ko) | 사용자의 위치를 획득하는 방법 및 장치 | |
CN107436148B (zh) | 一种基于多地图的机器人导航方法及装置 | |
US9154919B2 (en) | Localization systems and methods | |
CN106156138B (zh) | 兴趣点的空间索引的建立、周边搜索方法和装置 | |
EP2712488B1 (en) | Prediction of indoor level and location using a three stage process | |
US10386497B2 (en) | Automated localization for GNSS device | |
US10057725B2 (en) | Sensor-based geolocation of a user device | |
Zhang et al. | Locale: Collaborative localization estimation for sparse mobile sensor networks | |
Symington et al. | Encounter based sensor tracking | |
US20160298969A1 (en) | Graceful sensor domain reliance transition for indoor navigation | |
JP2011179946A (ja) | 位置推定方法および位置推定システム | |
KR102029450B1 (ko) | 격자화된 지도를 이용하는 사용자 위치 정보를 제공하는 방법 및 시스템 | |
EP3184963A1 (en) | Apparatus and method for magnetic field map generation for indoor localization | |
KR101937494B1 (ko) | 알고리즘 저장장치를 포함하는 클러스터링 장치 | |
US9864042B2 (en) | Optimizing storage and usage of angle-of-arrival heatmaps | |
US10694459B2 (en) | Positioning access points selection | |
WO2023229711A1 (en) | Collecting telemetry data for 3d map updates | |
Kovalev | Indoor positioning of mobile devices by combined Wi-Fi and GPS signals | |
JP5813390B2 (ja) | 情報処理システム、情報処理装置、情報処理プログラムおよび情報処理方法 | |
Shioda et al. | Cooperative localization revisited: Error bound, scaling, and convergence | |
RU2013131386A (ru) | Способ определения вектора состояния пассивного космического объекта | |
CN102043818A (zh) | 基于球面坐标的地理信息系统 | |
Kanchi et al. | An efficient algorithm for finding large localizable regions in wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |