KR20150117202A

KR20150117202A - 클러스터링 방법, 관련 장치, 프로그램 및 기록매체

Info

Publication number: KR20150117202A
Application number: KR1020147026527A
Authority: KR
Inventors: 지준 첸; 타오 장; 보 장; 린 왕
Original assignee: 시아오미 아이엔씨.
Priority date: 2014-03-14
Filing date: 2014-07-24
Publication date: 2015-10-19
Also published as: EP2919165A2; EP2919165A3; CN103914518A; MX358804B; MX2014010879A; CN103914518B; RU2628167C2; RU2015129676A; JP6101399B2; JP2016516251A; EP2919165B1; WO2015135276A1

Abstract

본 발명은 클러스터 간의 Rank-Order 거리를 이용하여 조건에 부합되는 클러스터를 병합함으로써 클러스터의 개수를 감소시키고, 클러스터 내의 각 오브젝트 간의 거리를 이용하여 클러스터 내 병합율을 산출하고 모든 클러스터가 모두 분할될 때까지 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 새로운 클러스터로 분할한 다음, 분할한 후의 클러스터를 각 클러스터가 다시 분할될 수 없을 때까지 다시 반복 병합, 분할하여 복수의 오브젝트를 포함하는 클러스터 및 단일 오브젝트를 포함하는 클러스터를 결정함으로써 클러스터링 과정에서 상이성이 비교적 큰 오브젝트를 제거하고 클러스터링 결과의 정확도를 향상시키며, 특히 데이터가 집중된 오브젝트가 비교적 많지만 동일한 클러스터의 오브젝트에 속하지 않는 때, 클러스터링 결과의 정확도가 비교적 높은 클러스터링 방법 및 관련 장치를 공개하였다.

Description

클러스터링 방법 및 관련 장치{CLUSTERING METHOD AND DEVICE RELATED TO THE SAME}

본원 발명은 출원번호가 201410097422.5이고 출원일자가 2014년 3월 14일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허출원의 우선권을 주장하는 바, 중국 특허 출원의 모든 내용은 참조로서 본원 발명에 인용된다.

본 발명은 컴퓨터 기술분야에 관한 것으로, 특히 클러스터링 방법 및 관련 장치에 관한 것이다.

클러스터링(clustering)은 물리 또는 추상적 오브젝트의 집합을 클러스터와 같은 오브젝트로 이루어진 복수개의 클러스터로 나누는 과정, 즉 오브젝트를 상이한 클러스터(무리)에 분류시키는 과정인 바, 동일한 클러스터의 오브젝트는 매우 큰 유사성을 가지고 있으며 서로 다른 클러스터 간의 오브젝트는 매우 큰 상이성을 가지고 있다. 아래에서는 "클러스터"라는 개념을 사용하는 바, 본문에서의 "클러스터"는 "무리"와 의미가 같다.

예를 들면, 클러스터링 방법은 얼굴 이미지 분류에 사용될 경우, 동일인에 속하는 이미지를 하나의 클러스터로 나누고 관련된 클러스터링 방법은 Rank-Order거리를 사용하여 두 인물의 얼굴의 유사성을 측정하여, 동일 인물의 이미지를 한데 모을 수 있다. 하지만 한 무더기의 이미지중에 포함된 얼굴 수량이 비교적 많고 매 인물의 이미지가 비교적 적을 경우, 이러한 클러스터링 방법의 클러스터링 결과 정확도는 매우 낮다.

관련 기술에 존재하는 문제를 해결하기 위하여, 본 발명은 클러스터링 방법 및 관련 장치를 제공하여 클러스터링 결과의 정확도를 향상시켰다.

상기 문제를 해결하기 위하여 본 발명의 실시예는 하기와 같은 기술적 해결수단을 공개하였다.

본 발명의 실시예의 제1양태에 따르면, 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계와, 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계와, 반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계와, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 업데이트 전후의 클러스터 개수가 변하지 않을 때까지 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계로 되돌아가 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하는 단계를 포함하는 클러스터링 방법을 제공한다.

제1양태를 결부시키면 제1양태의 첫번째 실시가능한 형태에서, 상기 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계는,

클러스터 내의 각 오브젝트 간의 거리를 획득하는 단계와, 상기 클러스터 내 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하여 상기 클러스터의 클러스터 내 병합율을 획득하는 단계를 포함한다.

제1양태를 결부시키면 제1양태의 두번째 실시가능한 형태에서, 상기 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계는,

클러스터 내의 각 오브젝트 간의 거리를 획득하는 단계와, 상기 클러스터 내 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하는 단계와, 상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득하는 단계를 포함한다.

제1양태의 첫번째 실시가능한 형태 또는 제1양태의 두번째 실시가능한 형태를 결부시키면, 제1양태의 세번째 실시가능한 형태에서, 상기 반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계는,

클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트에 대해 연결 마크를 표기하는 단계와, 상기 연결 마크에 따라 상기 클러스터 내 연결 집합을 결정하는 단계와, 상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계를 포함한다.

제1양태를 결부시키면 제1양태의 네번째 실시가능한 형태에서, 상기 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계는,

클러스터 간의 Rank-Order 거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하는 단계와, 클러스터 간의 Rank-Order 거리가 거리 임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작을 경우, 상기 클러스터를 병합하는 단계와, 병합 이후의 클러스터의 개수가 병합 이전의 클러스터의 개수보다 작은 경우, 병합 이후의 클러스터 간의 Rank-Order 거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하는 단계를 수행하는 단계를 포함한다.

본 발명의 실시예의 제2양태에 따르면,

클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하기 위한 반복 병합유닛과, 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하기 위한 획득유닛과, 반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하기 위한 분할유닛과, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 업데이트 전후의 클러스터 개수가 변하지 않을 때까지 상기 반복 병합유닛을 제어하여 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하여 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하기 위한 판정유닛을 포함하는 클러스터링 장치를 제공한다.

제2양태를 결부시키면 제2양태의 첫번째 실시가능한 형태에서, 상기 획득유닛은,

클러스터 내의 각 오브젝트 간의 거리를 획득하기 위한 제1획득 서브유닛과, 상기 클러스터의 각 오브젝트 간의 거리의 거리 평균치를 산출하여 상기 클러스터 내 병합율을 획득하기 위한 제1산출 서브유닛을 포함한다.

제2양태를 결부시키면 제2양태의 두번째 실시가능한 형태에서, 상기 획득유닛은,

클러스터 내의 각 오브젝트 간의 거리를 획득하기 위한 제2획득 서브유닛과, 상기 클러스터 내 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하기 위한 제2산출 서브유닛과, 상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득하기 위한 표준화 서브유닛을 포함한다.

제2양태의 첫번째 실시가능한 형태 또는 제2양태의 두번째 실시가능한 형태을 결합하여 제2양태의 세번째 실시가능한 형태에서, 상기 분할유닛은,

상기 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은지를 판정하기 위한 제1판정 서브유닛과, 상기 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작을 경우, 상기 클러스터 내 오브젝트 간의 거리에 대응되는 오브젝트에 대해 연결 마크를 표기하기 위한 표기 서브유닛과, 상기 연결 마크에 따라 상기 클러스터 내 연결 집합을 결정하기 위한 결정 서브유닛과, 상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하기 위한 분할 서브유닛을 포함한다.

제2양태를 결부시키면 제2양태의 네번째 실시가능한 형태에서, 상기 반복 병합유닛은,

클러스터 간의 Rank-Order 거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하기 위한 제3획득 서브유닛과, 클러스터 간의 Rank-Order 거리가 거리 임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작을 경우, 상기 클러스터를 병합하기 위한 병합 서브유닛과, 병합 이후의 클러스터의 개수가 병합 이전의 클러스터의 개수보다 작은 경우, 제 3 획득 서브유닛을 제어하여 병합 이후의 클러스터 간의 Rank-Order 거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하는 단계를 수행하기 위한 제 2 판정 서브유닛을 포함한다.

본 발명의 실시예의 제3양태에 따르면, 프로세서와, 상기 프로세서에 의해 수행가능한 인스트럭션을 저장하기 위한 메모리를 포함하고, 상기 프로세서는 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하고, 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하고, 반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하며, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 업데이트 전후의 클러스터 개수가 변하지 않을 때까지 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계로 되돌아가 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하도록 구성된다.

본 발명의 실시예가 제공하는 기술적 해결수단은 아래와 같은 유리한 효과를 포함할 수 있다.

상기 클러스터링 방법은 클러스터 간의 Rank-Order거리를 이용하여 조건에 부합되는 클러스터를 병합함으로써 클러스터의 개수를 감소시킨다. 다음 클러스터 내의 각 오브젝트간의 거리를 이용하여 클러스터 내 병합율을 산출하고 클러스터 내 오브젝트간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 모든 클러스터가 분할될 때까지 새로운 클러스터로 분할한다. 다음 분할된 후의 클러스터를 각 클러스터가 분할될 수 없을 때까지 다시 반복 병합하고 분할하여 복수의 오브젝트를 포함한 클러스터 및 단일 오브젝트를 포함한 클러스터를 결정함으로써 클러스터링 과정에서 상이성이 비교적 큰 오브젝트를 제거해내어 클러스터링 결과의 정확도를 향상시킨다. 특히, 데이터가 집중된 오브젝트가 비교적 많고 동일한 클러스터에 속하는 오브젝트가 비교적 적을 때, 클러스터링 결과의 정확도는 비교적 높다.

상기의 일반적인 설명과 후술할 내용의 세부적인 설명은 예시적이고 설명적인것일 뿐, 본 발명을 한정할 수 없음을 이해해야 한다.

첨부된 도면은 본 명세서에 통합되어 그 일부를 구성하는 것으로서, 본 발명에 따른 실시예를 도시하며, 상세한 설명과 함께 본 발명의 원리를 설명하는 역할을 한다.
도 1은 서열로 나열된 복수의 오브젝트를 도시하는 모식도이다.
도 2는 일 예시적 실시예에 따른 클러스터링 방법을 도시한 흐름도이다.
도 3은 일 예시적 실시예에 따른 도 2의 단계 S110을 도시하는 흐름도이다.
도 4는 다른 예시적 실시예에 따른 도 2의 단계 S110을 도시하는 흐름도이다.
도 5는 일 예시적 실시예에 따른 도 2의 단계 S120을 도시하는 흐름도이다.
도 6은 일 예시적 실시예에 따른 도 2의 단계 S130을 도시하는 흐름도이다.
도 7은 일 예시적 실시예에 따른 클러스터링 장치의 블록도이다.
도 8은 일 예시적 실시예에 따른 단말 기기를 도시하는 블록도이다.
도 9는 일 예시적 실시예에 따른 서버를 도시하는 블록도이다.
상기 도면을 통하여 본 발명의 명확한 실시예를 도시하였고 하기 내용에서 더욱 상세히 설명한다. 이러한 도면과 문자 설명은 그 어떤 방식으로 본 발명의 취지의 범위를 한정하려는 것이 아니라 특정된 실시예를 참고로 하여 본 기술 분야의 당업자로 하여금 본 발명의 개념을 이해하도록 하기 위한 것이다.

여기서 예시적 실시예에 대하여 상세히 설명하고 그 실례를 도면에 나타냈다. 아래의 설명이 도면에 관한 것일 때, 다른 표시가 있는 것을 제외하고 상이한 도면에서의 같은 숫자는 같거나 유사한 요소를 나타낸다. 아래의 예시적인 실시예에서 설명한 실시형태는 본 발명과 일치한 모든 실시형태를 대표하는 것이 아니다. 반대로, 이들은 부가된 청구범위에서 상세히 설명한, 본 발명의 일부와 일치한 장치와 방법의 예일 뿐이다.

본 발명의 예시적 실시예를 설명하기 앞서, 우선 Rank-Order거리의 관련 지식을 소개한다. 오브젝트 간의 거리(예를 들면, 코싸인 유사도, 유클리드(Euclidean) 거리 등)를 계산하고, 거리의 크기에 따라 각 오브젝트를 배열하여 하나의 서열을 획득한다. n개의 오브젝트가 있다고 가정한다면, 그것들은 각각 i₁, i₂,i₃,i₄,i₅,i₆...i_n이고, 오브젝트 i₁을 기준오브젝트로 하여 기타 각 오브젝트와 오브젝트 i₁사이의 거리를 계산하여 거리의 크기에 따라 배열하여 도 1에 도시된 서열Ｏ₁을 획득한다; 오브젝트 i₂을 기준 오브젝트로 기타 각 오브젝트와 기준 오브젝트i₂사이의 거리를 계산하여 도 1에 도시된 서열 Ｏ₂을 획득한다.

서열 Ｏ₁에서의 오브젝트 i₁과 오브젝트 i₂ 사이의 이웃 오브젝트가 서열 Ｏ₂에서의 번호에 따라 오브젝트 i₁과 오브젝트 i₂ 사이의 비대칭 Rank-Order거리 D(i₁, i₂)를 계산하고, 구체적인 것은 도 1에 도시된 예에 근거한다. 오브젝트 i₁, i₃,i₄,i₂ 가 Ｏ₂에서의 번호가 각각 5、2、4、0이면, 공식 1에 따라 D(i₁, i₂)을 계산하면 다음과 같다.：

공식 1에서, Ｏ₂(i₁)는 오브젝트 i₁가 서열 Ｏ₂에서의 번호를 나타내고, Ｏ₂(i₃)는 오브젝트 i₃가 서열 Ｏ₂에서의 번호를 나타내며, Ｏ₂(i₄)는 오브젝트 i₄가 서열 Ｏ₂에서의 번호를 나타내고, Ｏ₂(i₂)는 오브젝트 i₂가 서열 Ｏ₂에서의 번호를 나타낸다.

마찬가지로 오브젝트 i₁과 오브젝트 i₂사이의 비대칭 Rank-Order 거리 D(i₁, i₂)를 계산해낼 수 있고, 그 다음 공식 2에 따라 오브젝트 i₁과 오브젝트 i₂사이의 표준화된 후의 Rank-Order 거리 D^R(i₁, i₂)를 획득한다.：

상기 D^R(i₁, i₂)는 표준화된 후의 오브젝트 간의 Rank-Order거리를 표시하고, 클러스터 간의 Rank-Order거리와 오브젝트 간의 Rank-Order거리 산법은 동일한 바, 하나의 클러스터를 기준 클러스터로 한 다음 클러스터 간의 거리에 따라 각 클러스터를 다시 배열한 것이다. 클러스터 간의 거리는 공식 (3)과 같다.

공식(3)의 C_i와 C_j는 클러스터를 나타낸다.

클러스터 간의 Rank-Order 거리의 계산 공식은 공식 (4)와 같다.

공식(4)의 D(C_i,C_j)는 클러스터 C_i와 클러스터 C_j 사이의 비대칭 Rank-Order 거리를 나타내고, D(C_j,C_i)는 클러스터 C_j와 클러스터 C_i사이의 비대칭 Rank-Order거리를 나타내며；Ｏ_Ci(C_j)는 C_i을 기준 클러스터로 한 서열중의 클러스터 C_j의 번호를 나타내고, Ｏ_Cj(C_i)는 클러스터 C_j를 기준 클러스터로 한 서열중의 클러스터 C_i의 번호를 나타낸다.

클러스터 간의 거리 D^R(C_i,C_j)에 따라 클러스터 간의 표준화 Rank-Order 거리 D^N(C_i,C_j)를 계산하고, 여기서, 클러스터 간의 표준화 거리의 계산 공식은 공식(5)와 같다.

공식(5)에서, d(C_i,C_j)는 클러스터 C_i과 클러스터 C_j사이의 거리를 나타내고, ｜C_i｜과 ｜C_j｜는 클러스터 내의 오브젝트의 수량을 나타내며, K는 상수이고, f_a(k)는 오브젝트a의 k번째 이웃 오브젝트를 나타내며, φ(C_i,C_j)는 두 클러스터에서 그들과 가장 가까운 K개의 오브젝트 사이의 평균거리를 나타낸다.

오브젝트가 얼굴 이미지라고 가정한다면, 본 발명에서 제공된 상기 클러스터링 방법은 동일 인물에 속하는 이미지를 한데 모아 하나의 클러스터 집합으로 형성할 수 있다. 얼굴 이미지중의 특징을 한 그룹의 벡터로 전환하기에 오브젝트 간의 거리는 벡터 사이의 거리이다. 본 발명에 제공된 클러스터링 방법은 기타 데이터에도 응용될 수 있다.

도 2는 일 예시적 실시예에 따라 클러스터링 방법을 도시한 흐름도이다. 도 1에 도시된 바와 같이, 클러스터링 방법은 단말에 응용되며 다음과 같은 단계를 포함할 수 있다.

단계S110에서, 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합한다.

매 두 개의 클러스터 사이의 Rank-Order 거리를 계산하고 Rank-Order 거리가 제1거리 임계값보다 작은 클러스터를 병합한다. 상기 제1거리 임계값은 데이터 유형에 따라 결정될 수 있고 시험결과에 따라 결정될 수도 있다.

도 3에 도시된 바와 같이, 단계S110는 다음과 같은 단계를 포함할 수 있다.

단계S111에서, 클러스터 간의 Rank-Order거리 및 클러스터 간의Rank-Order 표준화 거리를 획득한다.

초기의 인물 이미지의 개수가 N라고 가정하고, 각 인물 이미지를 하나의 별도 클러스터로 하면, 초기의 클러스터 개수는 N개이고, 거리 임계값 t와 상수 K를 설정한다. 임의의 클러스터

과 클러스터

에 대하여, 상기의 공식(1)~(5)에 따라, 클러스터 간의 Rank-Order 거리 D^R(C_i,C_j)와 클러스터 간의 표준화Rank-Order 거리 D^N(C_i,C_j)를 산출한다. 초기 클러스터의 개수가 N면, 마지막에 하나의 N×N의 D^R(C_i,C_j) 매트릭스와 하나의 N×N의 D^N(C_i,C_j) 매트릭스를 획득한다. 여기서 D^R(C_i,C_j) 매트릭스의 각 벡터는 대응되는 클러스터 간의 Rank-Order 거리를 나타낸다. 예를 들면, 매트릭스의 C_ij는 클러스터 C_i와 클러스터 C_j간의 Rank-Order거리를 나타내고 D^N(C_i,C_j) 매트릭스의 벡터 C_ij는 클러스터 C_i와 클러스터 C_j간의 Rank-Order표준화 거리를 나타낸다.

단계S112에서, 클러스터 간의 Rank-Order 거리가 거리임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작을 때, 상기 클러스터를 병합한다.

D^R(C_i,C_j) 매트릭스에서 거리 임계값 t보다 작은 D^R(C_i,C_j)을 선택해내고, D^N(C_i,C_j)매트릭스에서 1보다 작은 D^N(C_i,C_j)을 선택해낸다. D^R(C_i,C_j)＜t이고, D^N(C_i,C_j) ＜1일 때, 클러스터 C_i와 클러스터 C_j의 유사성이 비교적 크다는 것을 결정할 수 있고, 즉 클러스터 C_i와 클러스터 C_j은 후보 병합 클러스터이다. 다음 모든 후보 병합 클러스터를 병합한다. D^R(C_i,C_j)≥t이면 클러스터 C_i와 클러스터 C_ㅓ의 유사성은 비교적 작다는 것을 나타내고 D^N(C_i,C_j)≥1이면 클러스터 간의 분산도가 비교적 크다는 것을 나타낸다.

단계S120에서, 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 산출한다.

본 발명의 일 실시예에서, 도 4에 도시된 바와 같이, 단계S120는 다음과 같은 단계를 포함할 수 있다.

단계S121에서, 클러스터 내의 각 오브젝트간의 거리를 획득한다. 상기 오브젝트 간의 거리는 코싸인 유사도, 유클리드 거리 또는 자카드(Jaccard) 거리 등일 수 있다.

본 발명에서 코싸인 유사도 cosθ를 사용하여 오브젝트 간의 거리를 산출하는 경우, 오브젝트 간의 거리를 1-cosθ로 정의하고, 즉 오브젝트 간의 거리가 작을 수록 오브젝트의 유사성이 크다.

단계S122에서, 상기 클러스터 내의 각 오브젝트 간의 거리의 평균치를 산출하여 상기 클러스터의 클러스터 내 병합율을 획득한다.

클러스터 내의 오브젝트가 n개라고 가정한다면, 계산하여 얻은 클러스터 내 임의 두 오브젝트 간의 거리에 따라 n×n의 거리 매트릭스 d를 획득하고, 매트릭스의 각 점은 대응되는 두 오브젝트 간의 거리를 나타낸다. 예를 들면, 매트릭스 d의 벡터

는 클러스터 내 제i개 오브젝트와 제j개 오브젝트 간의 거리를 나타낸다. 이 단계는 매트릭스 d의 각 벡터의 평균치 d_aver를 계산하는 단계이다.

본 발명의 다른 실시예에서, 도 5에 도시된 바와 같이, 단계S120는 다음과 같은 단계를 포함할 수 있다.

단계 S123에서, 클러스터 내의 각 오브젝트 간의 거리를 획득한다.

단계 S124에서, 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출한다.

단계 S125에서, 상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득한다.

거리 평균치 d_aver를 표준화하고, 다시 말하면 d_aver를 하나의 범위 [dleft, dright]에 귀납한다. dleft와 dright는 임계값, 예를 들면, dleft는 0.6일 수 있고, dright는 0.75일 수 있다. 예를 들면, 표준화 공식은 공식(6)과 같다.

예를 들면, 산출한 거리 평균치가 0.5일 때, 표준화하여 얻은 클러스터 내 병합율은 0.6이고; 거리 평균치가 0.65일 때, 표준화하여 얻은 클러스터 내 병합율은 0.65이며; 거리 평균치가 0.78일 때, 표준화하여 얻은 클러스터 내 병합율은 0.75이다.

본 발명의 실시예에서, (1-코싸인 유사도)을 사용하여 클러스터 내 병합율을 측정하였기에 클러스터 내 병합율이 작을 수록 클러스터 내의 오브젝트가 모이고 유사성이 크다는 것을 나타낸다. 따라서, 클러스터 내 병합율을 하나의 구간내, 예를 들면 [0.6,0.75] 에 표준화한다. 클러스터 내 병합율이 표준화된 구간의 내에 있을 때, 클러스터 내 병합율에 따라 클러스터 내의 오브젝트를 분할하고 클러스터 내 병합율이 표준화된 구간내에 없을 때, 이 구간의 임계값에 따라 클러스터 내의 오브젝트를 분할함으로써 클러스터 내 병합율의 값이 비교적 큰 클러스터 (즉, 클러스터 내 분산도가 비교적 큰 클러스터)를 복수개의 클러스터로 적당히 분할하는 것을 실현한다. 이로써 클러스터 내 병합율이 비교적 작은 클러스터가 너무 많은 클러스터를 분할하는 것을 방지한다.

단계S130에서, 반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트 한다.

Rank-Order거리에 따라 반복 병합한 후의 각 클러스터에 대하여, 클러스터 내 오브젝트 간의 거리 및 클러스터 내 병합율에 따라 각 클러스터를 분할하고 새로운 클러스터를 얻음으로써 한차례의 반복을 완성하고 단계S140를 수행한다.

본 발명의 일 실시예에서, 도 6에 도시된 바와 같이, 단계S130는 다음과 같은 단계를 포함할 수 있다.

단계S131에서, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 연결 표지한다.

클러스터 내의 어느 한 오브젝트에 대하여, 상기 클러스터 내 오브젝트 거리매트릭스내 이 오브젝트와 클러스터 내의 기타 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 여부를 검색하고, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작으면 오브젝트 간의 유사성이 비교적 크고 동일한 클러스터에 분할할 수 있다는 것을 나타낸다. 이때, 상기 거리에 대응되는 두 오브젝트에대해 연결 마크를 표기할 수 있다. 예를 들면 두 인물 얼굴 이미지 간의 거리

가 클러스터 내 병합율보다 작을 때, i번째 오브젝트와 j번째 오브젝트를 대응연결시킨다.

상기 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 클 경우, 오브젝트 간의 유사성이 비교적 작다는 것을 나타내고 동일한 클러스터에 분할되기 적합하지 않으며 어떠한 표지도 남기지 않는다.

단계S132에서, 상기 연결 마크에 따라 상기 클러스터 내의 연결 집합을 결정한다.

연결될 수 있는 오브젝트를 하나의 연결 집합으로 함으로써 클러스터 내의 모든 오브젝트가 몇개의 연결 집합으로 분할될 수 있는지를 판단한다.

단계S133에서, 상기 연결 집합(connected component)에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트 한다.

각 연결 집합에 대응 되는 오브젝트를 새로운 클러스터로 분할한다. 다시 말하면 하나의 클러스터에 복수개의 연결 집합이 포함되어 있고 이 큰 클러스터를 여러개의 새로운 클러스터로 분할하여 클러스터의 개수를 상응하게 증가시킨다. 연결 집합을 분할하여 하나의 클러스터로부터 이 클러스터에 속하지 않는 오브젝트를 분할해내는 것을 실현한다. 즉 클러스터에서 이상 오브젝트를 제거한다.

단계S140에서, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 작은지를 판정한다. 만약 작으면 단계S110로 돌아가고 아니면 단계S150로 진입한다.

업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 업데이트 전후의 클러스터 개수가 변하지 않을 때까지 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계S110로 되돌아간다.

Rank-Order 거리에 기반하여 클러스터를 병합하여 분할된 새로운 클러스터를 한차례의 반복으로 한다. 병합전의 클러스터 개수가 6개이고 Rank-Order거리에 의해 병합한 후 4개 클러스터로 변하며, 다시 병합된 후의 4개 클러스터를 분할하여 최종적으로 5개 클러스터를 획득한다고 가정하면, 업데이트 후 클러스터 개수는 5개, 업데이트전 클러스터 개수는 6개인 바, 업데이트 후의 개수가 업데이트 전의 개수보다 적기에 계속하여 반복한다.

업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적으면, 클러스터 내 분산도가 비교적 크고 즉 클러스터 내의 오브젝트가 긴밀이 모이지 않았다는 것을 나타내며 이상 오브젝트가 있을 수 있는 바, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 크지 않을때 까지 분할후의 클러스터를 계속하여 반복병합하고 클러스터를 분할하여야 한다.

업데이트 전후의 클러스터 개수가 같은 경우, 단계S150에서 클러스터링 결과를 획득하고 상기 클러스터링 결과는 복수의 오브젝트를 포함한 클러스터와 단일 오브젝트를 포함한 클러스터를 포함한다.

업데이트 후의 클러스터 개수와 업데이트 전의 클러스터 개수와 같은 경우, 클러스터 내에 제거할 수 있는 이상치가 없다는 것을 나타낸다. 최종적으로 얻은 클러스터링 결과는 복수의 오브젝트를 포함하는 클러스터 및 단일 오브젝트를 포함하는 클러스터를 포함한다. 복수의 오브젝트를 포함하는 클러스터 내의 복수의 오브젝트는 동일 인물의 얼굴 이미지이다. 단일 오브젝트만 포함하는 클러스터는 Rank-Order거리를 이용하여, 반복 병합한 후의 클러스터에서 이상 오브젝트를 제거한 것이다.

본 실시예에 제공된 클러스터링 방법은 Rank-Order거리를 이용하여 클러스터를 병합한 후 다시 클러스터내 오브젝트 간의 거리(예를 들면1-코싸인 유사도、유클리드 거리 등)를 이용하여 두 오브젝트의 유사성을 측정하고 유사성이 비교적 작은(상이성이 비교적 큰)오브젝트를 상기 클러스터에서 제거시킨다(새로운 클러스터). 이는 클러스터의 노이즈를 제거하는 것에 해당됨으로써 클러스터링 정확도를 향상시킨다. 특히 데이터가 집중된 오브젝트가 비교적 많지만 동일한 클러스터에 속하는 오브젝트가 비교적 적을 때, 클러스터링 결과의 정확도가 비교적 높다.

아래에는 구체적인 시험데이터로 본 발명의 클러스터링 방법의 뚜렷한 효과를 설명하며 그 효과는 표1과 같다.

[표 1]

표1에서, P는 클러스터링 결과의 정확도를 나타내고 R는 클러스터링 결과 중의 재검율을 나타내며 CR는 클러스트렁 결과 중의 각 클러스터에 있는 얼굴 이미지 개수를 나타낸다.

표1의 결과로부터 보아낼 수 있는 바, 장면1의 모든 이미지에 포함된 얼굴 개수는 모두 2291이고 모든 이미지는 562명의 상이한 인물을 포함하고 있기에 각 인물은 평균 4.07명의 얼굴 이미지에 대응된다. 즉 모든 이미지의 평균 4.07개 얼굴 이미지가 동일한 인물에 속한다. Rank-Order 거리 클러스터링만 사용한 클러스터링 결과의 정확도는 86.1%이다. 그러나 본 발명에 공개된 클러스터링 방법을 사용하여 얻은 클러스터링 정확도는 99.1%로서 Rank-Order 거리 클러스터링만 사용한 정확도보다 훨씬 높다. 장면2와 장면3에서, 본 발명의 클러스터링 방법을 사용한 정확도도 Rank-Order 거리 클러스터링만 사용한 정확도보다 높다.

상기의 클러스터링 방법의 실시예에 대응하여 본 발명은 클러스터링 장치를 제공하였다.

도 7은 일 예시적 실시예에 따라 도시한 클러스터링 장치의 모식도이다. 도 7을 참조하면, 이 장치는 반복 병합유닛(100)、획득유닛(200)、분할유닛(300) 및 판정유닛(400)을 포함한다.

반복 병합유닛(100)은 클러스터 간의 Rank-Order거리에 따라 클러스터를 반복 병합하도록 배치된다.

본 발명의 일 실시예에서, 반복 병합유닛(100)은 제3획득 서브유닛과 병합 서브유닛을 포함할 수 있다.

상기 제3획득 서브유닛 클러스터 간의Rank-Order거리 및 클러스터 간의Rank-Order표준화 거리를 획득하도록 배치된다.

상기 병합 서브유닛은 클러스터 간의 Rank-Order거리가 거리임계값보다 작고 상기 클러스터 간의Rank-Order표준화 거리가 1보다 작은 경우, 각각 조건에 부합되는 클러스터를 병합하도록 배치된다.

획득유닛(200)은 클러스터 내의 각 오브젝트간의 거리를 이용하여 반복 병합한 후의 클러스터에 대응되는 클러스터 내 병합율을 획득하도록 배치된다.

본 발명의 일 실시예에서, 상기 획득유닛(200)은 제1획득 서브유닛과 제1산출 서브유닛을 포함할 수 있다.

상기 제1획득 서브유닛은 클러스터 내의 각 오브젝트간의 거리를 획득하도록 배치되고,

상기 제1산출 서브유닛은 상기 클러스터의 각 오브젝트 간의 거리의 평균치를 산출하여 상기 클러스터 내 병합율을 획득하도록 배치된다.

본 발명의 다른 실시예에서, 상기 획득유닛(200)은 제2획득 서브유닛, 제2산출 서브유닛 및 표준화 서브유닛을 포함할 수 있다.

상기 제2획득 서브유닛은 클러스터 내의 각 오브젝트간의 거리를 획득하도록 배치된다. 상기 제2획득 서브유닛과 상기 제1획득 서브유닛의 기능 및 실시형태는 같다.

상기 제2산출 서브유닛은 상기 클러스터 내 오브젝트간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하도록 배치된다.

표준화 서브유닛은 상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득하도록 배치된다.

분할유닛300은 반복 병합에 의해 얻은 각 클러스터에 대하여 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트하도록 배치된다.

본 발명의 일 실시예에서, 상기 분할유닛은 제1판정 서브유닛, 표기 서브유닛, 결정 서브유닛 및 분할 서브유닛을 포함할 수 있다.

상기 제1판정 서브유닛은 상기 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 여부를 판정하도록 배치된다.

상기 표기 서브유닛은 클러스터 내 오브젝트 간의 거리가 상기 클러스터내 병합율보다 작은 오브젝트에 대해 연결 마크를 표기하도록 구성된다.

상기 결정 서브유닛은 상기 연결 마크에 따라 상기 클러스터내의 연결 집합을 결정하도록 배치된다.

상기 분할 서브유닛은 상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트하도록 배치된다.

판정유닛400은 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 작은지를 판정하도록 배치된다. 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 작을 경우, 상기 반복 병합유닛은 업데이트 전의 클러스터 개수가 변하지 않을 때까지 클러스터 간의 Rank-Order거리에 따라 클러스터를 반복 병합하여 클러스터링 결과를 획득하고 상기 클러스터링 결과는 복수의 오브젝트를 포함한 클러스터와 단일 오브젝트를 포함한 클러스터를 포함한다.

본 실시예에 제공된 클러스터링 장치는 반복 병합유닛으로 클러스터 간의 Rank-Order거리에 의하여 조건에 부합되는 클러스터를 병합함으로써 클러스터의 개수를 감소시키고, 다시 획득유닛을 이용하여 클러스터 내의 각 오브젝트 간의 거리에 따라 클러스터 내 병합율을 계산한 다음, 분할유닛으로 모든 클러스터가 모두 분할될 때까지 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 새로운 클러스터로 분할한다. 또한 판정유닛으로 분할한 후의 클러스터를 각 클러스터가 다시 분할되어 복수의 오브젝트를 포함하는 클러스터 및 단일 오브젝트를 포함하는 클러스터를 얻을 수 없을 때까지 다시 반복 병합하고 분할함으로써 클러스터링 과정에서 상이성이 비교적 큰 오브젝트를 제거하고 클러스터링 결과의 정확도를 향상시키는 것을 실현한다. 특히, 데이터가 집중된 오브젝트가 비교적 많지만 동일한 클러스터에 속하는 오브젝트가 적을 경우, 클러스터렁 결과 정확도가 비교적 높다.

상기 실시예의 장치에 관하여, 각 모듈이 조작을 수행하는 구체적인 방식은 이미 이 방법에 관련되는 실시예에서 상세히 기술하였기에 여기서 상세히 설명하지 않는다.

도 8은 일 예시적 실시예에 따라 클러스터링용 단말기기(800)를 도시한 블록도이다. 예를 들면, 단말기기(800)는 이동전화, 컴퓨터, 디지털 방송 단말기, 메세지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료기기, 피트니스 기기, 개인용 휴대 단말기(PDA) 등이다.

도 8을 참조하면, 단말기기(800)는 프로세싱 어셈블리(802), 메모리(804), 전원 어셈블리(806), 멀티미디어 어셈블리(808), 오디오 어셈블리(810), 입력/출력(I/O)인터페이스(812), 센서 어셈블리(814) 및 통신 어셈블리(816)와 같은 하나 또는 다수의 어셈블리를 포함할 수 있다.

프로세싱 어셈블리(802)는 통상적으로 표시, 전화 통화, 데이터 통신, 카메라 조작 및 기록동작과 관련한 단말기기(800)의 전체 조작을 제어한다. 프로세싱 어셈블리(802)는 상기 방법의 전부 또는 일부 단계를 완성하도록 하나 또는 다수의 프로세서(820)를 포함하여 인스트럭션을 실행할 수 있다. 이 밖에 프로세싱 어셈블리(802)는 프로세싱 어셈블리(802)와 기타 어셈블리 사이의 대화가 편리하도록 하나 또는 다수의 모듈을 포함한다. 예를 들어 프로세싱 어셈블리(802)는 멀티미디어 어셈블리(808)와 프로세싱 어셈블리(802) 사이의 대화가 편리하도록 멀티미디어 모듈을 포함할 수 있다.

메모리(804)는 단말기기(800)에서의 작동을 지지하도록 각종 유형의 데이터를 저장하도록 배치된다. 이러한 데이터의 예시는 단말기기(800)에서 작동하기 위한 그 어떤 응용 프로그램 또는 방법의 인스트럭션, 연락처 데이터, 전화번호부 데이터, 메시지, 이미지, 비디오 등을 포함한다. 메모리(804)는 스태틱 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그램 가능 판독가능 기록 장치(EEPROM), 소거 및 프로그램 가능 판독가능 기록 장치(EPROM), 프로그램 가능 판독가능 기록 장치(PROM), 판독 전용 기록 장치(ROM), 자기 기록 장치, 플래시 메모리, 디스크 또는 CD와 같은 모든 유형의 휘발성 또는 비휘발성 메모리 기기 또는 그들의 조합으로 이루어질 수 있다.

전원 어셈블리(806)는 단말기기(800)의 각종 어셈블리에 전력을 제공한다. 전원 어셈블리(806)는 전원관리시스템, 하나 또는 다수의 전원, 단말기기(800)에 전원을 생성, 관리 및 분배하는 것과 관련되는 기타 어셈블리를 포함할 수 있다.

멀티미디어 어셈블리(808)는 상기 단말기기(800)와 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서 스크린은 액정 표시 장치(LCD)와 터치패널(TP)을 포함할 수 있다. 만약 스크린이 터치패널을 포함하면, 스크린은 사용자가 입력한 신호를 수신하도록 터치스크린으로 실현될 수 있다. 터치패널은 터치, 슬라이딩과 터치패널상의 손동작을 감지하도록 하나 또는 다수의 터치센서를 포함한다. 상기 터치센서는 터치 또는 슬라이딩동작의 경계를 감지할 수 있을 뿐만 아니라 상기 터치 또는 슬라이딩동작과 관련한 지속시간과 압력도 검출할 수 있다. 일부 실시예에서, 멀티미디어 어셈블리(808)는 하나의 프론트 카메라 및/또는 리어 카메라를 포함한다. 단말기기(800)가 작동모드, 예를 들어 촬영모드 또는 비디오모드일 경우, 프론트 카메라 및/또는 리어 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각각의 프론트 카메라 및/또는 리어 카메라는 하나의 고정된 광학렌즈 시스템이거나 초점 거리와 광학 줌 능력을 구비할 수 있다.

오디오 어셈블리(810)는 오디오신호를 출력 및/또는 입력하도록 배치된다. 예를 들어, 오디오 어셈블리(810)는 하나의 마이크(MIC)를 포함하는 바, 단말기기(800)가 작동모드, 예를 들어 호출모드, 기록모드 및 음성모드일 경우, 마이크는 외부의 오디오신호를 수신하도록 배치된다. 수신된 오디오신호는 또한 메모리(804)에 저장되거나 통신 어셈블리(816)를 거쳐 발송된다. 일부 실시예에서 오디오 어셈블리(810)는 하나의 스피커를 포함하여 오디오신호를 출력한다.

I/O 인터페이스(812)는 프로세싱 어셈블리(802)와 주변 인터페이스모듈 사이에 인터페이스를 제공하되 상기 주변 인터페이스모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈버튼, 음량버튼, 작동버튼과 잠금버튼을 포함하나 이에 한정하지는 않는다.

센서 어셈블리(814)는 하나 또는 다수의 센서를 포함하여 단말기기(800)에 여러 방면의 상태평가를 제공한다. 예를 들어, 센서 어셈블리(814)는 단말기기(800)의 온오프상태, 어셈블리의 상대위치, 예를 들어, 상기 어셈블리는 단말기기(800)의 모니터와 키패드를 검출할 수 있고, 센서 어셈블리(814)는 단말기기(800) 또는 단말기기(800)의 한 어셈블리의 위치변화, 사용자와 단말기기(800)의 접촉여부, 단말기기(800) 방위 또는 가속/감속과 단말기기(800)의 온도변화를 검출할 수 있다. 센서 어셈블리(814)는 아무런 물리접촉이 없을 경우 주변 물체의 존재를 검출하도록 배치된 근접센서를 포함할 수 있다. 센서 어셈블리(814)는 COMS 또는 CCD 영상 센서와 같은 광센서를 더 포함하여 영상응용에 사용한다. 일부 실시예에서, 상기 센서 어셈블리(814)는 가속도센서, 자이로센서, 자기센서, 압력센서 또는 온도센서를 더 포함할 수 있다.

통신 어셈블리(816)는 단말기기(800)와 기타 기기사이의 유선 또는 무선방식의 통신이 편리하도록 배치된다. 단말기기(800)는 통신표준, 예를 들어, WiFi, 2G 또는3G 또는 이들의 조합에 기초하여 무선 네트워크에 액세스할 수 있다. 일 예시적 실시예에서, 통신 어셈블리(816)는 방송신호를 거쳐 외부방송관리시스템의 방송신호 또는 방송과 관련한 정보를 수신한다. 일 예시적 실시예에서, 상기 통신 어셈블리(816)는 근거리 통신을 촉진하도록 근거리 자기장 통신(NFC)모듈을 더 포함할 수 있다. 예를 들어, 무선 주파수 식별(RFID)기술, 적외선 통신 규격(IrDA)기술, 초광대역(UWB)기술, 블루투스(BT)기술과 기타 기술에 기반하여 실현할 수 있다.

예시적 실시예에서 단말기기(800)는 상기 방법을 실행하도록 하나 또는 여러개의 응용 주문형 집적 회로(ASIC), 디지털신호 프로세(DSP), 디지털 신호 처리기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 기타 전자 부품에 의해 실현될 수 있다.

예시적 실시예에서는 인스트럭션을 포함하는 비일시적 컴퓨터 판독 가능한 기록 매체, 예를 들어 상기 방법을 완성하도록 단말기기(800)의 프로세서(820)가 실행하는 인스트럭션을 포함하는 메모리(804)를 더 제공한다. 예를 들어 상기 비일시적 컴퓨터 판독 가능한 기록 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 테이프, 플로피 디스켓과 광 데이터 저장기기 등일 수 있다.

상기 저장매체에서의 인스트럭션이 이동단말기의 프로세서에 의해 실행될 경우 이동단말기로 하여금 페이지 뒤로가기 제어방법을 실행하게 하되, 상기 방법은

비일시적 컴퓨터 판독가능 저장 매체는 상기 저장 매체의 명령이 이동 단말기의 프로세서에 의해 수행될 경우 이동 단말기로 하여금 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계와, 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계와, 반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계와, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 업데이트 전후의 클러스터 개수가 변하지 않을 때까지 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계로 되돌아가 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하는 단계를 포함하는 클러스터링 방법을 수행하도록 한다.

선택적으로, 상기 클러스터내의 각 오브젝트 간의 거리를 이용하여 반복 병합한 후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계는

클러스터 내의 각 오브젝트 간의 거리를 획득하는 단계, 상기 클러스터 내 오브젝트간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하여 상기 클러스터의 클러스터 내 병합율을 획득하는 단계를 포함한다.

선택적으로, 상기 클러스터 내의 각 오브젝트 간의 거리를 이용하여 반복 병합한 후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계는

클러스터내의 각 오브젝트 간의 거리를 획득하고, 상기 클러스터 내 오브젝트간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하는 단계와, 상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득하는 단계를 포함한다.

선택적으로, 상기 반복 병합에 의해 얻은 각 클러스터에 대하여, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트하는 단계는

클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트에 대해 연결 마크를 표기하는 단계와, 상기 연결 마크에 따라 상기 클러스터 내 연결 집합을 결정하며, 상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트하는 단계를 포함한다.

선택적으로, 상기 클러스터 간의 Rank-Order거리에 따라 클러스터를 반복 병합하는 단계는

클러스터 간의 Rank-Order거리 및 클러스터 간의Rank-Order 표준화 거리를 획득하는 단계와, 클러스터 간의 Rank-Order 거리가 거리 임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작은 경우 상기 클러스터를 병합하는 단계를 포함한다

도 9는 일 예시적 실시예에 따라 도시한 서버의 구조 설명도이다. 상기 서버(1900)는 배치 또는 성능이 상이함에 따라 비교적 큰 차이가 발생하는 바, 하나 또는 하나 이상의 중앙처리장치(central processing units,CPU)(1922)(예를 들면 하나 또는 하나 이상의 프로세서)와 메모리(1932), 하나 또는 하나 이상의 응용 프로그램(1942)이나 데이터(1944)의 저장매체(1930)(예를 들면 하나 또는 하나 이상의 대용량 저장기기)를 포함할 수 있다. 여기서 메모리(1932)와 저장매체(1930)는 일시저장 또는 장기저장일 수 있다. 저장매체(1930)에 저장된 프로그램은 하나 또는 하나 이상의 모듈(도시되지 않음)을 포함할 수 있고 각 모듈마다 서버에 대한 일련의 인스트럭션동작을 포함할 수 있다. 또한, 중앙처리장치(1922)는 저장매체(1930)와 통신을 하고 서버(1900)상에서 저장매체(1930)중의 일련의 인스트럭션동작을 실행하도록 설정될 수 있다.

서버(1900)는 하나 또는 하나이상의 전원(1926), 하나 또는 하나 이상의 유선이나 무선 인터넷인터페이스(1950), 하나 또는 하나 이상의 입출력인터페이스(1958), 하나 또는 하나 이상의 키보드(1956)나 하나 또는 하나이상의 운영체제(1941), 예를 들면Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM등을 포함할 수 있다.

예시적 실시예에서, 명령을 포함하는 비일시적 컴퓨터 판독가능저장 매체, 예를 들면 메모리(1932) 또는 저장 매체(1930)를 제공하였다. 상기 명령은 단말기기의 프로세서(1922)를 수행하여 상기 방법을 실현할 수 있다. 예를 들면, 상기 비일시적 컴퓨터 판독가능 저장 매체는 ROM、랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스켓 및 광 데이터 저장기기 등일 수 있다.

비일시적 컴퓨터 판독가능 저장 매체는, 상기 저장 매체의명령이 단말기기의 프로세서로 수행될 때, 단말기기로 하여금 클러스터 간의 Rank-Order거리에 따라 클러스터를 반복 병합하고, 클러스터내의 각 오브젝트간의 거리를 이용하여 반복 병합한 후의 클러스터에 대응되는 클러스터 내 병합율을 얻으며, 반복 병합에 의해 얻은 각 클러스터에 대하여, 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트하며, 업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우 업데이트 전의 클러스터 개수가 변하지 않을 때까지 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복병합하는 단계로 돌아가 복수의 오브젝트를 포함하는 클러스터와 단일 오브젝트를 포함하는 클러스터를 포함하는 클러스터링 결과를 획득하는 방법을 포함하는 클러스터링 방법을 수행하도록 한다.

클러스터 내의 각 오브젝트 간의 거리를 획득하는 단계와, 상기 클러스터 내 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하여 상기 클러스터의 클러스터내 병합율을 획득하는 단계를 포함한다.

선택적으로, 상기 반복 병합에 의해 얻은 각 클러스터에 대하여 클러스터 내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트 하는 단계는

클러스터내 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트에 대해 연결 마크를 표기하는 단계와, 상기 연결 표지에 따라 상기 클러스터 내 연결 집합을 결정하며, 상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터의 개수를 업데이트 하는 단계를 포함한다.

클러스터 간의 Rank-Order거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하는 단계와, 클러스터 간의 Rank-Order 거리가 거리 임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작을 경우, 상기 클러스터를 병합하는 단계를 포함한다.

본 발명은 상기에서 설명하고 도면에서 도시한 정확한 구조에만 제한되는 것이 아니라 그 범위를 벗어나지 않는 정황하에 각종 수정과 변경을 진행할 수 있음을 이해해야 한다. 본 발명의 범위는 첨부된 청구범위에 의해 한정된다.

설명해야 할 것은, 본문에서 "제1"과 "제2"와 같은 관련 용어는 단지 하나의 실체 또는 동작을 다른 실체 또는 동작과 구분하려는 것일 뿐, 이러한 실체 또는 동작의 사이에 이러한 실제적인 관계 또는 순서가 존재한다는 것을 반드시 요구하거나 암시하는 것이 아니다. 또한, 용어 "포괄", "포함" 또는 그의 기타 변형은 비배타적인 포함을 포괄하여 일련의 요소의 과정, 방법, 물품 또는 이동설비로 하여금 이러한 요소를 포괄함과 동시에 명확히 열거되지 않은 기타 요소를 포괄하거나, 또는 이러한 과정, 방법, 물품 또는 이동설비의 고유한 요소를 더 포함한다는 것을 설명하는 바이다. 더욱 많은 한정이 없는 상황에서 "하나의 …을/를 포함"이라는 구절이 한정하는 요소는 상기 요소를 포함하는 과정, 방법, 물품 또는 이동설비에 다른 동일한 요소가 더 존재하는 경우를 배제하지 않는다.

Claims

클러스터(cluster) 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계와,
클러스터 내의 각 오브젝트 간의 거리를 이용하여, 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계와,
반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계와,
업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계로 되돌아가서 당해 단계를 수행하며, 업데이트 전후의 클러스터 개수가 변하지 않을 시, 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 클러스터링(clustering) 방법.
제1항에 있어서,
클러스터 내의 각 오브젝트 간의 거리를 이용하여, 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계는,
클러스터 내의 각 오브젝트 간의 거리를 획득하는 단계와,
상기 클러스터 내의 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하여 상기 클러스터의 클러스터 내 병합율을 획득하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
제1항에 있어서,
클러스터 내의 각 오브젝트 간의 거리를 이용하여, 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하는 단계는,
클러스터 내의 각 오브젝트 간의 거리를 획득하는 단계와,
상기 클러스터 내의 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하는 단계와,
상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
제2항 또는 제3항에 있어서,
반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계는,
클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트에 대해 연결마크를 표기하는 단계와,
상기 연결 마크에 따라 상기 클러스터 내의 연결 집합을 결정하는 단계와,
상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
제1항에 있어서,
클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계는,
클러스터 간의 Rank-Order 거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하는 단계와,
클러스터 간의 Rank-Order 거리가 거리 임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작을 경우, 상기 클러스터를 병합하는 단계를 포함하는 것을 특징으로 하는 클러스터링 방법.
클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하기 위한 반복 병합유닛과,
클러스터 내의 각 오브젝트 간의 거리를 이용하여, 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하기 위한 획득유닛과,
반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하기 위한 분할유닛과,
업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 상기 반복 병합유닛을 제어하여 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하며, 업데이트 전후의 클러스터 개수가 변하지 않을 시, 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하기 위한 판정유닛을 포함하는 것을 특징으로 하는 클러스터링 장치.
제6항에 있어서,
상기 획득유닛은,
클러스터 내의 각 오브젝트 간의 거리를 획득하기 위한 제1획득 서브유닛과,
상기 클러스터의 각 오브젝트 간의 거리의 거리 평균치를 산출하여 상기 클러스터 내 병합율을 획득하기 위한 제1산출 서브유닛을 포함하는 것을 특징으로 하는 클러스터링 장치.
제6항에 있어서,
상기 획득유닛은,
클러스터 내의 각 오브젝트 간의 거리를 획득하기 위한 제2획득 서브유닛과,
상기 클러스터 내의 오브젝트 간의 거리에 따라 상기 클러스터 내의 각 오브젝트 간의 거리의 거리 평균치를 산출하기 위한 제2산출 서브유닛과,
상기 거리 평균치를 표준화하여 상기 클러스터의 클러스터 내 병합율을 획득하기 위한 표준화 서브유닛을 포함하는 것을 특징으로 하는 클러스터링 장치.
제7항 또는 제8항에 있어서,
상기 분할유닛은,
상기 클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은지를 판정하기 위한 제1판정 서브유닛과,
상기 클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작을 경우, 상기 클러스터 내의 오브젝트 간의 거리에 대응되는 오브젝트에 대해 연결 마크를 표기하기 위한 표기 서브유닛과,
상기 연결 마크에 따라 상기 클러스터 내의 연결 집합을 결정하기 위한 결정 서브유닛과,
상기 연결 집합에 따라 상기 클러스터를 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하기 위한 분할 서브유닛을 포함하는 것을 특징으로 하는 클러스터링 장치.
제6항에 있어서,
상기 반복 병합유닛은,
클러스터 간의 Rank-Order 거리 및 클러스터 간의 Rank-Order 표준화 거리를 획득하기 위한 제3획득 서브유닛과,
클러스터 간의 Rank-Order 거리가 거리 임계값보다 작고 상기 클러스터 간의 Rank-Order 표준화 거리가 1보다 작을 경우, 상기 클러스터를 병합하기 위한 병합 서브유닛을 포함하는 것을 특징으로 하는 클러스터링 장치.
프로세서와,
상기 프로세서에 의해 수행가능한 인스트럭션을 저장하기 위한 메모리를 포함하고,
상기 프로세서는
클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하고,
클러스터 내의 각 오브젝트 간의 거리를 이용하여, 반복 병합후의 클러스터에 대응되는 클러스터 내 병합율을 획득하고,
반복 병합에 의해 획득한 각 클러스터에 대해, 클러스터 내의 오브젝트 간의 거리가 상기 클러스터 내 병합율보다 작은 오브젝트를 하나의 새로운 클러스터로 분할하고 클러스터 개수를 업데이트하며,
업데이트 후의 클러스터 개수가 업데이트 전의 클러스터 개수보다 적을 경우, 업데이트 전후의 클러스터 개수가 변하지 않을 때까지, 클러스터 간의 Rank-Order 거리에 따라 클러스터를 반복 병합하는 단계로 되돌아 가서 당해 단계를 수행하고,
업데이트 전후의 개수가 변하지 않을 경우, 복수의 오브젝트가 포함되는 클러스터와 단일 오브젝트가 포함되는 클러스터를 포함하는 클러스터링 결과를 획득하도록 구성되는 것을 특징으로 하는 단말기기.