KR102025605B1

KR102025605B1 - 상인의 상업지역 정보의 표시

Info

Publication number: KR102025605B1
Application number: KR1020177020162A
Authority: KR
Inventors: 홍챠오 양; 지안빈 정; 준 왕
Original assignee: 차이나 유니온페이 컴퍼니 리미티드
Priority date: 2014-12-29
Filing date: 2015-12-04
Publication date: 2019-09-27
Also published as: EP3242263A1; US20170372331A1; CN105590223A; EP3242263A4; JP6469230B2; KR20180005153A; JP2018500686A; WO2016107373A1

Abstract

본 발명은 데이터 프로세싱 기술분야에 관한 것으로, 상인들의 상업지역 정보를 표시하는 방법에 관한 것이다. 상기 방법은, 소비자들의 소비 및 거래 데이터의 연관 규칙을 마이닝 및 계산하여 상인들 간의 연관성 정보를 획득하는 단계; 상기 상인들의 적어도 일부의 지정된 상업지역 정보 및 상기 연관성 정보에 기초하여 그 상인들의 상업지역 정보가 다수의 상업지역들에 지정되지 않은 상인들의 종속률을 계산하는 단계; 및 상기 종속률에 기초하여 상기 상인들 각각에 대해 상업지역 정보를 표시하는 단계를 포함한다. 상기 표시는 자동으로 수행되며, 본 발명은 상업지역 정보의 표시가 정확하고 효율적이라는 특징을 갖는다.

Description

상인의 상업지역 정보의 표시{MARKING OF BUSINESS DISTRICT INFORMATION OF A MERCHANT}

본 발명은 데이터 처리 기술분야에 관한 것으로서, 소비 및 거래 데이터의 처리에 기초하여 상인들의 상업지역 정보를 지정(specifying)하는 것, 특히, 상인들 간의 연관성(association) 정보를 획득하고 상기 연관성 정보에 기초하여 상인들의 상업지역 정보를 지정하도록 하는 소비 및 거래 데이터의 연관성 규칙(association rules)을 마이닝 및 계산(mining and calculating)하는 것에 관한 것이다.

도시에서 상업지역(commercial districts)들은 보통 상업 영역의 범위에 따라서 분할되며, 핵심 상업지역, 종속 지역 및 주변 지역과 같은 다양한 층의 상업지역들이 존재한다. 상인의 위치 정보는 상업지역 정보의 형태로 통상적으로 표현되는데, 예를 들어, 어느 한 상인은 그 상인의 상업지역 정보를 지정하도록 임의의 한 상업지역에 속하는 것으로 간주된다.

상인들의 상업지역 정보는 상인들에 대해 분석을 하거나 상인들을 위한 서비스를 제공함에 있어 중요한 기초가 되며, 그것은 오늘날의 상업 사회에서 더욱 중요한 요소가 되고 있다. 그렇지만, 사실은, 상인들에 관련되는 대부분의 데이터 세트에 있어 대다수의 상인들의 상업지역 정보는 불완전하고 오히려 부정확하기도 하며, 이에 따라 그러한 누락된 상업지역 정보를 지정할 필요가 있게 된다.

현재에는, 상인 데이터 보유자들은 보통 수동 입력으로 상인 정보를 생성한다. 상인의 상업지역 정보를 수동으로 입력하는 방식의 가장 명백한 결점은 많은 인력과 시간을 소모하는 거대한 작업량이며, 두 번째 결점은 다른 사람이 상업지역 정보를 입력하는 데에 있어 상이한 표준을 사용할 수도 있기 때문에 상업지역 정보의 입력 표준을 조절하는 것이 불가능하다는 것이며, 이것은 후속 데이터 정리와 분석을 곤란하게 한다. 세 번째 결점은, 수동 입력 환경하에서는 많은 상인들이 잘못된 상업지역 정보를 제공했을 수도 있으며, 또한 상인들의 상업지역 정보의 오류나 누락은 입력자의 실수나 주관적인 오류로 인하여 일어날 수도 있기 때문에, 상인의 위치 정보의 입력의 품질을 조절하는 것이 불가하다는 점이다.

이러한 관점에서, 자동으로, 효과적으로, 그리고 정확하게 상인들의 상업지역 정보를 지정하기 위한, 또는 상인들의 누락된 상업지역 정보를 지정하거나 상인들의 잘못된 상업지역 정보를 정정하기 위한 해결책이 필요하다.

본 발명의 하나의 목적은 상인들의 상업지역 정보의 자동적인 지정(specification)을 구현하기 위한 것이다.

본 발명의 또 다른 목적은 상인들의 상업지역 정보의 지정의 정확성을 증진하기 위한 것이다.

본 발명의 또 다른 목적은 상인들의 상업지역 정보의 지정의 효율성을 제고하기 위한 것이다.

상술한 또는 다른 목적들을 달성하기 위하여, 본 발명은 하기의 기술적 해결책들을 제공한다.

본 발명의 일 측면에 따르면, 상인들의 상업지역 정보를 지정(specifying)하기 위한 방법이 제공되는바, 상기 방법은:

소비자의 소비 및 거래 데이터의 연관성 규칙을 마이닝(mining) 및 계산(calculating)하여 상인들 간의 연관성 정보를 획득하는 단계;

상기 상인들의 적어도 일부의 지정된 영업 지역 정보 및 상기 연관성 정보에 기초하여 다수의 상업지역들에 대해 상인들의 상업지역 정보가 지정되지 않은 상인들의 종속률(rates of subordination)들을 계산하는 단계; 및

상기 종속률들에 기초하여 상기 상인들 각각에 대해 상업지역 정보를 지정하는 단계를 포함한다.

본 발명의 일 실시예에 따른 상인들의 상업지역 정보를 지정하는 방법에서, 상기 연관성 정보를 획득하는 단계는:

동일 고객에 속하는 소비 및 거래 데이터를 병합하고(merging), 상기 병합된 소비 및 거래 데이터에 수반되는 모든 상인들을 열거하여 상기 고객에 해당하는 상인 그룹들의 데이터를 형성하는 단계;

상인 그룹들의 각각의 데이터를 하나의 항목 세트로 사용하고 모든 항목 세트들에 대해 연관성 규칙들을 마이닝하고 계산하여, 상기 상인들 중의 1-빈발 항목 세트(1-frequent item set)들 및 2-빈발 항목 세트(2-frequent item set)들뿐만 아니라 상기 1-빈발 항목 세트들 및 2-빈발 항목 세트들 각각의 출현의 빈도(f)를 획득하는 단계; 및

적어도 상기 2-빈발 항목 세트에 기초하여 관련되는 상인들 사이의 연관성의 네트워크를 구성하고, 그리고 상기 연관성 네트워크에서 "엣지(edge)"에 해당하고 엣지 세트 어레이(edge set array)에 의해 표현되는 제1 상인(A) 및 제2 상인(B) 간의 연관성 정보를 저장하는 단계를 포함한다.

선택적으로는, 상기 제1 상인(A) 및 제2 상인(B)에 해당하는 상기 엣지 세트 어레이는:

<제1 상인(A), 제2 상인(B), 연관성 강도 w _AB > 및/또는

<제2 상인 (B), 제1 상인 (A), 연관성 강도 w _AB >

여기서, 상기 연관성 강도 w_AB 는 아래의 [수학식 1]에 의해 계산되며:

[수학식 1]

여기서, f _AB 는 상기 제1 상인(A)과 제2 상인(B)에 해당하는 2-빈발 항목 세트의 출현의 빈도;

f _A 및 f _B 는 각각 제1 상인(A)과 제2 상인(B)에 해당하는 1-빈발 항목 세트의 출현의 빈도; 그리고

N은 상인 그룹들의 모든 데이터의 총합이다.

선택적으로는, 상기 연관성 규칙들의 마이닝 및 계산은 Apriori 또는 FP-Growth 알고리즘을 기반으로 실행된다.

본 발명의 또 다른 실시예에 따른 상인들의 상업지역 정보를 지정하는 방법에 있어, 상기 종속률을 계산하는 단계는 계산을 위한 독립적인 캐스케이드 모델(independent cascade model)을 이용한다.

전술한 실시예들 중의 어느 하나의 방법에 있어, 상기 종속률을 계산하는 단계는:

상기 제1 상인(A)은 그의 상업지역 정보가 지정된 상인이며, 상기 제1 상인은 상기 지정된 상업지역에 대해 A1의 종속률을 갖는다고 가정하면, 상기 상업지역에 대해 상기 제2 상인(B)의 종속률(B1)을 계산하는 단계를 포함하되,

여기서, B1은 하기의 [수학식 2]에 의해 계산되고:

[수학식 2]

B ₁ = min (p×A ₁ × w _AB , 1)

여기서, p 는 상업지역의 종속 전파 확률;

A ₁ 은 상기 지정된 상업지역에 대한 제1 상인의 종속률; 그리고

w _AB 는 제1 상인(A)과 제2 상인(B) 간의 연관성 강도이다.

전술한 실시예들 중의 어느 하나의 방법에 있어, 상업지역 정보가 지정된 상인들 중의 적어도 일부는 연관성 네트워크에서 거점 노드(seed nodes)로 정의된다.

바람직하게는, 각각의 상업지역에서 핵심 및 유명 상인은 상기 상업지역의 거점 노드로서 선택된다.

본 발명의 또 다른 실시예에 따른 상인들의 상업지역 정보를 지정하는 방법에 있어, 상인 각각의 종속률에 기초하여 상업지역 정보를 지정하는 단계는:

그의 상업지역 정보가 지정되지 않은 각각의 상인들에 해당하는 다수의 종속률들 중에서 가장 큰 종속률을 선택하는 단계:

상기 가장 큰 종속률이 소정의 임계치 이상인지 여부를 판단하는 단계;

상기 가장 큰 종속률이 상기 소정의 임계치 이상일 때, 상기 가장 큰 종속률에 해당하는 상업지역을 상기 상인의 상업지역 정보로서 지정하는 단계; 및

상기 가장 큰 종속률이 상기 소정의 임계치 미만일 때에는, 상기 상인은 임의의 상업지역에 대해 명백한 종속성을 갖지 않는다고 간주하고, 상기 상인에 대한 상업 정보의 지정을 포기하는 단계를 포함한다.

본 발명의 또 다른 측면에 따르면, 상인들의 상업지역 정보를 지정하기 위한 장치가 제공되는바, 상기 장치는:

상인들 간의 연관성 정보를 획득하도록 소비자들의 소비 및 거래 데이터의 연관성 규칙들을 마이닝 및 계산하는 제1 요소; 및

상기 상인들 중의 적어도 일부의 지정된 상업지역 정보 및 연관성 정보에 기초하여 다수의 상업지역들에 대해 그의 상업지역 정보가 지정되지 않은 상인들의 종속률들을 계산하는 제2 요소; 및

상기 상인들 각각에 대해 그들의 종속률에 기초하여 상업지역 정보를 지정하는 제3 요소를 포함한다.

본 발명의 또 다른 실시예에 따른 상인들의 상업지역 정보를 지정하기 위한 장치에 있어, 상기 제1 요소는:

동일 고객에 속하는 소비 및 거래 데이터를 병합하고, 상기 병합된 소비 및 거래 데이터에 수반되는 모든 상인들을 열거하여, 상기 고객에 해당하는 상인 그룹들의 데이터를 형성하도록 하는 제1 부요소(sub-component);

상인 그룹들의 각각의 데이터를 하나의 항목 세트로 사용하여 모든 항목 세트들에 대해 연관성 규칙을 마이닝하고 계산하여 상기 상인들 중의 1-빈발 항목 세트들 및 2-빈발 항목 세트들뿐만 아니라 상기 1-빈발 항목 세트들 및 2-빈발 항목 세트들 각각의 출현의 빈도(f)를 획득하는 제2 부요소; 및

상기 2-빈발 항목 세트에 적어도 기초하여 상기 2-빈발 항목 세트에 수반되는 상인들 중의 연관성의 네트워크를 구성하고, 상기 연관성 네트워크에서 "엣지"에 해당하고 엣지 세트 어레이에 의해 표현되는 제1 상인(A) 및 제2 상인(B) 간의 연관성 정보를 저장하는 제3 부요소를 포함한다.

선택적으로는, 상기 제3 부요소에서 상기 제1 상인(A) 및 제2 상인(B)에 해당하는 상기 엣지 세트 어레이는,

<제1 상인(A), 제2 상인 (B), 연관성 강도 w _AB > 및/또는

<제2 상인 (B), 제1 상인 (A), 연관성 강도 w _AB >

여기서, 상기 연관성 강도 w _AB 는 하기의 [수학식 1]에 의해 계산되며:

[수학식 1]

여기서, f _AB 는 제1 상인(A) 및 제2 상인 (B)에 해당하는 2-빈발 항목 세트의 출현 빈도이고, f _A 및 f _B 는 각각 제1 상인(A) 및 제2 상인 (B)에 해당하는 1-빈발 항목 세트의 출현 빈도이고, N은 상인 그룹들의 모든 데이터의 총합이다.

본 발명의 또 다른 실시예에 따른 상인들의 상업지역 정보를 지정하기 위한 장치에 있어, 상기 제2 요소는 계산을 위한 독립적인 캐스케이드 모델(independent cascade model)을 사용하도록 구성된다.

전술한 실시예들 중의 어느 하나의 장치에 있어서, 상기 제2 요소는 하기 단계를 수행하도록 구성되는 것으로서:

상기 제1 상인(A)은 그의 상업지역 정보가 지정된 상인이며, 상기 제1 상인은 상기 지정된 상업지역에 대해 A1의 종속률을 갖는다고 가정하면, 상기 상업지역에 대해 상기 제2 상인(B)의 종속률(B1)을 계산하는 단계로서,

여기서, B1은 하기의 [수학식 2]에 의해 계산되고;

[수학식 2]

B ₁ = min (p×A ₁ × w _AB , 1)

여기서, p 는 상업지역의 종속 전파 확률;

A ₁ 은 상기 지정된 상업지역에 대한 제1 상인의 종속률; 및

w _AB 는 제1 상인(A)과 제2 상인(B) 간의 연관성 강도이다.

본 발명의 또 다른 실시예에 따른 상인들의 상업지역 정보를 지정하기 위한 장치에 있어, 상기 제3 요소는:

그의 상업지역 정보가 지정되지 않은 상인들 각각에 해당하는 다수의 종속률 중의 가장 큰 종속률을 선택하고;

상기 가장 큰 종속률이 소정의 임계치 이상인지 아닌지를 판단하고;

상기 가장 큰 종속률이 상기한 소정의 임계치 이상일 경우, 상기 가장 큰 종속률에 해당하는 상업지역을 상기 상인의 상업지역 정보로서 지정하고; 그리고

상기 가장 큰 종속률이 상기한 소정의 임계치보다 작을 경우, 상기 상인은 어떤 상업지역에 대해서도 명백한 종속성을 갖지 않는 것으로 간주하고 상기 상인에 대하여 상업 정보의 지정을 포기하도록 구성된다.

본 발명의 또 다른 측면에 따르면, 컴퓨터 프로그램 코드 장치가 컴퓨터 기능을 갖는 전자 장치에 의해 작동될 때 상술한 리스크 컨트롤(risk control) 방법을 실행하기 위해 사용되는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램 제품이 제공된다.

이러한 본 발명의 장점과 특징들과 기타의 것들이 도면들을 참조하여 하기의 설명을 검토함으로써 용이하게 자명하게 될 것이다.

상기한 그리고 또 다른 본 발명의 목적들과 장점들이 첨부한 도면들과 결부하여 후술하는 상세한 설명으로부터 더욱 명료하고 완벽하게 이해될 것이다. 여기서 도면 중, 같은 참조기호들은 같은 구성요소들을 지칭한다.
도 1은 본 발명의 일 실시예에 따른 상인들의 상업지역 정보를 지정하는 방법의 흐름도이다.

본 발명의 다수의 가능한 실시예들 중의 어느 것은 본 발명의 중요하거나 결정적인 인자들을 확인하거나 그 청구된 보호 범위를 한정하기보다는 본 발명에 대한 기본적인 이해를 제공하기 위한 목적으로 다음에서 기술되고 있다. 본 발명의 기술적인 해결책들에 기초하여 당해 기술분야의 전문가들은 본 발명의 기본적인 정신을 변화시키지 않고 다른 대체 가능한 실시예들을 제안할 수 있다는 것이 쉽게 이해될 것이다. 그러므로, 후술하는 실시예들과 도면들은 단지 본 발명의 기술적인 해결책들의 예들일뿐이며, 그렇지만 그것들은 본 발명의 전체로서 또는 본 발명의 기술적 해결책들에 대한 한정 또는 제한으로서 이해되어서는 아니 될 것이다.

후술하는 설명에서, 도시에서의 "상업지역(commercial district)"의 정의가 알려지며, 예를 들어, 그 상업지역들에 해당하는 지역들의 범위가 알려지며, 그리고 본 명세서에서 개시되는 것과 같은 상업지역 정보를 지정하기 위한 해결책은 어떤 상인이 속하는 상업지역을 인지하고 그것을 지정하거나 수정하는 것을 목적으로 하며, 반면에 그 상인의 유형, 위치 등은 제한적이지 않다.

본 명세서에서, k 항목들을 포함하는 항목 세트(item set)는 k-항목 세트로서 지칭되는데, 여기서 k는 예컨대, 1-항목 세트, 2-항목 세트와 같이 1 이상의 정수이며, k-항목 세트에 포함된 각 항목은 k-항목이라 지칭되며, 어느 한 k-항목 세트의 지지도(degree of support)를 계산하여 상기 지지도가 그 지지도의 해당 임계치 이상인지 알도록 함으로써, 상기 k-항목 세트가 k-빈도-항목 세트(k-frequent-item set)인지의 여부가 결정될 수 있다. 여기서, 상기 지지도의 임계치는 특정 상황에 따라 설정될 수 있으며, 이때 k는 상이한 값들을 가지며, 그 지지도의 해당 임계치들은 같거나 상이할 수도 있다.

도 1은 본 발명의 일 실시예에 따른 상인들의 상업지역 정보를 지정하는 방법의 흐름도이다. 상기한 본 발명의 일 실시예에 따른 상인들의 상업지역 정보를 지정하는 방법은 도 1을 참조하여 아래에서 상세하게 기술될 것이다.

먼저, 단계 S110에서, 동일 소비자의 소비 및 거래 데이터가 함께 병합되어(merged) 일군의 상인들의 데이터를 형성하게 된다. 본 발명의 일 실시예에서, 상인들 간의 연관성(association)이 소비와 거래의 기록(예컨대, 소비 및 거래 데이터)에 기초하여 형성된다. 상기 소비 및 거래 데이터의 내용은 통상적으로 상인들에 대한 정보와 소비자들에 대한 정보를 적어도 포함한다. 소비자들이란 소비자 개인들을 지칭하며, 상기한 소비 및 거래 데이터에서 소비자들과 상인들의 식별 또는 표현은 제한적이지 않으며, 예를 들면, 소비자에 대한 식별은 카드 번호, 결제 계좌 번호, 물리적인 신원의 식별 등일 수 있으며, 또한 상인들에 대한 식별은 상인의 이름, 일련번호 등일 수도 있다.

상기 단계에서의 데이터 처리 중, 더 많은 양의 소비 및 거래 데이터에 기초하여, 동일 소비자에 속하는 소비 및 거래 데이터가 함께 병합되어 그 병합된 소비 및 거래 데이터에 수반되는 모든 상인들의 리스트를 획득하도록 하며, 따라서 상기 상인들은 일군의 상인들의 데이터를 형성하게 되며, 이것은 그 소비자에 해당하는 일군의 상인들의 데이터이다.

또한 단계 S120에서는, 상기한 일군의 상인들의 데이터의 각각을 하나의 항목 세트로서 사용함으로써 연관성 규칙들을 마이닝(mined)하고 계산한다. 특히, 상기 단계에서, 각 소비자에 해당하는 일군의 상인들의 데이터는 이전의 단계에서 획득 가능하며, 일군의 상인들의 각각의 데이터는 상기 연관성 규칙들의 마이닝에 사용된 항목 세트로서 정의되며, 그리고 상기 항목 세트에 포함되어 있는 항목들의 수는 상인들의 수를 반영하는데, 이것은 제한적이지 않으며, 예를 들면, k-항목 세트는 k 개의 상인들이 포함되어 있음을 의미한다. 본 실시예에서, 연관성 규칙의 마이닝 알고리즘(algorithm of mining)이 다수의 항목 세트들의 연관성 규칙들을 마이닝하고 계산하기 위해 사용될 수 있으며, 이렇게 함으로써 상인들에 있어서 1-빈발 항목 세트 및 2-빈발 항목 세트 모두뿐만 아니라 1-빈발 항목 세트 및 2-빈발 항목 세트의 출현의 빈도(frequency of appearance)를 획득하도록 한다. 특히, 연관성 규칙들의 마이닝 및 계산은 Apriori 또는 FP-Growth 알고리즘에 기초하여 수행될 수 있으며(이것에만 한정되지는 않음), 또한 연관성 규칙들의 마이닝 및 계산에 사용되는 알고리즘은 그 연관성 규칙들의 마이닝 및 계산 기법의 발전과 함께 업데이트될 수도 있다.

여기서, 상기 1-항목 세트 및 2-항목 세트가 1-빈발 항목 세트 및 2-빈발 항목 세트인지 여부를 결정할 때, 그것들이 상기 지지도의 해당하는 임계치 이상인지 여부를 알기 위해 그의 지지도(degrees of support)들이 계산될 수 있다. 그 세부사항들은 여기서는 더이상 공들여 설명하지는 않는다.

또한, 단계 S130에서는 상기 2-빈발 항목 세트를 이용하여 연관성 네트워크가 구성되고 엣지 세트 어레이(edge set array)에 의해 표현되는 연관성 정보가 저장된다. 이 단계에서는 상기 S120단계에서 마이닝 되는 2-빈발 항목 세트가 저장될 것이며, 2-빈발 항목 세트에서의 2-빈발 항목은 두 상인들에 해당하며, 그리고 상기 2-빈발 항목 세트에 해당하는 상기 두 상인들 사이에는 연관성이 존재하며, 따라서 상기 상인들을 "노드(node)"로 활용하고, 각각의 2-빈발 항목 세트에 해당하는 두 상인들 간의 연관성을 "엣지들(edges)"로서 활용함으로써, 네트워크와 같은 연관성 구조, 즉 연관성 네트워크가 모든 2-빈발 항목 세트들에 수반되는 모든 상인들에 대해 구성된다. 상기 연관성 네트워크는 엣지 세트 어레이들에 의하여 표현될 수가 있고, 또한 모든 엣지 세트 어레이들을 저장할 수 있다. 상기 엣지 세트 어레이는 시작 지점에서의 상인 A와 연관성 네트워크의 "엣지"에 해당하는 종료 지점에서의 상인 B 사이의 연관성 정보를 표현하는데, 예를 들면, 상인 A와 상인 B 간의 엣지 세트 어레이는 하기의 수식에 의해 표현되며:

<상인 A, 상인 B, 연관성 강도 w _AB > 및/또는

<상인 B, 상인 A, 연관성 강도 w _AB >

여기서, 상인 A는 소스 노드/목표 노드이고, 상인 B는 목표 노드/소스 노드이며, 그리고 연관성 강도 w _AB 는 엣지 세트 어레이의 엣지 가중치(edge weight)에 해당한다.

특히, 상인들 간의 연관성은 방향성이 없는데, 말하자면, 각각의 2-빈발 항목 세트에 해당하는 엣지는 방향성이 없고, 따라서 각각의 2-빈발 항목 세트는 두 개의 엣지들을 저장할 수가 있으며, 즉, 그것은 전술한 엣지 세트 어레이들 중의 두 개를 저장할 수 있고, 여기서 상기한 연관성 강도 w _AB 는 하기의 [수학식 1]에 의해 계산된다:

[수학식 1]

여기서, f _AB 는 상인 A 및 상인 B에 해당하는 2-빈발 항목 세트의 출현의 빈도이고, f _A 는 상인 A에 해당하는 1-빈발 항목 세트의 출현의 빈도이며, 그리고 f _B 는 상인 B에 해당하는 1-빈발 항목 세트의 출현의 빈도이며, N은 단계 S110에서 획득된 상인 그룹들의 데이터의 총합이다.

상기 단계들 S110 내지 S130은 본질적으로 상인들 간의 연관성의 설정을 구현하는 것으로서, 아래의 상업지역 정보의 지정은 전술한 바와 같이 획득된 연관성 정보에 기초하고 있다.

한편, 단계 S140에서는 그의 상업지역 정보가 다수의 상업지역들에 지정되지 않은 상인들의 종속률들(rates of subordination)이 계산된다.

본 발명에서 그의 상업지역 정보가 지정되지 않은 상인들에 대해 상업지역 정보를 지정하기 위한 전제조건은 그 상인들 중의 적어도 일부의 상업지역 정보가 지정되었음을 조건으로 한다(즉, 정확한 것으로 인식 및 확인된 것). 일반적으로, 어떤 상업지역에 포함되어 있는 주요 상인들(예를 들면, 핵심 및 유명 상인)의 상업지역 정보가 인식되고 확인되어야만 하며, 따라서 이러한 유명 상인들은 상기 상업지역의 지정 상인들로서 활용될 수 있으며, 상기 기정 상인들은 그들이 속하는 상업지역의 거점 노드(seed node)로 정의될 수 있는데, 예를 들면, 상기 유명 상인들이 전술한 연관성 네트워크에 나타날 때, 그것들은 그들이 속하는 상업지역의 거점 노드로서 정의될 수 있다. 각 상업지역의 거점 노드들의 수에 대해서는 어떤 제한도 없지만, 각 상업지역의 거점 노드들의 수가 크면 클수록 본 발명에 있어 지정의 결과는 더욱 정확할 것이라는 것을 유념하여야 할 것이다. 한편, 상기 거점 노드들은 본 발명에서 지정(specifying)의 결과의 정확도를 증가시키도록 그 상업지역에서의 가장 대표적인 상인들이어야만 할 것이다. 게다가, 바람직하게는, 상이한 상업지역들의 거점 노드들의 수 사이에는 큰 차이가 존재하지는 않아야 하는데, 예컨대, 상이한 상업지역들의 거점 노드들의 수 사이의 차이는 20을 넘지 않아야 하며, 그리고 상이한 상업지역들의 거점 노드들의 수 사이의 차이의 값의 범위는 상인들의 상업지역 정보를 지정하기 위한 모델 트레이닝 단계에서 실제의 데이터 상황에 따라서 조정 가능하다.

본 실시예에서, 상기 거점 노드들로부터 시작해서, 다수의 상업지역들에 대한 다른 상인들의 종속률이 상인들 간의 연관성 네트워크에서 계산될 수가 있다.

설명의 편의상, 두 개의 상업지역에 모든 상인들이 속하는 것으로 가정하면(다른 수의 상업지역들에 대해서는 본 발명의 실시예의 개시에 따라서 유추가 이루어질 수 있음), 그들이 속하는 상업지역들에 대하여 모든 거점 노드들의 종속률은 1인 것으로 초기에 간주되며, 그리고 상이한 상업지역들에 대해 다른 상인들의 종속률의 계산은 아래에서 기술될 것이다. 본 발명의 실시예에서, 종속률의 계산은 독립형 캐스케이드 모델(Independent Cascade Model)에 의하여 구현되며, 그 세부적인 과정은 다음과 같다.

먼저, 어떤 상업지역에 대하여 상인들은 두 가지의 유형, 즉, "종속률이 지정된 상인들"과 "종속률이 지정되지 않은 상인들"로 나뉘어지는 것으로 인식하여야 할 것이다. 시초에는 단지 거점 노드들만이 그들의 종속률들이 지정되게 하고, 그리고 각각의 상인에 대하여는 어떤 상업지역에 대한 그의 종속률이 지정되어 있는 한, 상기 상업지역에 대한 그의 종속률은 더 이상 변화될 수 없을 것이다.

다음으로, 해당하는 상업지역에 대한 그의 종속률이 지정된 각 상인들에 대하여, 상기 상인과 연관되어 있고 그 종속률이 아직 지정되지 않은 상인들에 대한 종속률들이 계산된다. 예를 들면, 상인 A에 대하여, 상업지역 1에 대해 그 종속률이 A₁으로서 지정되어 있거나, 또는 상업지역 1과 상업지역 2에 대한 종속률이 A₁ 및 A₂ (A₁ > A₂)로서 지정되어 있는 한편, 상인 B는 상인 A와 연관되고, 말하자면, 상인 B와 상인 A는 연관성 네트워크의 엣지의 두 종단점들이며, 상업지역 1에 대한 종속률은 상인 B에 대해서는 지정되지 않았다고 가정하면, 상업지역 1에 대한 상인 B의 종속률은 하기의 [수학식 2]에 의해 계산된다:

[수학식 2]

B ₁ = min (p×A ₁ ×w _AB , 1)

여기서, p 는 상업지역의 종속성 전파 확률로서, 상기 확률은 0.1과 같은 미리 정의된 고정 값일 수 있거나, 또는 그것은 어떤 규칙에 따라 변화하는 하나의 값일 수 있는데, 예를 들면, 상기 상업지역에 대해 상인의 종속률이 지정되는 각 시점에 p 의 값은 감소를 나타내며;

A ₁ 는 상업지역 1에 대해 이미 지정된 상인 A의 종속률이며, 그것은 알려져 있고; 그리고

w _AB 은 상인 A와 상인 B 간의 연관성 강도인데, 이것은 상술한 [수학식 1]에 의해 계산되며, 이미 저장되어 있다.

상기 [수학식 2]에서, 상업지역 1에 대한 상인 B의 종속률(B₁)은 (p×A ₁ ×W _AB )와 1 중의 더 작은 것이며, 여기서 1은 최대 확률 1, 즉 종속률에 대해 최대로 가능한 값을 반영한다.

더욱이, 상기 과정은 다른 상업지역들에 대해 상기 상인의 종속률이 계산되어 지정될 때까지 반복된다. 예컨대, 상업지역 2에 대한 상인 B의 종속률(B₂)이 계산된다.

상기 실시예는 단지 독립형 캐스케이드 모델(Independent Cascade Model)에 의하여 다수의 상업지역들에 대해 비지정된 상인의 종속률들을 계산하기 위한 일례를 제공하고 있지만, 당해 기술분야의 전문가라면, 전술한 개시와 교시 내용을 기초로 하여 다른 유형의 전파 모델들(예컨대, 선형 임계 모델 등)이 지정된 상인들에 해당하는 상업지역들에 대해 비지정된 상인들의 종속률들을 계산하기 위해 활용될 수도 있음을 이해할 것이라는 점에 유의하여야 할 것이다.

한편, 단계 S150에서, 가장 큰 종속률이 그의 상업지역 정보가 지정되지 않은 각 상인의 종속률들로부터 선택된다. 상인 B를 예로 들면, 상기 가장 큰 값이 종속률 B₁ 및 B₂로부터 선택되고, 상기 가장 큰 값에 해당하는 상업지역은 상인 B가 속하는 후보(candidate) 상업지역이다.

또한, 단계 S160에서, 상기 가장 큰 종속률이 소정의 임계치 이상인지 여부가 판단된다.

만일 후보 상업지역에 대한 어느 상인의 종속률이 미리 설정된 임계치(σ)에 도달한다면, 상기 후보 상업지역은 상기 상인이 속하는 상업지역이며, 가장 큰 종속률에 해당하는 상업지역이 상기 상인의 상업지역 정보로서 지정되는 것으로 결정될 것이다. 말하자면, 단계 S180이 수행된다. 만일 상기 가장 큰 종속률이 상기 미리 설정된 임계치(σ)보다 작다면, 상기 상인은 어떤 상업지역에 대해서도 명백한 종속성을 갖지 않는다고 간주될 것이며, 또한 상기 상인에 대하여 상업지역 정보의 지정은 포기된다. 말하자면, 단계 S170이 수행된다.

만일 동일한 값을 갖는 다수의 가장 큰 종속률이 단계 S150에서 나타나고, 또한 상기 다수의 가장 큰 종속률들이 모두 단계 S160에서 미리 설정된 임계치(σ) 이상인 것으로 판단된다면, 그것은 상기 상인이 다수의 상업지역들에 속할 수도 있다는 것을 의미한다는 것과; 그리고 상기 다수의 가장 큰 종속률들이 모두 단계 S160에서 상기한 미리 설정된 임계치(σ)보다 작은 것으로 모두 판단된다면, 그것은 상기 상인이 어떤 상업지역들에도 명백한 종속성을 갖지 않는다는 것을 의미한다는 것을 유념하는 것이 중요하다.

전술한 단계들 S140-S180을 연속적으로 실행함으로써, 각 상인에 대한 상업지역 정보의 지정이 실현될 수 있다. 더욱 명료하게 설명하면, 전술한 단계들에서 그 상업지역 정보가 지정된 상인들은 그의 상업지역 정보가 지정된 상인들로서 활용될 수 있으며, 따라서, 상기 상인들과 연관된 상인들의 상업지역 정보의 지정을 위한 기초를 제공하게 된다. 이와 같은 전파 수단에 의하여 모든 상인들에 대한 상업지역 정보의 지정이 실현될 수 있다.

상기 실시예들에 개시된 바와 같은 상인들의 상업지역 정보를 지정하기 위한 방법은, 그의 상업지역 정보가 지정되지 않은 상인들에 대해 상업지역 정보를 지정하는 것이 가능할뿐만 아니라, 잘못된 상업지역 정보를 갖는 상인이 "그의 상업지역 정보가 지정되지 않음"으로 간주되기는 하지만, 그의 상업지역 정보가 이미 알려져 있지만 잘못되어 있는 상인에 대해서도 상업지역 정보를 재지정하는 것이 가능하다는 것을 인식하여야 할 것이다.

본 발명의 실시예들은 상인들의 상업지역 정보의 자동적인 지정을 실현할 수가 있으며, 이로써 수동 지정 시의 문제나 결점들을 회피하고, 또한 상업지역 정보의 정확하고 효율적인 지정을 구현하도록 한다.

상기한 흐름도들 및/또는 블록도들 뿐만 아니라 상기 흐름도들 및/또는 블록도들의 상응한 예시는 컴퓨터 프로그램 명령에 의해 구현 가능하다는 것을 이해하여야 할 것이다. 상기 컴퓨터 프로그램 명령들은 범용 컴퓨터, 특수용 컴퓨터 또는 하나의 기계장치를 형성하도록 구성된 다른 프로그램 가능한 데이터 프로세싱 장치들의 프로세서들에 제공될 수 있으며, 이로써 그 컴퓨터 또는 다른 프로그램 가능한 데이터 프로세싱 장치들의 프로세서들에 의해 실행되는 명령들은 상기한 흐름도들 및/또는 블록도들의 하나 또는 다수의 블록들에 지정된 기능들/동작들을 구현하기 위한 구성요소들을 구성한다.

아울러, 상기 컴퓨터 프로그램 명령들은 컴퓨터 또는 다른 프로그램 가능한 프로세서들이 특정 방식으로 기능들을 달성하도록 지시하기 위해 컴퓨터로 독출 가능한 메모리 내에 저장될 수 있으며, 이로써 상기 컴퓨터로 독출 가능한 메모리에 저장된 명령들은 상기 흐름도들 및/또는 블록도들의 하나 또는 다수의 블록들에 지정된 기능들/동작들을 구현하기 위한 구성요소들을 포함하는 제조된 제품들을 형성한다.

더욱이, 상기 컴퓨터 프로그램 명령들은 일련의 동작 과정들이 컴퓨터 또는 다른 프로그램 가능한 데이터 프로세서들 상에서 실행될 수 있도록 그 컴퓨터 또는 다른 프로그램 가능한 프로세서들에 로딩됨으로써 컴퓨터로 구현되는 프로세스를 형성할 수 있으며, 이로써 상기 컴퓨터 또는 다른 프로그램 가능한 데이터 프로세서들 상에서 실행되는 상기한 명령들은 상기 흐름도들 및/또는 블록도들 중의 하나 또는 다수의 블록들에 지시된 기능들 또는 동작들을 구현하기 위한 과정들을 제공하는 것이다. 또한, 어떤 선택적인 구현들에 있어서는, 상기 블록들에 지시된 그 기능들/동작들이 흐름도에 도시된 순서에 따라서 일어나지 않을 수도 있다는 것을 유념하여야 할 것이다. 예를 들면, 그 순서에 도시된 두 개의 블록들이 실질적으로 동시에 실행될 수도 있거나, 또는 때로는 이러한 블록들은 그에 수반되는 기능들/동작들에 따라서는 반전된 순서도 실행될 수도 있을 것이다.

상기한 실시예들에 기술된 지정 방법은, 예를 들어, 상인 정보의 데이터 세트의 누락된 상업지역 정보가 지정되는 자동화 방식으로 상업지역 정보를 지정하도록, 그리고 상인 정보의 수동 입력의 부족을 보상하도록 데이터 마이닝(data mining) 방법을 활용하며, 따라서 효율적이고 정확하며 또한 상인 기반의 데이터 분석과 서비스 제공을 위해 편리성을 도모한다.

또한, 복잡한 네트워크에서 정보 전파 모델(information propagation model)-독립형 캐스케이드 모델(Independent Cascade Model)에 의하여 상인들의 상업지역 정보를 지정하는 과정에 있어서, 상업지역의 종속성이 기본 정보로서 활용되며, 그리고 상기 정보는 상인들의 연관성 네트워크에서 전파되며, 이로써 어떤 상업지역에도 종속하지 않는 상인들도 어느 하나의 상업지역에 해당하는 종속성을 획득하게 된다. 전파 모델들 중의 하나로서 상기 독립형 캐스케이드 모델은 신뢰성 있는 수학적 토대를 가지며, 이것은 최종적으로 획득된 상업지역 정보의 정확성을 보장할 수 있다.

전술한 예들은 주로 본 발명에 따른 상인들의 상업지역 정보를 지정하기 위한 방법을 기술하고 있다. 본 발명의 여러 실시예들 중의 단지 일부만 기술되고 있지만, 당해 기술분야에서의 전문가들이라면 본 발명은 본 발명의 정신과 영역에서 이탈하지 않고 수많은 다른 형태로 구현될 수도 있다는 것을 이해하여야 할 것이다. 따라서, 전술한 예들과 실시예들은 제한적이라기보다는 개략적인 것으로서, 본 발명은 후술하는 특허청구범위에서 정의된 본 발명의 정신과 영역으로부터 벗어남이 없이 다양한 변경과 치환이 이루어질 수도 있다.

Claims

상인들의 상업지역 정보를 지정하기 위한 장치의 제1 요소가 소비자들의 소비 및 거래 데이터의 연관 규칙을 마이닝 및 계산하여 상인들 간의 연관성 정보를 획득하는 단계;
제2 요소가 상기 상인들의 적어도 일부의 지정된 상업지역 정보 및 상기 연관성 정보에 기초하여 그 상인들의 상업지역 정보가 지정되지 않은 상인들의 종속률(rates of subordination)을 계산하는 단계; 및
제3 요소가 상기 종속률에 기초하여 상기 상인들 각각에 대해 상업지역 정보를 지정하는 단계;를 포함하는 것으로,
여기서, 상기 종속률을 계산하는 단계는:
제1 상인(A)은 그의 상업지역 정보가 지정되었던 상인이며, 상기 제1 상인은 상기 지정된 상업지역에 대해 A1의 종속률을 갖는다고 가정하여, 상기 상업지역에 대해 제2 상인(B)의 종속률(B1)을 계산하는 단계를 포함하되,
여기서, B1은 하기의 [수학식 2]에 의해 계산되고:
[수학식 2]
B₁ = min (p×A₁×w_AB , 1)
여기서, p 는 상업지역의 종속 전파 확률;
A₁ 은 상기 지정된 상업지역에 대한 제1 상인의 종속률; 그리고
w_AB 는 제1 상인(A)과 제2 상인(B) 간의 연관성 강도이며,
상기 연관성 강도 w_AB 는 하기의 [수학식 1]에 의해 계산되고:
[수학식 1]

여기서, f_AB 는 제1 상인(A)과 제2 상인(B)에 해당하는 2-빈발 항목 세트 출현의 빈도;
f_A 및 f_B 는 각각 제1 상인(A)과 제2 상인(B)에 해당하는 1-빈발 항목 세트 출현의 빈도; 및
N은 상인 그룹들의 모든 데이터의 총합인 것인, 상인들의 상업지역 정보를 지정하기 위한 방법.
제1항에 있어서, 상기 연관성 정보를 획득하는 단계는:
동일 고객에 속하는 소비 및 거래 데이터를 병합하고, 상기 병합된 소비 및 거래 데이터에 수반되는 모든 상인들을 열거하여 상기 고객에 해당하는 상인 그룹들의 데이터를 형성하도록 하는 단계;
상인 그룹들의 각각의 데이터를 하나의 항목 세트로 사용하여 모든 항목 세트들에 대해 연관성 규칙을 마이닝하고 계산하여, 상기 상인들 중의 1-빈발 항목 세트들 및 2-빈발 항목 세트들뿐만 아니라 상기 1-빈발 항목 세트들 및 2-빈발 항목 세트들 각각의 출현의 빈도(f)를 획득하는 단계; 및
적어도 상기 2-빈발 항목 세트에 기초하여 상기 2-빈발 항목 세트에 수반되는 상인들 중에서 연관성 네트워크를 구성하고, 상기 연관성 네트워크에서 "엣지(edge)"에 해당하고 엣지 세트 어레이에 의해 표현되는 제1 상인(A) 및 제2 상인(B) 간의 연관성 정보를 저장하는 단계를 포함하는 방법.
제2항에 있어서,
상기 제1 상인(A) 및 제2 상인(B)에 해당하는 상기 엣지 세트 어레이는:
<제1 상인(A), 제2상인(B), 연관성 강도 w_AB > 및/또는
<제2 상인 (B), 제1 상인 (A), 연관성 강도 w_AB >인 것인 방법.
제1항에 있어서, 상기 연관 규칙들의 마이닝 및 계산은 Apriori 또는 FP-Growth 알고리즘을 기반으로 실행되는 것인 방법.
제1항에 있어서, 상기 종속률을 계산하는 단계는 계산을 위하여 독립형 캐스케이드 모델(independent cascade model)을 이용하는 것인 방법.
삭제
제3항에 있어서, 상업지역 정보가 지정된 상인들 중의 적어도 일부는 연관성 네트워크에서 거점 노드(seed nodes)로 정의되는 것인 방법.
제7항에 있어서, 각각의 상업지역에서 핵심 및 유명 상인은 상기 상업지역의 거점 노드로서 선택되는 것인 방법.
제1항에 있어서,
상인 각각의 종속률에 기초하여 상업지역 정보를 지정하는 단계는:
상업지역 정보가 지정되지 않은 각각의 상인들에 해당하는 다수의 종속률들 중에서 가장 큰 종속률을 선택하는 단계:
상기 가장 큰 종속률이 소정의 임계치 이상인지 여부를 판단하는 단계;
상기 가장 큰 종속률이 상기 소정의 임계치 이상일 때, 상기 가장 큰 종속률에 해당하는 상업지역을 상기 상인의 상업지역 정보로서 지정하는 단계; 및
상기 가장 큰 종속률이 상기 소정의 임계치 미만일 때, 상기 상인은 임의의 상업지역에 대해 명백한 종속성을 갖지 않는다고 간주하고, 그리고 상기 상인에 대해서는 상업지역 정보의 지정을 포기하는 단계를 포함하는 방법.
상인들의 상업지역 정보를 지정하기 위한 장치에 있어서,
상인들 간의 연관성 정보를 획득하도록 소비자들의 소비 및 거래 데이터의 연관 규칙들을 마이닝 및 계산하는 제1 요소; 및
상기 상인들 중의 적어도 일부의 지정된 상업지역 정보 및 연관성 정보에 기초하여 그의 상업지역 정보가 지정되지 않은 종속률들을 계산하는 제2 요소; 및
상기 상인들 각각에 대해 그들의 종속률에 기초하여 상업지역 정보를 지정하는 제3 요소를 포함하는 것으로,
여기서, 제2 요소는:
제1 상인(A)은 그의 상업지역 정보가 지정되었던 상인이며, 그리고 상기 제1 상인은 상기 지정된 상업지역에 대해 A1의 종속률을 갖는다고 가정하면, 상기 상업지역에 대해 제2 상인(B)의 종속률(B1)을 계산하는 단계를 수행하도록 구성되고, 여기서, B1은 하기의 [수학식 2]에 의해 계산되고;
[수학식 2]
B₁ = min (p×A₁×w_AB , 1)
여기서, p 는 상업지역의 종속 전파 확률;
A₁ 은 상기 지정된 상업지역에 대한 제1 상인의 종속률; 그리고
w_AB 는 제1 상인(A)과 제2 상인(B) 간의 연관성 강도이며,
상기 연관성 강도 w_AB 는 하기의 [수학식 1]에 의해 계산되고:
[수학식 1]

여기서, f_AB 는 제1 상인(A)과 제2 상인(B)에 해당하는 2-빈발 항목 세트 출현의 빈도;
f_A 및 f_B 는 각각 제1 상인(A)과 제2 상인(B)에 해당하는 1-빈발 항목 세트 출현의 빈도; 및
N은 상인 그룹들의 모든 데이터의 총합인, 상인들의 상업지역 정보를 지정하기 위한 장치.
제10항에 있어서, 상기 제1 요소는:
동일 고객에 속하는 소비 및 거래 데이터를 병합하고, 상기 병합된 소비 및 거래 데이터에 수반되는 모든 상인들을 열거하여 상기 고객에 해당하는 상인 그룹들의 데이터를 형성하도록 하는 제1 부요소(sub-component);
상인 그룹들의 데이터 각각을 하나의 항목 세트로 사용하여 모든 항목 세트들에 대해 연관성 규칙을 마이닝하고 계산하여, 상기 상인들 중의 1-빈발 항목 세트들 및 2-빈발 항목 세트들뿐만 아니라 상기 1-빈발 항목 세트들 및 2-빈발 항목 세트들 각각의 출현의 빈도(f)를 획득하도록 하는 제2 부요소; 및
상기 2-빈발 항목 세트에 적어도 기초하여 상기 2-빈발 항목 세트에 수반되는 상인들 중의 연관성의 네트워크를 구성하고, 그리고 상기 연관성 네트워크에서 "엣지(edge)"에 해당하고 엣지 세트 어레이에 의해 표현되는 제1 상인(A) 및 제2 상인(B) 간의 연관성 정보를 저장하는 제3 부요소를 포함하는 것인 장치.
제11항에 있어서,
상기 제3 부요소에서, 상기 제1 상인(A) 및 제2 상인(B)에 해당하는 상기 엣지 세트 어레이는:
<제1 상인(A), 제2 상인 (B), 연관성 강도 w_AB > 및/또는
<제2 상인 (B), 제1 상인 (A), 연관성 강도 w_AB >인 것인 장치.
제10항에 있어서, 상기 제2 요소는 계산을 위한 독립형 캐스케이드 모델(independent cascade model)을 사용하도록 구성되는 것인 장치.
삭제
제10항에 있어서, 상기 제3 요소는:
그의 상업지역 정보가 지정되지 않은 상인 각각에 해당하는 다수의 종속률 중의 가장 큰 종속률을 선택하고;
상기 가장 큰 종속률이 소정의 임계치 이상인지 아닌지를 판단하고;
상기 가장 큰 종속률이 상기한 소정의 임계치 이상일 경우, 상기 가장 큰 종속률에 해당하는 상업지역을 상기 상인의 상업지역 정보로서 지정하고; 그리고
상기 가장 큰 종속률이 상기한 소정의 임계치보다 작을 경우, 상기 상인은 어떤 상업지역에 대해서도 명백한 종속성을 갖지 않으며 또한 상기 상인에 대하여 상업지역 정보의 지정을 포기하도록 구성되는 것인 장치.
컴퓨터 프로그램 코드가 컴퓨터 기능을 갖는 전자 장치에 의해 작동될 때 제1항 내지 제5항 및 제7항 내지 제9항 중의 어느 한 항에 따른 방법을 실행하기 위해 사용되는, 컴퓨터 프로그램 코드를 포함하는, 기록매체에 저장된 컴퓨터 프로그램.