KR102510463B1 - 상권 분석 정보 제공 방법 및 이를 기록한 기록매체 - Google Patents

상권 분석 정보 제공 방법 및 이를 기록한 기록매체 Download PDF

Info

Publication number
KR102510463B1
KR102510463B1 KR1020210153007A KR20210153007A KR102510463B1 KR 102510463 B1 KR102510463 B1 KR 102510463B1 KR 1020210153007 A KR1020210153007 A KR 1020210153007A KR 20210153007 A KR20210153007 A KR 20210153007A KR 102510463 B1 KR102510463 B1 KR 102510463B1
Authority
KR
South Korea
Prior art keywords
model
commercial
computer device
predicted value
analysis
Prior art date
Application number
KR1020210153007A
Other languages
English (en)
Inventor
강만수
Original Assignee
주식회사 하이퍼리서치
강만수
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하이퍼리서치, 강만수 filed Critical 주식회사 하이퍼리서치
Priority to KR1020210153007A priority Critical patent/KR102510463B1/ko
Application granted granted Critical
Publication of KR102510463B1 publication Critical patent/KR102510463B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 상권 분석 정보 제공 방법에 관한 것으로서, 상권 분석을 위한 업종, 지역, 면적 단위를 포함하는 상권 분석 대상 및 공간 단위를 정의하는 단계, 정의된 업종, 지역, 면적 단위를 기반으로 상권 관련 데이터를 수집하는 단계, 수집한 데이터를 기반으로 상권 분석용 데이터셋을 구축하는 단계, 구축한 데이터셋을 이용하여 인공지능 기반 상권 분석 모델을 구축하는 단계 및 상기 상권 분석 모델을 통해 상권 정보에 대한 예측값을 도출하는 단계를 포함한다.
본 발명에 의하면, 머신러닝 기술을 이용하여 면적단위당 매출액 정보와 종사자수 정보를 제공함으로써, 예비 창업자 및 소상공인들의 의사결정 과정에 있어서 보다 정확한 양질의 상권 정보를 제공할 수 있다는 효과가 있다.

Description

상권 분석 정보 제공 방법 및 이를 기록한 기록매체 {Method for providing market analysis information}
본 발명은 상권 분석 정보 제공 방법에 관한 것으로서, 더욱 상세하게는 면적단위당 매출액 정보, 면적단위당 종사자수 정보를 포함하는 상권 분석 정보 제공 방법에 관한 것이다.
최근 오프라인 상권의 정의 및 활용을 통한 준비된 창업 유도에 힘쓰고 있으나, O2O(Online to offline) 및 온라인 거래 지원을 위한 온라인 상권의 정의가 부재한 실정이다. 즉, 온라인 거래 시장 확대와 더불어 코로나19로 인해 수요가 급증하는 상황에서 소상공인 경쟁력 강화를 위한 방안 마련으로 온라인 상권을 정의하고, 이를 활용하여 온/오프라인 정보 및 생활상권 영역의 개발 등을 활용한 컨설팅 지원이 필요하다.
코로나19 이후 온라인 유통 규모의 증가가 가속화되어 오프라인에 육박하고 있으며, 오프라인에 비해 온라인 유통업체 비중 및 매출증감율이 큰 폭으로 증가하여 온라인 유통의 성장세가 전망되고 있다.
국내 프랜차이즈협회에 의하면 상권이라 함은 “상점이 고객을 모을 수 있는 구역” 즉, “점포와 고객을 흡인하는 지리적 영역”을 말한다. 미국 마케팅협회에서는 상권의 정의를 “거래단위가 있는 집단에서 상품이나 어떤 서비스를 판매하는데 드는 비용이 발생하는 경제적 경계선을 결정하는 지역”을 말한다.
생활상권은 '정주인구의 도보이동 기반 활동 중심지 상권'으로 정의되고, 생활상권 영역설정은 ① 생활중심지의 중심점 계산, ② 중심점 및 이동거리 기준 반경 적용, ③ 상권영역의 구축 단위를 기초단위구(통계청) 블록으로 교체, ④ 발달상권 중첩지역 제외, ⑤ 두 개 이상의 자치구에 속하는 생활상권의 분리 등 총 5단계로 진행되었다.
온라인 상권은 '온라인 상에서 유·무형 상점이 고객을 모을 수 있는 구역 또는 흡인하는 지리적 영역'으로 정의되며, 국내 인터넷 인프라를 통한 온라인 쇼핑 거래규모 증가와 스마트폰 대중화로 온라인 쇼핑 거래규모가 폭증함에 따라 온라인 상권의 개념 도입이 필요하다.
해외 온라인 플랫폼 규제 입법 동향을 살펴보면, 2019년 2월「온라인 플랫폼 시장의 공정성 및 투명성 강화를 위한 2019년 EU 이사회 규칙」이 제정(2020.7.12. 시행)되었으며, 이는 「대규모 유통업에서의 거래공정화에 관한 법률」의 적용대상에서 제외되는 일부 온라인 유통 업태와 소비자와 판매업체를 간접적으로 연결하는 검색엔진까지 규율함을 의미한다. 국내에서는 제20대 국회에서 「사이버몰판매중개거래의 공정화에 관한 법률안」이 발의되었으나, 임기만료로 폐기된 바 있다.
기존의 일반적인 상권분석서비스는 점포를 내고자 하는 지역에 대한 '점포당 매출액' 및 종업원수 정보를 제공하며, 이를 통해 예비창업자에 대한 컨설팅을 진행하였다. 그러나, 점포당 매출액 정보를 고객에게 제공해주는 것은 고객의 입장에서 볼 때, 점포를 내고자 하는 규모를 포함한 보유하고 있는 자금적 요건 등의 다양한 조건이 고려될 수 없거나 간접적인 추정만이 가능하다는 문제점이 있으며, 상시종업원 등이 얼마 정도 고용되어야 하는지의 문제점을 안고 있다.
대한민국 등록특허 10-1956212
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 정보 부족으로 창업과 경영에 어려움을 겪는 예비 창업자와 영세 소상공인, 자영업자들에게 빅데이터 기반의 의사결정 시스템 제공을 위한 예측 모델 구축을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명은 상권 분석 정보 제공 방법에 관한 것으로서, 상권 분석을 위한 업종, 지역, 면적 단위를 포함하는 상권 분석 대상 및 공간 단위를 정의하는 단계, 정의된 업종, 지역, 면적 단위를 기반으로 상권 관련 데이터를 수집하는 단계, 수집한 데이터를 기반으로 상권 분석용 데이터셋을 구축하는 단계, 구축한 데이터셋을 이용하여 인공지능 기반 상권 분석 모델을 구축하는 단계 및 상기 상권 분석 모델을 통해 상권 정보에 대한 예측값을 도출하는 단계를 포함한다.
상기 예측값을 도출하는 단계에서, 상기 상권 분석 모델을 통해 면적단위당 매출액에 대한 예측값을 도출할 수 있다.
상기 예측값을 도출하는 단계에서, 상기 상권 분석 모델을 통해 면적단위당 종사자수에 대한 예측값을 도출할 수 있다.
본 발명의 일 실시예에서 트리 기반의 머신러닝 모델을 이용하여 상권 분석 모델을 구축할 수 있다.
상기 예측값을 도출하는 단계에서, 보간법을 이용하여 상권 정보에 대한 예측값을 도출할 수 있다.
본 발명에 의하면, 머신러닝 기술을 이용하여 면적단위당 매출액 정보와 종사자수 정보를 제공함으로써, 예비 창업자 및 소상공인들의 의사결정 과정에 있어서 보다 정확한 양질의 상권 정보를 제공할 수 있다는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 상권 분석 정보 제공 방법을 보여주는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 활용 데이터의 특징을 요약한 도표이다.
도 3은 의사 결정 트리 구조를 예시한 것이다.
도 4는 배깅과 부스팅을 설명하기 위한 도면이다.
도 5는 업종별 활용 가능한 데이터 수를 정리한 도표이다.
도 6은 HoldOut, K-fold, LOOCV를 비교한 도면이다.
도 7은 5-fold 교차 검증 방법을 예시한 것이다.
도 8은 Grid Search와 Random Search를 비교한 것이다.
도 9는 Bayesian Optimization을 도시한 것이다.
도 10은 업종별 모델 예측 정확성 및 안정성을 정리한 도표이다.
도 11은 보간법을 예시한 것이다.
도 12는 가전제품 수리업과의 상관관계를 예시한 도표이다.
도 13은 공간 보간을 예시한 것이다.
도 14는 군집화 알고리즘을 활용한 예측값 도출 과정을 예시한 것이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명에서 상권 분석 정보 제공 방법을 수행하는 주체는 상권 분석 정보 제공 방법을 수행하는 제반 시스템이라고 할 수 있으며, 또는 상권 분석 정보 제공 방법을 수행하는 시스템 또는 장치를 전반적으로 제어하는 제어부나 프로세서(processor)일 수 있다. 즉, 본 발명의 상권 분석 정보 제공 방법은 일종의 소프트웨어인 알고리즘으로 구성될 수 있으며, 소프트웨어는 상권 분석 정보 제공 방법을 수행하는 시스템, 장치의 제어부 또는 프로세서(processor)에서 실행될 수 있다.
본 발명에서 상권 분석 정보 제공 방법은 일종의 소프트웨어인 알고리즘으로 구성되며, 소프트웨어 알고리즘은 일반적인 PC 또는 컴퓨터 시스템에서 수행될 수 있으며, 하드웨어(H/W), 소프트웨어(S/W), 또는 하드웨어와 소프트웨어가 결합된 장치로 구현될 수도 있다. 즉, 본 발명에서 상권 분석 정보 제공 방법은 일종의 소프트웨어인 프로그램으로 구성되며, 이러한 프로그램은 시스템, 컴퓨터 또는 프로세서(processor)에서 실행될 수 있다. 즉, 본 발명에서 상권 분석 정보 제공 방법을 수행하는 주체는 제반 컴퓨터 장치라고 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 상권 분석 정보 제공 방법을 보여주는 흐름도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 상권 분석 정보 제공 방법은 상권 분석을 위한 업종, 지역, 면적 단위를 포함하는 상권 분석 대상 및 공간 단위를 정의하는 단계(S110), 정의된 업종, 지역, 면적 단위를 기반으로 상권 관련 데이터를 수집하는 단계(S120), 수집한 데이터를 기반으로 상권 분석용 데이터셋(dataset)을 구축하는 단계(S130), 구축한 데이터셋을 이용하여 인공지능 기반 상권 분석 모델을 구축하는 단계(S140) 및 상권 분석 모델을 통해 상권 정보에 대한 예측값을 도출하는 단계(S150)를 포함한다.
예측값을 도출하는 단계(S150)에서, 상권 분석 모델을 통해 면적단위당 매출액에 대한 예측값을 도출할 수 있다.
예측값을 도출하는 단계(S150)에서, 상권 분석 모델을 통해 면적단위당 종사자수에 대한 예측값을 도출할 수 있다.
본 발명의 일 실시예에서 트리(tree) 기반의 머신러닝 모델을 이용하여 상권 분석 모델을 구축할 수 있다.
본 발명의 일 실시예에서 예측값을 도출하는 단계(S150)에서, 보간법을 이용하여 상권 정보에 대한 예측값을 도출할 수 있다.
본 발명의 일 실시예에서 경기도시장상권진흥원이 보유 중인 상가 DB를 활용하여 면적당 매출액 정보를 활용하는 실시예를 예시하며, 이러한 DB들을 활용하여 고객이 보유하고 있는 조건들이 고려된 맞춤형 컨설팅 서비스를 제공할 수 있다. 또한, 다양한 업종에 대한 요구 조건을 충족시킬 수 있기 위해 생활밀접업종 93종에 대한 업종별 매출 예측 모형을 개발함으로써, 예비 창업자가 영위하고자 하는 사업에 적절한 입지와 업종을 선택하도록 지원하여 생존율을 제고할 수 있다.
본 발명의 실시예에서 공간적 범위는 경기도 전역의 읍면동 단위이고, 공공 데이터로서 상가업소 DB(면적 포함), 주거인구, 직장인구 등을 활용하고, 민간 데이터로서 BC카드 데이터, KT 성연령별 유동인구 데이터, KCD 매출데이터 등을 활용할 수 있다.
본 발명의 실시예에서 상가업소 DB, 주거인구, 직장인구, BC 카드 데이터, KT 성연령별 유동인구 데이터, KCD 매출 데이터이며, 예측에 활용하는 종속 변수는 상가업소 DB에 의해 산출된 면적당 매출액 또는 KCD 월단위 면적단위 매출액이다.
면적당 매출액은 연속적인 종속 변수로, 이를 예측하고자 하는 것은 회귀(regression)의 문제로 볼 수 있다. 회귀 모델은 독립-종속 변수의 관계 형태 등에 따라 선형 회귀 모델(linear regression model)과 비선형 회귀 모델(non-linear regression model)으로 나눌 수 있다. 일반적으로 선형 회귀 모델은 독립 변수의 영향성에 대한 해석이 용이하나, 예측 정확성이 비선형 회귀 모델에 비해서는 크게 떨어지는 경향이 있다. 본 발명에서 분석 모델 구축의 목적은 모델의 해석보다는 높은 예측 정확성에 있으므로, 높은 예측 정확성을 보이는 트리 기반의 머신러닝 모델을 구축하며, 구체적으로 Random Forest 기반의 분석 모델을 구축할 수 있다.
도 2는 본 발명의 일 실시예에 따른 활용 데이터의 특징을 요약한 도표이다.
도 2를 참조하면, 분석에 활용된 데이터는 상가업소 DB, BC 카드 데이터, KT 성연령별 유동인구 데이터이며, 세 데이터의 단위는 각각 행정동, 블록, 셀로 통일되어 있지 않기 때문에 분석 단위인 행정동 단위에 맞추어 집계한 것이다.
이후 상가업소 DB의 읍면동 코드를 키값으로 활용해 주거인구, 직장인구, KCD 매출데이터, BC 카드 데이터와, KT 성연령별 유동인구 데이터를 병합하여 하나의 통합된 읍면동 단위의 분석용 데이터셋을 구축한다.
상가업소 DB는 읍면동 단위로 비식별화 처리된 점포별 매출액 정보를 제공 받았으나, 매출액 정보를 읍면동으로 집계하여 활용하는 것이 더 높은 예측 정확성과 안정성을 보여주었기 때문에 매출액 정보는 읍면동으로 집계(평균값)하여 구축한다. 또한, 사용하는 독립 변수 간 범위(scale)를 통일시키기 위해 전체 독립 변수에 대해 Z-점수 정규화를 통한 데이터 표준화 작업을 수행한다.
참고로 Z-점수 정규화는 평균이 m, 표준편차가 σ인 데이터
Figure 112021129001831-pat00001
이 주어졌을 때, 식
Figure 112021129001831-pat00002
을 통해서 평균이 0, 표준편차가 1로 만드는 표준화 방법이다.
앞서 언급한 바와 같이, 본 발명의 일 실시예에서 상권 분석 모델은 일반적으로 높은 예측 정확성을 기대할 수 있는 트리 기반의 머신러닝 모델을 활용하며, 그 대표적인 모델로서 XGBoost, LightGBM을 이용할 수 있다.
도 3은 의사 결정 트리 구조를 예시한 것이다.
도 3을 참조하면, XGBoost와 LightGBM은 모두 여러 개의 의사 결정 트리(Decision Tree)를 조합해서 사용하는 대표적인 앙상블(Ensemble) 모델임과 동시에 부스팅(Boosting) 계열의 모델이다.
머신러닝에서 앙상블 모델이라고 함은 여러 개의 분석 알고리즘을 섞어 얻을 수 있는 새로운 알고리즘을 의미하며, 머신러닝의 앙상블 모델은 크게 배깅 방법으로 앙상블 된 모델과 부스팅 방법으로 앙상블 된 모델이 존재한다.
도 4는 배깅과 부스팅을 설명하기 위한 도면이다.
도 4를 참조하면, 배깅은 여러 독립적인 모델을 구축한 뒤 각 모델에 의한 결과를 평균내어 예측값으로 활용하는 방법으로서, 대표적인 방법으로는 여러 개의 의사 결정 나무를 배깅 방법으로 앙상블 시킨 랜덤 포레스트(Random Forest) 모델이 있다.
부스팅은 한 모델에 의해 얻어진 결과물의 오차에 대한 모델링을 반복적으로 진행하며, 각 모델은 선행 모델들에 의존되는 성격을 가지며, 여러 개의 의사 결정 나무를 부스팅으로 앙상블 시킨 XGBoost, LightGBM 알고리즘 등이 존재한다.
본 발명의 실제 실험에서 XGBoost와 LightGBM에 대한 검토 결과, 두 방법론 모두 우수하면서 비슷한 성능을 보여주었으나, LightGBM이 XGBoost 방법론에 비해 월등히 빠른 모델 구축 속도를 보여주었기 때문에 방법론은 LightGBM을 활용하는 것이 바람직하다.
도 5는 업종별 활용 가능한 데이터 수를 정리한 도표이다.
도 5를 참조하면, 본 발명의 일 실시예에서 구축된 분석용 데이터셋을 활용하여 예측 모델을 구축한다고 하였을 때, 활용 가능한 독립 변수의 수는 277개(BC 카드 업종별 매출액, KT 성연령별 유동인구)이며 활용 가능한 데이터 행의 수가 예시되어 있다.
전반적인 데이터 행의 수(평균 212개, 표준편차 165)에 비해 활용할 독립 변수의 수가 277개로 다소 많기 때문에 다수 업종에 대해 과대 적합(Overfitting)이 발생할 수 있다. 이를 방지하고 모델 예측값의 분산을 줄이기 위해서 모델 구축 시의 교차 검증(Cross Validation), 모델 구축 작업의 반복 수행을 통한 예측 정확성과 안정성 검토, 차원 축소(Dimensionality Reduction)를 실시할 수 있다.
교차 검증은 과대 적합을 방지하기 위해 주로 활용되는 방법이며, HoldOut, LOOCV(Leave-One-Out), K-fold 등의 방법론들이 있으나 모델 구축 과정에서의 효율성을 고려하여 K-fold 방법론을 주로 활용할 수 있다.
도 6은 HoldOut, K-fold, LOOCV를 비교한 도면이다.
도 6에서 Train은 Train Set을 의미하며, 모델 학습을 위한 데이터셋을 의미하고, Validation은 Validation Set을 의미하며, 모델 검증을 위한 데이터셋을 의미한다.
HoldOut 방법은 Train Set과 Validation Set을 연구자 임의의 정의에 따라 적절한 비율로 구분하여 학습 및 검증을 한 번 진행하는 방법으로서, 학습 및 검증 과정을 한 번밖에 거치지 않기 때문에 충분한 모델 검증을 수행하기에는 무리가 있다.
이보다 발전된 방법으로 K-fold 방법이 있으며, K-fold는 전체 데이터를 K개의 균일한 크기의 셋으로 분리하여 모든 데이터가 모델 학습 및 검증 과정에 포함될 수 있도록 하는 방법으로서, 학습 및 검증 과정이 K번 수행된다.
도 7은 5-fold 교차 검증 방법을 예시한 것이다.
도 7은 5-fold 교차 검증 방법의 예시로서, K=5 이기 때문에 전체 데이터를 5개 균일한 크기의 셋으로 분리하여 모델 구축 및 평가 과정을 5번 반복하는 과정에서, 5개로 분할된 각 데이터셋이 모두 구축 및 평가에 포함되도록 하는 것이다. 최종적으로 특정 모델 방법론에 의한 예측력은 5번의 반복으로 얻어진 5개의 오차에 대한 산술 평균값으로 산출할 수 있다.
도 8은 Grid Search와 Random Search를 비교한 것이고, 도 9는 Bayesian Optimization을 도시한 것이다.
도 8 및 도 9에서 LightGBM 모델 구현 시 진행하는 Hyper Parameter Tuning은 구역 내 지정해둔 모든 값을 조사하는 Grid Search, 구역 내 값들 중 랜덤한 값을 샘플링하여 조사하는 Random Search, 베이지안(Bayesian) 방법을 활용하여 조사를 하게 되는 초기값에서 모델 성능이 개선될 것이라 기대되는 방향으로 조사하는 Bayesian Optimization 방법이 있으나, 본 발명의 실시예에서는 물리적 시간 및 모델링의 효율성을 위해 Bayesian Optimization 방법을 이용하는 것이 바람직하다.
즉, 본 발명에서는 LightGBM의 각 Hyper Parameter 조합에 대해 Bayesian Optimization을 활용하여 최적의 조합을 탐색하지만, 5-fold 교차 검증을 수행하여 얻어진 평균적인 오차율(RMSE)을 검토하여 가장 그 값이 낮은 모델을 최적의 모델로 선택하는 것이다.
참고로
Figure 112021129001831-pat00003
이며, 여기서 n은 행의 수이고, yi는 실제값이고,
Figure 112021129001831-pat00004
는 예측값이다. RMSE는 예측 정확성에 대한 양(+), 음(-)이 고려되지 않고, 모델의 평균적인 예측 오차를 계산할 때 주로 활용한다.
이제 실제 본 발명을 적용한 상권 분석 모델 구축 결과는 다음과 같다.
5-fold 교차 검증을 수행하는 과정으로 1차적인 모델 검증 과정을 거쳤지만, 추가로 모델 구축 과정을 반복적으로 수행하면서 일관된 결과를 얻을 수 있는지에 대한 검토도 함께 수행하였다. 5-fold 교차 검증 및 베이지안 최적화 절차를 수행하는 일련의 모델 구축 과정을 5번씩 반복하여 얻은 평균적인 오차율과 오차율에 대한 표준편차가 도 10에 도시되어 있다.
도 10은 업종별 모델 예측 정확성 및 안정성을 정리한 도표이다.
도 10의 도표는 업종별 데이터 행의 수를 기준으로 내림차순 정렬된 것이다.
전반적인 예측 모델의 정확성 및 안정성은 오차율(%) 평균 12.53%, 표준편차 2.92%로 신뢰 가능한 수준의 결과를 보이고 있다.
본 발명에서 오차율 및 오차율의 표준편차가 다소 높은 업종들에 대해서는 이상치(지나치게 매출액이 높거나 낮은 읍면동)의 문제로 판단하고 있으며, 이상치 검토 및 제거를 수행하여 문제를 해결하고자 한다.
도 11은 보간법을 예시한 것이다.
도 11을 참조하면, 본 발명에서는 보간법(Interpolation)을 활용한 예측값을 도출한다. 보간법이란 실제 데이터가 존재하지 않는 값에 대해서 실제 데이터를 활용하여 추정하는 것을 의미한다.
본 발명에서는 두 가지 관점에서 보간법을 활용하여 보완하고자 하며, 하나는 분석 모델이 도출되지 않은 업종에 대한 보간 방법이며, 다른 하나는 실 매출액이 존재하지 않는 지역에 대한 보간 방법이다.
먼저, 분석 모델이 도출되지 않은 업종에 대한 보간법을 설명하면, 모델 구축 결과를 참고하였을 때, 데이터 수가 51개 이하인 업종에 대해서는 확보된 데이터 행의 수가 충분하지 않아 모델 최적화가 이루어지지 않았고, 이에 모델 자체가 도출되지 않는 문제가 있었다. 최적 모델이 도출되지 않는 업종들은 업종 간 매출액의 상관계수를 고려하여, 모델링이 된 다른 업종의 모델을 활용해 구축하고자 한다.
도 12는 가전제품 수리업과의 상관관계를 예시한 도표이다.
도 12의 예시에서, ‘가전제품 수리업'은 데이터 행의 수가 51개로 최적 모델이 도출되지 않은 업종이며, '가전제품 수리업'과 높은 상관계수(0.7 이상)를 보이는 상위 업종 일부를 분석한 것이다. 5개 업종 중 모델이 존재하는 업종은 '가구 소매업', '외국어학원' 2개이며, 이 중 하나의 업종을 선별하여 '가전제품 수리업'의 모델인 것으로 대체하는 것이다. 다만, 두 업종 간 발생할 수 있는 범위(scale)의 차이는 실 평균 매출액의 비를 활용해 조정할 수도 있다.
본 발명에서 결과에 대한 신뢰성을 높이기 위해 '동시에 매출액이 존재하는 읍면동 수'의 개수 기준을 정의하거나 상관계수에 대한 통계적 가설 검정 수행 등을 할 수 있다.
다음, 실 매출액이 존재하지 않는 지역에 대한 보간법은 다음과 같다.
첫번째는 모델 활용 방법이다.
예를 들어, '한식 일반 음식점업'을 제외한 모든 업종에 대해서 실 매출액이 존재하지 않는 업종이 존재한다. 예측 모델링은 본래 실 매출액이 존재하는 데이터만을 가지고 진행되지만, 예측 결과는 모든 읍면동에 대해 도출될 필요가 있다.
도 13은 공간 보간을 예시한 것이다.
도 13을 참조하면, 공간 보간 방법론은 일반적으로 실제 데이터와 보간이 필요한 지역 간의 거리에 기반한 역거리 가중(Inverse Distance Weighting) 방법, 인접한 지역의 값으로 대체하는 방법, 속한 시군의 값으로 대체하는 방법, 통계적 대표값(평균, 중위값 등)을 활용한 대체 방법 등이 존재한다.
하지만, 업종별 매출액은 형성되어 있는 상권의 특징 및 규모에 기초할 것이지 행정동 별 거리에 의존하진 않을 것이고, 이에 따라 역거리 가중법 및 인접한 지역의 값으로 대체하는 방법은 바람직하지 않다.
속한 시군의 값으로 대체하는 것도 마찬가지로, 같은 시군 내일지라도 상권의 특성 및 영향성은 읍면동 별로 전혀 다를 수 있기에 바람직하지 않다.
따라서 본 발명에서는 모델이 충분히 예측력이 있고, 검증 방법으로 충분히 검증된 모델이라고 하였을 때 모델 그 자체의 예측력을 신뢰할 수 있다. 투입된 독립 변수 및 종속 변수 간의 연관성을 설명할 수 있는 모델 구축 결과를 바탕으로 모든 개별 읍면동의 독립 변수를 입력(Input) 값으로 넣어 예측값을 도출하는 방법으로 보간한다.
두번째는 군집화 활용 방법이다.
첫번째 방법인 모델 활용 방법의 경우, '외국어학원'처럼 예측을 해야 하는 읍면동의 수가 학습에 활용된 수보다 훨씬 많을 때, 예측의 신뢰성이나 정확성의 측면에서 문제 발생의 여지가 있다. 이에 대한 대비책으로 BC 카드 데이터와 KT 유동인구 데이터로 유사 상권 유형과 규모를 갖는 지역을 군집화하여 그룹의 평균 예측값으로 대체하는 방법으로 결측 지역들을 보간할 수 있다.
도 14는 군집화 알고리즘을 활용한 예측값 도출 과정을 예시한 것이다.
도 14의 예시에서 8개의 읍면동이 존재한다고 할 때, 군집화 알고리즘을 수행하여 각 읍면동에 대한 군집 번호를 매긴 후, 예측값을 도출하는 것에 있어서 모델의 값을 그대로 활용하는 것이 아닌 군집 내 실 매출액이 존재하는 읍면동의 예측값을 평균 낸 값으로 보간한다.
'군집 번호 = 3'의 경우처럼 상황에 따라서는 실 매출액이 모두 존재하지 않는 군집이 있을 수 있으며, 이 경우에는 예측값이 없는 것으로 하거나, 모델의 값을 그대로 활용하는 방향으로 보간할 수 있다.
한편, 본 발명의 실시예에 따른 상권 분석 정보 제공 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 포함된다.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims (6)

  1. 컴퓨터 장치에서 상권 분석을 위한 업종, 지역, 면적 단위를 포함하는 상권 분석 대상 및 공간 단위를 정의하는 단계;
    상기 컴퓨터 장치에서 정의된 업종, 지역, 면적 단위를 기반으로 상권 관련 데이터를 수집하는 단계;
    상기 컴퓨터 장치에서 수집한 데이터를 기반으로 상권 분석용 데이터셋을 구축하는 단계;
    상기 컴퓨터 장치에서 구축한 데이터셋을 이용하여 인공지능 기반 상권 분석 모델을 구축하는 단계; 및
    상기 컴퓨터 장치에서 상기 상권 분석 모델을 통해 상권 정보에 대한 예측값을 도출하는 단계를 포함하고,
    상기 예측값을 도출하는 단계에서, 상기 컴퓨터 장치에서 상기 상권 분석 모델을 통해 면적단위당 매출액에 대한 예측값을 도출하고,
    상기 예측값을 도출하는 단계에서, 상기 컴퓨터 장치에서 상기 상권 분석 모델을 통해 면적단위당 종사자수에 대한 예측값을 도출하고,
    상기 컴퓨터 장치에서 트리 기반의 머신러닝 모델을 이용하여 상권 분석 모델을 구축하고,
    상기 예측값을 도출하는 단계에서, 상기 컴퓨터 장치에서 보간법을 이용하여 상권 정보에 대한 예측값을 도출하되, 분석 모델이 도출되지 않은 업종과 실 매출액이 존재하지 않는 지역에 대한 보간법을 이용하여 상권 정보에 대한 예측값을 도출하고,
    상기 분석 모델이 도출되지 않은 업종에 대해서 업종 간 매출액의 상관계수를 고려하여, 모델링이 된 다른 업종의 모델을 활용하여 예측값을 도출하는 보간법을 실시하고,
    상기 실 매출액이 존재하지 않는 지역에서, 기 구축된 모델에 투입된 독립 변수 및 종속 변수 간의 연관성을 설명할 수 있는 모델 구축 결과를 바탕으로 모든 개별 읍면동의 독립 변수를 입력(Input) 값으로 넣어 예측값을 도출하는 방식으로 보간법을 실시하거나, 또는 유사 상권 유형과 규모를 갖는 지역을 군집화하여 그룹의 평균 예측값으로 대체하는 방법으로 보간법을 실시하고,
    상기 컴퓨터 장치에서 모델 예측값의 분산을 줄이기 위해서 모델 구축 시의 교차 검증(Cross Validation), 모델 구축 작업의 반복 수행을 통한 예측 정확성과 안정성 검토, 차원 축소(Dimensionality Reduction)를 실시하고,
    상기 컴퓨터 장치에서 상기 교차 검증을 실시함에 있어서, 전체 데이터를 5개 균일한 크기의 셋으로 분리하여 모델 구축 및 평가 과정을 5번 반복하는 과정에서, 5개로 분할된 각 데이터셋이 모두 구축 및 평가에 포함되도록 하는 5-fold 교차 검증 방법을 실시하고,
    상기 컴퓨터 장치에서 LightGBM 모델을 구현하되, LightGBM의 각 Hyper Parameter 조합에 대해 Bayesian Optimization을 활용하여 탐색하고, 상기 5-fold 교차 검증 방법을 수행하여 얻어진 평균적인 오차율(RMSE)을 검토하여 그 값이 가장 낮은 모델을 최적의 모델로 선택하고,
    이때, n은 행의 수이고, yi는 실제값이고,
    Figure 112022141818359-pat00019
    는 예측값이라고 할 때, 상기 평균적인 오차율은,
    Figure 112022141818359-pat00020
    로 나타낼 수 있는 것을 특징으로 하는 상권 분석 정보 제공 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 청구항 1의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020210153007A 2021-11-09 2021-11-09 상권 분석 정보 제공 방법 및 이를 기록한 기록매체 KR102510463B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210153007A KR102510463B1 (ko) 2021-11-09 2021-11-09 상권 분석 정보 제공 방법 및 이를 기록한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210153007A KR102510463B1 (ko) 2021-11-09 2021-11-09 상권 분석 정보 제공 방법 및 이를 기록한 기록매체

Publications (1)

Publication Number Publication Date
KR102510463B1 true KR102510463B1 (ko) 2023-03-16

Family

ID=85985505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210153007A KR102510463B1 (ko) 2021-11-09 2021-11-09 상권 분석 정보 제공 방법 및 이를 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR102510463B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158078A1 (en) * 2016-12-05 2018-06-07 Institute For Information Industry Computer device and method for predicting market demand of commodities
KR101956212B1 (ko) 2017-11-17 2019-06-24 조두영 창업자 자가 진단 결과를 반영한 창업 지원 서비스 제공 방법
CN111311401A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于LightGBM的金融违约概率预测模型
CN111523086A (zh) * 2020-04-10 2020-08-11 南通大学 一种基于对数线性回归和随机森林的房价走势分析方法
KR20210017053A (ko) * 2019-08-06 2021-02-17 코리아크레딧뷰로 (주) 개인사업체에 대한 매출액 추정 모형의 도출방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158078A1 (en) * 2016-12-05 2018-06-07 Institute For Information Industry Computer device and method for predicting market demand of commodities
KR101956212B1 (ko) 2017-11-17 2019-06-24 조두영 창업자 자가 진단 결과를 반영한 창업 지원 서비스 제공 방법
KR20210017053A (ko) * 2019-08-06 2021-02-17 코리아크레딧뷰로 (주) 개인사업체에 대한 매출액 추정 모형의 도출방법
CN111311401A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于LightGBM的金融违约概率预测模型
CN111523086A (zh) * 2020-04-10 2020-08-11 南通大学 一种基于对数线性回归和随机森林的房价走势分析方法

Similar Documents

Publication Publication Date Title
Pérez-Martín et al. Big Data techniques to measure credit banking risk in home equity loans
Cho et al. A hybrid approach based on the combination of variable selection using decision trees and case-based reasoning using the Mahalanobis distance: For bankruptcy prediction
Gheyas et al. A novel neural network ensemble architecture for time series forecasting
Kao et al. A Bayesian latent variable model with classification and regression tree approach for behavior and credit scoring
Li et al. The random subspace binary logit (RSBL) model for bankruptcy prediction
US20180129961A1 (en) System, method and computer-accessible medium for making a prediction from market data
Behr et al. Default patterns in seven EU countries: A random forest approach
Bekiroglu et al. Predictive analytics of crude oil prices by utilizing the intelligent model search engine
Long et al. A new approach for construction of geodemographic segmentation model and prediction analysis
US20240346531A1 (en) Systems and methods for business analytics model scoring and selection
Farajian et al. Mining the banking customer behavior using clustering and association rules methods
Zhou et al. Fuzzy factorization machine
US11468352B2 (en) Method and system for predictive modeling of geographic income distribution
Mori et al. Inference in hybrid Bayesian networks with large discrete and continuous domains
Bou-Hamad Bayesian credit ratings: A random forest alternative approach
Azadnia et al. Integration model of Fuzzy C means clustering algorithm and TOPSIS Method for Customer Lifetime Value Assessment
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
Liang et al. A two-stage segment and prediction model for mortgage prepayment prediction and management
KR102510463B1 (ko) 상권 분석 정보 제공 방법 및 이를 기록한 기록매체
Rodríguez-Gómez et al. A novel clustering based method for characterizing household electricity consumption profiles
Sembina Building a Scoring Model Using the Adaboost Ensemble Model
Correa et al. Constructing a credit risk scorecard using predictive clusters
Nagashima et al. Data Imputation Method based on Programming by Example: APREP-S
CN113240359A (zh) 一种应对外界重大变动的需求预测方法
Wang et al. Predicting project success using ANN-ensemble classificaiton models

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant