KR102290132B1 - 부동산 가격 예측 장치 및 방법 - Google Patents

부동산 가격 예측 장치 및 방법 Download PDF

Info

Publication number
KR102290132B1
KR102290132B1 KR1020190101034A KR20190101034A KR102290132B1 KR 102290132 B1 KR102290132 B1 KR 102290132B1 KR 1020190101034 A KR1020190101034 A KR 1020190101034A KR 20190101034 A KR20190101034 A KR 20190101034A KR 102290132 B1 KR102290132 B1 KR 102290132B1
Authority
KR
South Korea
Prior art keywords
building
real estate
data
information
price
Prior art date
Application number
KR1020190101034A
Other languages
English (en)
Other versions
KR20210021739A (ko
Inventor
정재민
박영재
송용백
이승윤
제갈용승
윤장혁
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020190101034A priority Critical patent/KR102290132B1/ko
Publication of KR20210021739A publication Critical patent/KR20210021739A/ko
Application granted granted Critical
Publication of KR102290132B1 publication Critical patent/KR102290132B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Development Economics (AREA)
  • Computational Mathematics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

부동산 가격 예측 장치에 관한 것이며, 부동산 가격 예측 장치는 건물의 가격에 영향을 주는 복수의 외부 요인 데이터를 수집하는 데이터 수집부; 상기 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성하는 데이터 전처리부; 상기 복수개의 특징 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택하는 주요 특징 선택부; 상기 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정하는 모델 선정부; 및 입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 상기 선정된 가격 예측 모델의 입력으로 적용함으로써, 상기 대상 건물에 대응하는 부동산 가격 예측 정보를 획득하는 예측부를 포함할 수 있다.

Description

부동산 가격 예측 장치 및 방법 {APPARATUS AND METHOD TO PREDICT REAL ESTATE PRICES}
본원은 부동산 가격 예측 장치 및 방법에 관한 것이다.
역세권(驛勢圈)은 지하철역으로의 접근이 용이한 범위를 의미하며, 역세권의 프리미엄은 역세권에 속함으로써 증가한 비용을 의미한다. 역세권의 실질적 범위는, 법에서 명시하는 1차 역세권 250m와는 다른 의미로서 건물의 가격에 영향을 주는 범위를 의미한다.
도 1 및 도 2는 종래 역세권의 범위와 프리미엄 정도를 파악하기 위해, 특정 역(예를 들어, 응암역, 강남역, 신정네거리역, 구파발역)을 기준으로 거리 순으로 정렬된 건물들의 가격을 바 그래프(bar graph)로 나타낸 도면이다.
도 1 및 도 2를 참조하면, 역세권의 범위와 프리미엄 정도를 파악하기 위해, 모든 건물들을 가장 가까운 역으로 라벨링(Labeling)하고, 역에 해당하는 건물들을 거리 순으로 정렬하고, 거리 순으로 정렬된 건물들의 가격을 바 그래프로 표현하였다.
그 결과, 응암역, 강남역, 신정네거리역, 구파발역을 포함하는 대부분의 지하철역이, 도 2에 도시된 바와 같은 추세(즉, 그래프에 추세가 보이지 않거나, 역에 해당하는 건물이 많이 없거나, 범위를 지정하기 애매하거나, 거리가 멀어질수록 가격이 올라가는 등의 추세)를 보임에 따라, 종래에는 역세권의 실질적 범위와 프리미엄 정도를 정의하기가 어려운 문제가 있다. 즉, 단순히 역까지의 거리와 건물의 가격만으로는 역세권의 실질적 범위와 프리미엄을 측정할 수 없는 문제가 있다.
한편, X-세권은 부동산(연립 다세대 주택, 건물) 가격에 영향을 미치는 건물 외부적 특성요인을 의미하는 것으로서, 숲세권, 학세권, 의세권, 병세권 등 다양한 특성요인이 존재한다.
종래에는 부동산(건물, 주택)의 임대료 가격 결정에 대한 객관적인 자료가 부족함에 따라, 어떠한 요인으로 부동산 가격이 결정되는지 알지 못하는 경우가 많았다. 이에, 정확한 부동산 가격을 결정하거나 예측하기 위해서는 자연적, 환경적, 경제적 건축물의 분포 등의 복수의 특성을 분석하여, 각 특성 별 부동산 가격에 주는 영향을 주는 다양한 요인(예를 들어, X-세권)을 분석해야 할 필요가 있다.
그러나, 종래의 부동산 가격 예측 기술들은, 단순히 역과의 거리만을 고려하기 때문에 정확한 부동산 가격 예측이 어렵고, 소량의 데이터를 사용하고 있기 때문에 일반적인 적용이 어려운 문제가 있다. 또한, 종래에는 X-세권의 범위가 불분명함에 따라 정책 개발, 투자 등에 대해 의사결정시 부정확한 영향을 미칠 가능성이 있다.
따라서, 부동산 가격에 영향을 미치는 다양한 요인을 고려해 정확한 부동산 가격을 예측할 수 있는 기술에 대한 개발이 요구된다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2007-0097939호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 건물(부동산) 가격에 영향을 미치는 다양한 요인을 고려해 정확한 부동산 가격을 예측할 수 있는 부동산 가격 예측 장치 및 방법을 제공하려는 것을 목적으로 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, X-세권의 실질적 범위와 프리미엄 정도를 측정할 수 있는 부동산 가격 예측 장치 및 방법을 제공하려는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 부동산 가격 예측 장치는, 건물의 가격에 영향을 주는 복수의 외부 요인 데이터를 수집하는 데이터 수집부; 상기 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성하는 데이터 전처리부; 상기 복수개의 특징 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택하는 주요 특징 선택부; 상기 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정하는 모델 선정부; 및 입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 상기 선정된 가격 예측 모델의 입력으로 적용함으로써, 상기 대상 건물에 대응하는 부동산 가격 예측 정보를 획득하는 예측부를 포함할 수 있다.
또한, 상기 데이터 수집부는, 공공데이터 포털 사이트 및 국토교통부 시스템으로부터 상기 복수의 외부 요인 데이터를 수집하고, 상기 복수의 외부 요인 데이터는, 건물과 관련된 건물 거래 데이터 및 복수의 시설과 관련된 시설 데이터를 포함할 수 있다.
또한, 상기 시설 데이터는, 지하철 역, 편의시설, 공공시설, 학군 및 상권으로 분류되는 복수의 시설과 관련된 시설 데이터를 포함할 수 있다.
또한, 상기 데이터 전처리부는, 외부 라이브러리를 기반으로 상기 복수의 외부 요인 데이터에 포함된 건물과 복수의 시설 각각에 대한 위치 데이터를 획득하고, 상기 획득된 위치 데이터를 기반으로 각 건물마다 건물과 시설 간의 거리를 산출할 수 있다.
또한, 상기 관계 정보는, 각 건물과 지하철 역 간의 거리, 각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리 및 각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리를 포함하는 거리 정보, 각 건물이 속한 자치구의 특성 정보 및 각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보를 포함하고, 상기 건물의 특성 정보는, 건물의 거래금액 정보, 전용면적 정보, 대지권면적 정보 및 건축년도 정보를 포함할 수 있다.
또한, 상기 데이터 전처리부는, 상기 각 건물 중 어느 한 건물에 대하여 복수회의 거래 이력이 존재하는 경우, 상기 어느 한 건물에 대응하는 거래금액 정보로서 상기 복수회의 거래 이력 각각에 대응하는 거래금액 정보를 평균한 평균 거래금액 정보를 고려할 수 있다.
또한, 상기 주요 특징 선택부는, 복수개의 특징 선택 모델을 통해 상기 복수개의 특징 각각의 회귀계수 벡터 또는 특징 중요도 벡터를 추출하고, 추출된 벡터를 기반으로 TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution) 기법을 적용하여 상기 복수개의 특징의 순위를 산출하고, 상기 산출된 순위를 기반으로 상기 미리 설정된 수에 대응하는 특징을 상기 복수의 주요 특징으로서 선택할 수 있다.
또한, 상기 모델 선정부는, 상기 전처리된 데이터셋에 대한 K겹 교차 검증(K-fold Cross Validation) 방식의 적용을 기반으로 상기 복수개의 예측 모델의 예측 성능을 비교하고, 비교 결과 상기 복수개의 예측 모델 중 가장 높은 예측 성능을 나타내는 예측 모델을 상기 가격 예측 모델로서 선정할 수 있다.
또한, 상기 선정된 가격 예측 모델은, 엑스트라 트리 회귀 모델(Extra Tree Regressor)일 수 있다.
한편, 본원의 일 실시예에 따른 부동산 가격 예측 방법은, (a) 건물의 가격에 영향을 주는 복수의 외부 요인 데이터를 수집하는 단계; (b) 상기 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성하는 단계; (c) 상기 복수개의 특징 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택하는 단계; (d) 상기 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정하는 단계; 및 (e) 입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 상기 선정된 가격 예측 모델의 입력으로 적용함으로써, 상기 대상 건물에 대응하는 부동산 가격 예측 정보를 획득하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 부동산(건물)의 가격에 영향을 주는 다양한 요인을 고려(즉, 복수의 시설과 관련된 시설 데이터를 포함하는 복수의 외부 요인 데이터를 이용)함으로써, 부동산 가격(실거래가)을 보다 정확히 예측할 수 있다.
또한, 본원은 신개발 지구의 건물 가격의 상승폭을 효과적으로 예측할 수 있다.
또한, 본원은 개발 예정 지역의 특징 변화를 통한 실거래가의 변동폭을 예측할 수 있다.
또한, 본원은 백화점, 편의시설 등 새로운 시설이 생겼을 때의 부동산(건물) 가격의 변동 여부를 파악할 수 있다.
또한, 본원은 X-세권의 실질적 범위와 프리미엄 정도를 측정할 수 있다.
다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.
도 1 및 도 2는 종래 역세권의 범위와 프리미엄 정도를 파악하기 위해, 특정 역을 기준으로 거리 순으로 정렬된 건물들의 가격을 바 그래프(bar graph)로 나타낸 도면이다.
도 3은 본원의 일 실시예에 따른 부동산 가격 예측 장치의 개략적인 구성을 나타낸 도면이다.
도 4는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 데이터 수집부에서 수집되는 복수의 외부 요인 데이터의 예를 나타낸 도면이다.
도 5는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 데이터 전처리부(120)에 의해 생성되는 전처리된 데이터셋에 포함되는 정보를 설명하기 위한 도면이다.
도 6a는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 건물의 특성 정보의 예를 나타낸 도면이다.
도 6b는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 각 건물과 지하철 역 간의 거리 정보의 예를 나타낸 도면이다.
도 6c는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 원핫 매트릭스(One-Hot Matrix) 정보의 예를 나타낸 도면이다.
도 6d는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리의 예를 나타낸 도면이다.
도 6e는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리 정보의 예를 나타낸 도면이다.
도 6f는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 전처리 수행 결과로서, 각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보의 예를 나타낸 도면이다.
도 7a는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 주요 특징 선택부에 의하여 선택된 복수의 주요 특징의 예를 나타낸 도면이다.
도 7b는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 복수개의 특징 중 TOPSIS 기법의 적용 결과 하위 20개의 순위에 속하는 특징의 예를 나타낸 도면이다.
도 8은 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 복수개의 예측 모델의 예측 성능을 비교하기 위해 고려되는 K겹 교차 검증(K-fold Cross Validation) 방식의 개념을 개략적으로 나타낸 도면이다.
도 9는 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 모델 선정부가 가격 예측 모델을 선정하기 위해, 복수개의 예측 모델 각각의 예측 성능을 비교한 결과의 예를 나타낸 도면이다.
도 10은 본원의 일 실시예에 따른 부동산 가격 예측 장치에서 특징 세권 분류부에 의하여 분류되는 복수개의 X-세권을 설명하기 위한 도면이다.
도 11a는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 역세권 관련 특징을 설명하기 위한 도면이다.
도 11b는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 학세권 관련 특징을 설명하기 위한 도면이다.
도 11c는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 문세권 관련 특징을 설명하기 위한 도면이다.
도 11d는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 구세권 관련 특징을 설명하기 위한 도면이다.
도 11e는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 안세권 관련 특징을 설명하기 위한 도면이다.
도 11f는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 몰세권 관련 특징을 설명하기 위한 도면이다.
도 11g는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 고려되는 주세권 관련 특징을 설명하기 위한 도면이다.
도 11h는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 특징 세권 분류부에서 복수개의 X-세권으로 분류되지 않는 특징을 설명하기 위한 도면이다.
도 12는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에서 수행되는 분석 과정을 설명하기 위한 도면이다.
도 13은 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에서 분석 과정의 수행시 고려된 수정된 데이터셋을 설명하기 위한 도면이다.
도 14는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에서 제1 분석 과정의 수행 결과를 설명하기 위한 도면이다.
도 15는 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에서 제2 분석 과정의 수행 결과를 설명하기 위한 도면이다.
도 16은 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에서 제3 분석 과정의 수행 결과를 설명하기 위한 도면이다.
도 17은 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에 의하여 분석된 주요 X-세권의 특징 간의 상관관계를 설명하기 위한 도면이다.
도 18은 본원의 일 실시예에 따른 부동산 가격 예측 장치의 프리미엄 정도 예측부에 의하여 분석된 학세권의 주요 특징들의 복합적 프리미엄 정도 예측 결과를 설명하기 위한 도면이다.
도 19는 본원의 일 실시예에 따른 부동산 가격 예측 장치에 의하여 정의되는 역세권의 범위와 종래 법에서 명시하는 역세권의 범위를 비교한 도면이다
도 20은 본원의 일 실시예에 따른 부동산 가격 예측 방법에 대한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
도 3은 본원의 일 실시예에 따른 부동산 가격 예측 장치의 개략적인 구성을 나타낸 도면이다.
이하에서는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)를 설명의 편의상 본 장치(100)라 하기로 한다.
도 3을 참조하면, 본 장치(100)는 데이터 수집부(110), 데이터 전처리부(120), 주요 특징 선택부(130), 모델 선정부(140) 및 예측부(150)를 포함할 수 있다.
본 장치(100)는 건물의 가격에 영향을 주는 복수의 외부 요인 데이터를 고려하여, 건물에 대응하는 부동산(건물, 주택)의 가격을 예측할 수 있다. 여기서, 예측되는 부동산(건물)의 가격, 복수의 외부 요인 데이터에 영향을 받는 건물의 가격이라 함은 건물의 실거래가를 의미할 수 있다.
데이터 수집부(110)는 건물의 가격(변화, 측정)에 영향을 주는 복수의 외부 요인 데이터를 수집할 수 있다.
데이터 수집부(110)는 공공데이터 포털 사이트 및 국토교통부 시스템으로부터 복수의 외부 요인 데이터를 수집할 수 있다. 뿐만 아닐, 데이터 수집부(110)는 웹 스크래핑(Web Scrapping), 일예로 서울 열린데이터 광장 사이트 등으로부터 복수의 외부 요인 데이터를 수집할 수 있다.
복수의 외부 요인 데이터는, 건물과 관련된 건물 거래 데이터 및 복수의 시설과 관련된 시설 데이터를 포함할 수 있다. 복수의 외부 요인 데이터는 건물과 복수의 시설 각각과 관련하여 이름 및 주소 중 적어도 하나의 데이터를 포함할 수 있다.
여기서, 시설 데이터는 지하철 역, 편의시설, 공공시설(공공기관), 학군 및 상권으로 분류되는 복수의 시설과 관련된 시설 데이터를 포함할 수 있다.
달리 표현해, 데이터 수집부(110)는 복수의 외부 요인 데이터로서, 각 건물과 관련된 건물 거래 데이터 및 각 시설(지하철 역, 편의시설, 공공시설, 학군, 상권)과 관련된 시설 데이터를 수집할 수 있다.
구체적인 예로, 복수의 외부 요인 데이터 중 지하철 역 관련 시설 데이터는 각 호선 별 정보, 환승 여부 정보 등을 포함할 수 있으며, 이는 공공데이터 포털 사이트 및 서울 열린데이터 광장 사이트로부터 수집될 수 있다. 복수의 외부 요인 데이터 중 건물과 관련된 건물 거래 데이터는 연립/다세대 건물(주택)의 가격 정보 등이 포함될 수 있으며, 이는 국토교통부 시스템(특히, 국토교통부 실거래가 공개 시스템)으로부터 수집될 수 있다.
또한, 복수의 외부 요인 데이터 중 편의시설, 공공시설, 학군 및 상권을 포함한 복수의 시설과 관련된 시설 데이터는 영화관, 백화점, 지하상가, 유치원, 초등학교, 중학교, 고등학교, 구청, 자치센터, 소상공인 등의 시설과 관련된 정보가 포함될 수 있으며, 이는 예시적으로 공공데이터 포털 사이트, 서울 열린데이터 광장 사이트, 웹 스크래핑을 통해 수집될 수 있다.
도 4는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 데이터 수집부(110)에서 수집되는 복수의 외부 요인 데이터의 예를 나타낸 도면이다.
도 4를 참조하면, 데이터 수집부(110)는 건물과 관련된 건물 거래 데이터로서, 일예로 서울시 연립다세대 주택(건물) 및 실거래 정보를 국토교통부 실거래가 공개 시스템으로부터 수집할 수 있다. 또한, 데이터 수집부(110)는 복수의 시설 중 병원과 관련된 시설 데이터로서 서울시 내 대형병원 데이터를 서울 열린데이터 광장 사이트로부터 수집할 수 있다. 또한, 데이터 수집부(110)는 복수의 시설 중 치안기관과 관련된 시설 데이터로서 일예로 서울시 각 구별 경찰서, 파출소, 지구대 위치 정보를 서울 열린데이터 광장 사이트로부터 수집할 수 있다.
본원에서는 일예로 수집되는 데이터 혹은 전처리되는 데이터가 서울 관련 데이터인 것으로 예시하였으나, 이는 본원의 이해를 돕기 위한 하나의 예시일 뿐, 이에만 한정되는 것은 아니고, 다양한 지역들에 관련된 데이터의 수집 및 전처리가 가능하다.
또한, 복수의 외부 요인 데이터 중 건물 거래 데이터에는 건물의 평균 거래금액(구체적인 예로, 각 구별 연립다세대 주택 평균 거래금액, 주택의 건축연도 별 평균 거래금액) 정보, 주택 거래량(구체적인 예로, 건축연도 별 연립다세대 주택 거래량, 각 구별 주택 거래량) 정보가 포함될 수 있다.
또한, 복수의 외부 요인 데이터 중 복수의 시설과 관련된 시설 데이터에는 다음과 같은 정보가 포함될 수 있다. 지하철 역 관련 시설 데이터에는 지하철 역별 승하차 인원 정보가 포함될 수 있으며, 이는 지하철 역에 대한 부동산 가격의 영향을 파악하기 위한 필수적인 자료라 할 수 있다. 지하철 역 관련 시설 데이터의 경우에는 예시적으로 지하철 역 이름을 전처리한 후 역 이름으로 그룹화한 후 특정 지역에 있는 역만 추출하여 사용될 수 있다.
영화관 관련 시설 데이터에는 현재 운영중인 구별 영화관 정보, '네이버 영화관 정보'에서 제공되는 CGV, 메가박스, 롯데시네마 등의 영화관 관련 정보가 포함될 수 있다. 영화관 관련 시설 데이터는 쇼핑몰, 대형마트와 함께 '몰세권'이라 칭해지는 부동산의 가치를 높이는 요소로서, 문화생활을 대표하는 시설의 데이터라 할 수 있다. 백화점 관련 시설 데이터에는 롯데백화점, 신세계 백화점, 현대 백화점 등의 백화점 정보가 포함될 수 있으며, 이는 '백세권'이라 불리는 부동산 가치를 높이는 요소로서 문화생활을 대표하는 시설의 데이터라 할 수 있다. 공원 관련 시설 데이터에는 공원 현황 데이터가 포함될 수 있으며, 이는 '숲세권'을 대표하는 시설의 데이터라 할 수 있다.
범죄율 관련 시설 데이터에는 집계된 각 구별 5대 범죄 누적 발생횟수 정보가 포함될 수 있다. 이러한 범죄율 관련 시설 데이터에 의하면, 살인, 강도, 강제추행, 절도, 폭력 5대 범죄의 발생횟수를 통해 각 구의 상대적 범죄율을 도출할 수 있으며, 거주지역의 상대적 안전함의 정도로 해석될 수 있다. 예시적으로, 2015년 기준 살인, 강도, 강간 3대 흉악범죄 발생건수와 아파트의 가격의 상관 관계를 분석한 종래 연구에 의하면, 범죄율이 낮은 지역의 집값이 낮을 것이라는 상식과는 다르게 양의 상관관계가 있음이 확인된 바 있다.
소상공인 관련 시설 데이터에는 부동산, 관광/여가, 숙박, 학문/교육, 의료, 생활서비스, 소매, 음식 등의 대분류 기준으로 구분되는 시설의 시설 데이터가 포함될 수 있다. 여기서, 관광/여가 관련 시설 데이터에는, 'PC방, 오락, 당구, 무도, 유흥', '안마시술소', '연극, 영화' 등의 중분류 기준으로 구분되는 시설의 시설 데이터가 포함될 수 있다. 또한, 의료 관련 시설 데이터에는, 수의, 약국, 일반병원, 한의원 등의 중분류 기준으로 구분되는 시설의 시설 데이터가 포함될 수 있다.
부동산 관련 시설 데이터에는 예시적으로 각 행정구에 속한 대학교 정보가 포함될 수 있다. 학문/교육 관련 시설 데이터에는 구 별 학문/교육(학원, 도서관, 유아교육 등)의 정보가 포함될 수 있다. 생활서비스 관련 시설 데이터에는 구 별 생활서비스(세탁, 광고, 자동차 등) 정보가 포함될 수 있다. 소매 관련 시설 데이터에는 구 별 소매(건강, 미용, 책, 의류, 문구 등) 정보가 포함될 수 있다. 음식 관련 시설 데이터에는 구 별 음식(식당, 카페, 베이커리 등) 정보가 포함될 수 있다.
이처럼, 데이터 수집부(110)는 건물(연립/다세대 주택 등)의 가격에 영향을 줄 수 있는 복수의 외부 요인 데이터를 수집할 수 있다. 데이터 수집부(110)는 복수의 외부 요인 데이터로서, 건물, 지하철 역, 편의시설, 공공시설, 학군, 상권으로 분류되는 데이터(즉, 건물 거래 데이터와 시설 데이터)를 수집할 수 있다.
데이터 전처리부(120)는 데이터 수집부(110)에서 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징(Feature)과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성할 수 있다.
데이터 전처리부(120)는 외부 라이브러리를 기반으로 복수의 외부 요인 데이터에 포함된 건물과 복수의 시설 각각에 대한 위치 데이터를 획득할 수 있다. 여기서, 위치 데이터는 위도 및 경도 데이터를 포함할 수 있다. 또한, 외부 라이브러리는 예시적으로 구글맵 라이브러리, 하버사인(haversine) 라이브러리 등일 수 있으나, 이에 한정되는 것은 아니다.
이후, 데이터 전처리부(120)는 획득된 위치 데이터를 기반으로 맨해튼 거리(Manhattan distance) 측정법을 이용하여 각 건물마다 건물과 시설 간의 거리를 산출할 수 있다. 데이터 전처리부(120)는 산출된 건물과 시설 간의 거리를 기반으로, 각 건물마다 관계 정보와 건물의 특성 정보가 연계되어 저장되어 있는 전처리된 데이터셋을 생성할 수 있다.
예시적으로, 데이터 전처리부(120)는 데이터 수집부(110)에서 지하철 역 관련 시설 데이터가 수집된 경우, 수집된 시설 데이터에 대하여 구글맵 라이브러리를 기반으로 데이터 전처리로서 데이터 필터링을 수행할 수 있다. 이러한 데이터 필터링을 통해, 데이터 전처리부(120)는 일예로 특정 지역(예를들어, 서울)에 존재하는 역을 선별하거나 소속 구 정보를 추출할 수 있다.
또한, 데이터 전처리부(120)는 데이터 수집부(110)에서 건물과 복수의 시설 각각에 대한 주소 데이터가 수집된 경우, 수집된 주소 데이터에 대하여 구글맵 라이브러리를 기반으로(구글맵 라이브러리의 적용을 통해) 건물과 복수의 시설 각각의 위치 데이터(위도 데이터와 경도 데이터)를 획득할 수 있다.
또한, 데이터 전처리부(120)는 획득된 건물과 복수의 시설 각각의 위치 데이터(위도, 경도 데이터)에 대하여 하버사인(haversine) 라이브러리를 적용할 수 있으며, 이를 통해 각 건물마다 건물과 시설 간의 거리를 산출할 수 있다. 즉, 데이터 전처리부(120)는 획득된 위치 데이터에 대하여 하버사인 라이브러리를 적용해 데이터 전처리를 수행할 수 있으며, 이를 통해 각 건물과 시설 사이의 거리를 나타내는 거리 데이터를 획득(산출)할 수 있다.
데이터 전처리부(120)는 건물의 위치 데이터와 시설의 위치 데이터가 주어진 경우, 하버사인 라이브러리와 맨해튼 거리(Manhattan distance) 측정법을 기반으로 건물과 시설 간의 거리(거리 데이터)를 산출하는 전처리를 수행할 수 있다.
이러한 전처리를 통해 데이터 전처리부(120)는 전처리된 데이터셋을 생성할 수 있다.
도 5는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 데이터 전처리부(120)에 의해 생성되는 전처리된 데이터셋에 포함되는 정보를 설명하기 위한 도면이다.
도 5를 참조하면, 전처리의 수행을 통해, 데이터 전처리부(120)는 각 건물마다 복수개의 특징(Feature)과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성할 수 있다. 즉, 전처리된 데이터셋에는 각각의 건물마다, 해당 건물과 시설 간의 관계 정보 및 건물의 특성 정보가 서로 연계되어 저장되어 있을 수 있다.
또한, 전처리된 데이터셋 내 저장된 각 건물의 정보(관계 정보, 건물의 특성 정보) 중 연립주택에 해당하는 건물의 정보로는 연립주택 내 각 가구의 주소를 기준으로 그룹화하고, 이러한 그룹화를 기반으로 획득(산출)된 정보일 수 있다.
여기서, 복수개의 특징(Feature)은 건물의 가격에 영향을 주는 요소(항목)를 의미할 수 있다. 예시적으로, 복수개의 특징에는 평균 거래금액, 평균 전용면적, 평균 대지권면적, 건설년도(건설연도), 지하철 역, 자치구, 지하철 노선, 유치원, 초등학교, 중학교, 고등학교, 대학교, 주민센터, 치안기관, 영화관, 백화점, 대형마트, 공원, 병원, 구청, 보건소, 구 범죄율, 소상공인(관광, 학문, 의료, 생활서비스, 소매, 음식) 등과 관련된 특징이 포함될 수 있다. 본원에서 고려되는 복수개의 특징은 예시적으로 371개일 수 있으며, 이에 한정되는 것은 아니다.
또한, 관계 정보는, 각 건물과 지하철 역 간의 거리(즉, '건물에서 역까지의 거리'), 각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리(즉, '최근접 시설 3개와의 거리') 및 각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리(즉, '해당 자치구 소속의 시설과의 거리')를 포함하는 거리 정보, 각 건물이 속한 자치구의 특성 정보(즉, '해당 자치구의 특성') 및 각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보(즉, '일정 거리 내에 존재하는 시설의 수'에 대한 정보)를 포함할 수 있다. 또한, 관계 정보는 원핫 매트릭스(One-Hot Matrix) 정보를 포함할 수 있다.
또한, 건물의 특성 정보는, 건물의 거래금액 정보, 전용면적 정보, 대지권면적 정보 및 건축년도 정보를 포함할 수 있다.
데이터 전처리부(120)는 각 건물 중 어느 한 건물에 대하여 복수회의 거래 이력이 존재하는 경우, 상기 어느 한 건물에 대응하는 거래금액 정보로서, 복수회의 거래 이력 각각에 대응하는 거래금액 정보를 평균한 평균 거래금액 정보를 고려할 수 있다.
뿐만 아니라, 데이터 전처리부(120)는, 어느 한 건물에 대하여 복수회의 거래 이력이 존재하는 경우, 어느 한 건물에 대응하는 전용면적 정보로서 복수회의 거래 이력 각각에 대응하는 전용면적 정보를 평균한 평균 전용면적 정보를 고려할 수 있다. 또한, 데이터 전처리부(120)는, 어느 한 건물에 대하여 복수회의 거래 이력이 존재하는 경우, 어느 한 건물에 대응하는 대지권면적 정보로서 복수회의 거래 이력 각각에 대응하는 대지권면적 정보를 평균한 평균 대지권면적 정보를 고려할 수 있다.
다시 말하자면, 건물의 특성 정보는, 해당 건물과 관련하여 평균 거래금액 정보, 평균 전용면적 정보, 평균 대지권면적 정보 및 건축년도 정보를 포함할 수 있다.
이에 따르면, 데이터 전처리부(120)에 의하여 생성된 전처리된 데이터셋은 일예로 (26542, 371) 형태를 가질 수 있다. 여기서, 26542는 건물의 수(개수)를 의미하고, 371은 복수의 특징(Feature)의 개수를 의미한다. 즉, 전처리된 데이터셋에는 '26542개의 건물' × '건물 가격 & 371개의 특징'에 관한 정보가 포함되어 있을 수 있다. 여기서, 건물 가격은 평균 거래금액을 의미할 수 있다.
달리 표현해, 전처리된 데이터셋에는 각 건물별로(26542개의 건물 각각마다), 371개의 특징과 관련된 정보(관계 정보와 건물의 특성 정보)가 서로 연계되어 저장되어 있을 수 있다. 즉, 전처리된 데이터셋에는 각 건물별로, 건물의 특성 정보(특히, 건물의 가격 정보, 즉 평균 거래금액 정보)와 371개의 특징 관련 정보가 서로 연계되어 저장되어 있을 수 있다.
도 6a는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 건물의 특성 정보의 예를 나타낸 도면이다.
즉, 도 6a는 전처리된 데이터셋 내에, 건물의 특성 정보로서 각 건물별(건물번호 0 내지 4에 해당하는 건물별)로 4개의 특징(평균 거래금액 정보, 평균 전용면적 정보, 평균 대지권면적 정보 및 건축년도 정보)과 관련된 정보가 저장된 경우의 예를 나타낸다.
도 6a를 참조하면, 전처리의 수행 결과로서, 전처리된 데이터셋 내에는 건물의 특성 정보가 포함될 수 있다. 여기서, 건물의 특성 정보는 동일한 건물에서 여러 건의 거래가 발생한 경우(즉, 복수회의 거래 이력이 존재하는 경우), 건물 주소를 기준으로 그룹화한 후 평균 수치(즉, 평균 거래금액, 평균 전용면적, 평균 대지권면적)를 산출함으로써 획득된 것일 수 있다.
또한, 전처리된 데이터셋 내에는 건물번호가 포함될 수 있다. 건물번호는 각 건물에 대하여 부여되는 식별정보(식별번호)를 의미할 수 있다. 이러한 건물번호는 예시적으로 건물 주소를 가나다 순으로 정렬한 후 순서대로 부여함으로써 할당된 것일 수 있다.
전처리된 데이터셋에는, 건물의 특성 정보로서 예시적으로 각 건물별로(건물번호 0 내지 4에 해당하는 5개의 건물 각각별) 4개의 특징(평균 거래금액 정보, 평균 전용면적 정보, 평균 대지권면적 정보 및 건축년도 정보)과 관련된 정보가 연계되어 저장되어 있을 수 있다.
즉, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물의 특성 정보와 관련하여, 평균 거래금액 정보는 57250, 평균 전용면적 정보는 58.05, 평균 대지권면적 정보는 31.44, 건축년도 정보는 2017에 해당하는 정보가 연계되어 저장되어 있을 수 있다. 여기서, 평균 거래금액 정보는 단위가 천원, 만원 등일 수 있으나 이에 한정되는 것은 아니다.
도 6b는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 각 건물과 지하철 역 간의 거리 정보의 예를 나타낸 도면이다.
도 6b를 참조하면, 전처리의 수행 결과로서, 전처리된 데이터셋 내에는 관계 정보 중 '건물과 지하철 역 간의 거리(즉, '건물에서 역까지의 거리)'에 관한 거리 정보가 포함될 수 있다. 전처리된 데이터셋에는, '건물과 지하철 역 간의 거리'에 대한 거리 정보로서, 각각의 건물별로, 각 건물에서 모든 지하철역 각각까지의 거리 정보(즉, 맨해튼 거리 측정법을 이용하여 산출된 거리 데이터)가 저장될 수 있다.
예시적으로, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물에 대하여, '건물과 지하철 역 간의 거리'에 관한 거리 정보로서, 해당 건물(건물번호 0에 해당하는 건물)로부터 '419민주묘지역'까지의 거리는 23054.92376, 해당 건물로부터 '가락시장역'까지의 거리는 8161.644546, 해당 건물로부터 '가산디지털단지역'까지의 거리는 15873.97968 등의 정보가 저장되어 있을 수 있다.
본 장치(100)는 전처리된 데이터셋 내에 포함된 '건물과 지하철 역 간의 거리' 관련 거리 정보를 고려하여 부동산 가격 예측을 수행함으로써, 건물의 가격에 영향을 미치는 지하철 역의 영향을 충분히 반영할 수 있다.
도 6c는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 원핫 매트릭스(One-Hot Matrix) 정보의 예를 나타낸 도면이다.
도 6c를 참조하면, 전처리의 수행 결과로서, 전처리된 데이터셋 내에는 관계 정보 중 '원핫 매트릭스(One-Hot Matrix) 정보'가 포함될 수 있다. 원핫 매트릭스 정보는 자치구, 지하철 노선에 대한 특징과 관련된 정보를 의미할 수 있다. 특히, 원핫 매트릭스 정보는 각 건물이 속한 자치구의 정보와 최근접 3개의 지하철 역의 호선정보에 대한 원핫 매트릭스 정보를 의미할 수 있다.
자치구 또는 지하철 역의 호선정보는 범주형 자료임에 따라, 데이터 전처리부(120)는 기계학습의 적용을 위해 해당 정보(자치구, 최근접 3개의 지하철역의 호선정보)를 원핫 매트릭스로 변환하여 사용할 수 있다. 예시적으로, 서울의 자치구는 25개 존재하고, 호선은 1~9호선, 경인선, 경춘선, 분당선, 공항철도 등을 포함하여 18개 존재할 수 있다.
이러한 '원핫 매트릭스 정보'에 의하면, 예시적으로 건물번호 0에 해당하는 건물의 경우, 자치구로는 강남구에 속하고, 최근접 호선 정보로는 3호선이 존재함을 확인할 수 있다.
도 6d는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리의 예를 나타낸 도면이다.
도 6d를 참조하면, 전처리의 수행 결과로서, 전처리된 데이터셋 내에는 관계 정보 중 '건물과 미리 설정된 수의 최근접 시설 각각 간의 거리(즉, '최근접 시설 3개와의 거리') 정보가 포함될 수 있다. 이때, 본원의 일예에서는 고려되는 최근접 시설의 수와 관련하여 미리 설정된 수로서 3개인 것으로 예시하였으나, 이에 한정되는 것은 아니고, 그 수는 다양하게 설정될 수 있다.
전처리된 데이터셋에는, '건물과 미리 설정된 수의 최근접 시설 각각 간의 거리' 정보와 관련하여, 시설의 유형 별로 각 건물에서 맨해튼 거리가 가장 가까운 3개의 시설과의 거리 정보가 포함될 수 있다. 이처럼, 3개의 시설과의 거리를 고려함으로써, 본 장치(100)는 부동산 가격 예측을 수행함에 있어서 다양한 시설에 대한 접근성을 고려할 수 있다.
여기서, 시설의 유형별이라 함은, 편의시설, 공공시설, 학군 및 상권으로 구분되는 시설의 유형을 의미할 수 있다. 구체적인 예로, 시설의 유형에는 유치원, 초등학교, 중학교, 고등학교, 대학교, 주민센터, 치안기관, 영화관, 백화점, 대형마트, 공원, 병원 등이 포함될 수 있다.
예시적으로, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물에 대하여, '건물과 미리 설정된 수의 최근접 시설 각각 간의 거리'에 관한 거리 정보로서, 해당 건물(건물번호 0에 해당하는 건물)로부터 첫번째로 가장 가까운 거리에 있는 유치원(유치원_1st)까지의 거리는 281.6093204, 해당 건물로부터 두번째로 가까운 거리에 있는 유치원(유치원_2nd)까지의 거리는 670.2823727, 해당 건물로부터 세번째로 가까운 거리에 있는 유치원(유치원_3rd)까지의 거리는 1601.775626에 관한 정보가 저장되어 있을 수 있다.
또한, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물에 대하여, '건물과 미리 설정된 수의 최근접 시설 각각 간의 거리'에 관한 거리 정보로서, 해당 건물(건물번호 0에 해당하는 건물)로부터 첫번째로 가장 가까운 거리에 있는 영화관(영화관_1st)까지의 거리는 4896.582542, 해당 건물로부터 두번째로 가까운 거리에 있는 영화관(영화관_2nd)까지의 거리는 5079.27352, 해당 건물로부터 세번째로 가까운 거리에 있는 영화관(영화관_3rd)까지의 거리는 5295.547595에 관한 정보가 저장되어 있을 수 있다.
도 6e는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 전처리 수행 결과로서, 전처리된 데이터셋에 포함된 관계 정보 중 각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리(즉, '해당 자치구 소속의 시설과의 거리') 정보의 예를 나타낸 도면이다.
도 6e를 참조하면, 전처리의 수행 결과로서, 전처리된 데이터셋 내에는 관계 정보 중 '각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리(즉, '해당 자치구 소속의 시설과의 거리')에 관한 거리 정보가 포함될 수 있다.
'각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리'에 관한 거리 정보는, 각 건물과 해당 자치구 소속의 시설까지의 거리 정보를 포함할 수 있다. 여기서, 고려되는 해당 자치구 소속의 시설은 구청, 보건소 등을 의미할 수 있다. 이러한 본 장치(100)는 보편적으로 구청과 보건소가 해당 자치구의 기관을 이용한다는 특성을 반영한 것이라 할 수 있다.
예시적으로, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물에 대하여, '각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리'에 관한 거리 정보로서, 해당 건물(건물번호 0에 해당하는 건물)로부터 구청까지의 거리는 5376.168, 해당 건물로부터 보건소까지의 거리는 5718.455에 관한 정보가 저장되어 있을 수 있다.
본원에서 고려되는 건물과 시설 간의 거리, 즉 전처리된 데이터셋에 포함된 거리 정보는 예시적으로 거리의 수치 단위가 m 단위일 수 있으나, 이에 한정되는 것은 아니고, cm, km 등 다양한 단위로 적용될 수 있다.
도 6f는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 전처리 수행 결과로서, 각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보의 예를 나타낸 도면이다.
도 6f를 참조하면, 전처리의 수행 결과로서, 전처리된 데이터셋 내에는 관계 정보 중 '각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보(즉, '일정 거리 내에 존재하는 시설의 수'에 대한 정보)'가 포함될 수 있다.
이러한, 시설 수 정보는 해당 건물로부터 예시적으로 도보거리 20분 이내에 존재하는 시설의 개수 정보를 의미할 수 있다. 이때, 도보의 속도는 시속 5km/h로 가정함에 따라, 시설 수 정보는 맨해튼 거리 측정법을 통해 1333m 이내에 존재하는 시설의 개수 정보를 의미할 수 있다. 이에 따르면, 시설 수 정보에서 고려되는 '일정 거리 내', 혹은 '미리 설정된 거리 내'라 함은 예시적으로 건물로부터 '133m 이내'의 거리를 의미할 수 있다.
본 장치(100)는 부동산 가격을 예측함에 있어서 이러한 시설 수 정보를 통해, 건물에서부터 접근 가능한 시설의 수를 포괄적으로 고려할 수 있다.
예시적으로, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물에 대하여, '각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보'로서, 부동산(건물)은 80개, 'PC방, 오락, 당구, 무도, 유흥'은 61개, '안마시술소'는 1개, '연극, 영화'는 1개, 숙박은 0개 등의 정보가 저장되어 있을 수 있다.
또한, 전처리된 데이터셋에 포함된 건물의 특성 정보 중 건물의 거래금액 정보는 평균 거래금액 정보이되, 특히 로그 스케일이 적용된 평균 거래금액 정보일 수 있다. 건물의 거래금액 정보는 건물 매매가를 의미할 수 있다.
예시적으로, 전처리된 데이터셋에는 건물번호 0에 해당하는 건물에 대하여, 건물의 거래금액 정보로서, 로그 스케일이 적용된 평균 거래금액 정보 10.95520039에 관한 정보가 저장되어 있을 수 있다. 한편, 건물번호 0에 해당하는 건물에 대하여 로그 스케일이 적용되지 않은 평균 거래금액 정보는 예시적으로 57250일 수 있다.
앞선 일예에서는, 전처리된 데이터셋 내 '각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리'에 관한 거리 정보의 경우, 최근접 시설로서 인접한 구에 존재하는 시설만 고려함에 따라, 전처리된 데이터셋 내에는 특정 최근접 시설이 존재하지 않는 건물이 포함되어 있을 수 있다. 즉, 전처리된 데이터셋 내에는 관계 정보와 관련하여 일부 결측값(Missing value)이 존재할 수 있다.
이러한 경우, 데이터 전처리부(130)는 생성된 전처리된 데이터셋 내에 결측값이 존재하는 경우, 해당 결측값을 해당 결측값이 포함된 열에 속한 데이터(정보)의 평균값으로 보정할 수 있다.
이러한 데이터 전처리부(120)에 의하면, 복수의 외부 요인 데이터에 대한 전처리의 수행을 통해 각 건물마다 복수개의 특징(예시적으로 371개의 특징)과 관련된 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋이 생성될 수 있다.
주요 특징 선택부(130)는 데이터셋 전처리부(120)에서 고려되는 복수개의 특징(예시적으로, 371개의 특징) 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택할 수 있다.
주요 특징 선택부(130)는, 복수개의 특징 선택 모델을 통해 복수개의 특징 각각의 회귀계수 벡터 또는 특징 중요도 벡터를 추출하고, 추출된 벡터를 기반으로 TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution) 기법을 적용하여 복수개의 특징의 순위(우선순위)를 산출하고, 산출된 순위(우선순위)를 기반으로 미리 설정된 수에 대응하는 특징을 복수의 주요 특징으로서 선택할 수 있다.
여기서, 미리 설정된 수는 예시적으로 20개일 수 있으나, 이에 한정되는 것은 아니다. 또한, 주요 특징 선택부(130)는 복수개의 특징의 순위(우선순위)를 기반으로, 복수개의 특징 중 상위 20개의 특징을 복수의 주요 특징으로서 선택할 수 있다.
여기서, 복수의 주요 특징 선택시 이용되는 복수개의 특징 선택 모델에는, 복수의 선형회귀 모델, 복수의 트리(Tree) 기반 회귀 모델, 및 복수의 딥러닝 모델이 포함될 수 있다.
예시적으로, 복수의 선형회귀 모델에는 다중 선형회귀 모델(Multiple Linear Regression), 능형 선형회귀 모델(Ridge Linear Regression), 라소 선형회귀 모델(Lasso Linear Regression) 등이 포함될 수 있다. 복수의 트리 기반 회귀 모델에는 결정 트리(Decision Tree) 모델, 랜덤 포레스트(Random Forest) 모델, 엑스트라 트리 회귀(Extra Tree Regression) 모델, 그래디언트 부스티드 회귀(Gradient Boosting Regression) 모델 등이 포함될 수 있다. 복수의 딥러닝 모델에는 컨볼루션 신경망(Convolution Neural Network, CNN, 합성곱 신경망), 순환신경망(RNN, Recurrent Neural Network), 딥 신경망(Deep Neural Network) 등이 포함될 수 있다.
상술한 선형회귀 모델, 트리 기반 회귀 모델, 딥러닝 모델의 예는 본원의 이해를 돕기 위한 하나의 예시일 뿐, 이에만 한정되는 것은 아니고, 본 장치(100)에는 종래에 이미 공지되었거나 향후 개발되는 다양한 모델들(선형회귀 모델, 트리 기반 회귀 모델, 딥러닝 모델)이 적용될 수 있다.
복수개의 특징 선택 모델 각각에 대한 개략적인 설명은 다음과 같다.
다중 선형회귀 모델(Multiple Linear Regression)은 가장 적절한 직선을 이용해 종속변수와 하나 이상의 독립변수 사이의 관계를 찾는 모델을 의미한다. 이는 실제값과 예측값의 차이 제곱의 합(MSE, Mean Squared Error)를 최소로 하는 모델로 생성되며, 일반적으로 예측된 변수의 분산 비율의 비(R-square)로 모델의 성능이 측정될 수 있다. 일반적인 선형회귀에서는 독립변수들이 서로 독립이라는 가정사항이 있지만, 독립변수의 수가 증가할 수록 변수들간의 상관관계가 강해질 수 있다. 예를 들어, 본원의 일예에 따르면, ‘강남구’라는 변수와 강남구에 존재하는 ‘강남역’, ‘선릉역’ 등의 지하철 역 관련 변수들에 어떠한 관계가 존재할 수 있다. 이는 다중공선성(Multicolinearity)이라 할 수 있다. 다중공선성이 존재하면 회귀식의 예측 정확도에 대한 안정성이 떨어지는 문제가 발생하기 때문에, 이를 해소하기 위해 일예로 본 장치(100)에서 다중 선형회귀 모델을 사용하는 경우에는, 선형회귀 계수의 크기를 감소시키거나, 계수 자체를 없애는 방식을 채택할 수 있다.
능형 선형회귀 모델(Ridge Linear Regression)은 MSE를 최소화하면서, 회귀계수 벡터의 L2 norm을 제한하는 모델을 의미한다. 이는 회귀계수의 값을 무한히 작게 하지만, 0으로는 만들 수 없으며, 변수간의 상관관계가 높아도 좋은 성능을 보이는 특징이 있다. 능형 선형회귀 모델은 크기가 큰 회귀계수를 우선적으로 줄일 수 있다.
라소 선형회귀 모델(Lasso Linear Regression)은 MSE를 최소화하면서, 회귀계수 벡터의 L1 norm을 제한하는 모델을 의미한다. 이는 회귀계수를 0으로 만들기 때문에, 변수 선택이 가능하다. 또한 변수간의 상관관계가 높으면 성능이 떨어지는 특성이 있으며, 비중요 변수의 회귀계수를 우선적으로 줄일 수 있다.
결정 트리(Decision Tree) 모델은 일련의 조건에 근거하여 데이터를 하위집합(subset)으로 나누며 학습하는 머신러닝 알고리즘 모델을 의미한다. 결정 트리 모델은 데이터를 구분한 후 각 영역의 순도(homogeneity)가 커지도록, 불순도(impurity) 또는 불확실성(uncertainty)가 감소하도록 학습을 수행한다. 결정 트리 모델의 경우, 분류(Classification) 문제에서는 비슷한 특징(feature)을 가진 최빈 데이터 집합을 정답으로 지정하고, 회귀(Regression) 문제에서는 탐색한 잎 노드(leaf node)의 평균값을 정답으로 지정할 수 있다.
랜덤 포레스트(Random Forest) 모델(랜덤 포레스트 회귀 모델)은, 각 노드(node)마다 특징(feature)을 랜덤하게 추출하여 서브 트리(sub tree)를 만들고, 이 중에서 최선의 결과값을 찾는 머신러닝 알고리즘 모델을 의미한다. 랜덤 포레스트 모델은 서로 다른 특징(feature)으로 오버피팅(overfitting)된 트리를 앙상블함으로써, 결정 트리(Decision Tree)의 고유 성질인 오버피팅(overfitting)을 회피할 수 있다. 랜덤 포레스트 모델은 최대 특징(max_feature) 파라미터를 통해 랜덤으로 추출한 특징(feature)의 개수를 제한한다. 이에 따르면, 최대 특징(max_feature) 값이 클수록, 각 서브 트리(sub tree)는 서로 비슷해지며, 가장 두드러진 특징(feature)을 가진 데이터 예측에 용이하기 적용될 수 있다. 한편, 최대 특징(max_feature)값이 작을수록, 서브 트리들이 서로 달라지며, 각 트리는 예측을 위해 깊이가 깊어질 수 있다.
엑스트라 트리 회귀(Extra Tree Regression) 모델은 노드(node)마다 특징(feature)을 랜덤하게 분할하고 그 중에서 최상의 분할방식을 선택하여 서브 트리(sub tree)를 만들어 최선의 결과값을 찾는 머신러닝 알고리즘 모델을 의미한다. 엑스트라 트리 회귀 모델은 랜덤 포레스트(Random Forest) 모델과 유사하지만, 극단적으로 랜덤하게 서브 트리(sub tree)를 생성한다. 엑스트라 트리 회귀 모델은 랜덤 포레스트 모델에 비해 전반적으로 특징(feature) 중요도를 더 높게 평가하는데, 이는 엑스트라 트리 회귀 모델이 더 폭넓은 시각으로 특징(feature)을 평가한다는 것을 의미한다.
그래디언트 부스팅 회귀(Gradient Boosting Regression) 모델에서, 부스팅(Boosting)은 성능이 약한 모델들을 결합하여 강력한 모델을 만드는 과정을 의미한다. 예를 들어, 모델 A, B, C의 성능이 각각 0.3정도라고 할 때, Boosting은 A 모델을 만든 후, 그 정보를 바탕으로 B 모델을 만들고, 다시 그 정보를 바탕으로 C 모델을 만드는 방법을 의미한다. 또한, 그래디언트(Gradient)는 ‘기울기’를 뜻하는 말로, MSE 등 손실함수(loss function)의 기울기를 통해 손실함수의 값을 최소화하는 기법을 의미한다. 따라서, 그래디언트 부스팅 회귀 모델은 성능이 약한 모델들을 여러 개 결합하여 그래디언트(Gradient)를 기반으로 손실함수를 최소로 하는 회귀 모델을 의미한다.
딥러닝 모델은, 머신러닝의 한 부분으로 인공신경망(ANN)에 기반하여 설계된 개념의 모델을 의미한다. 딥러닝 모델은 다수의 신호(input)을 입력받아 하나의 신호(output)을 출력하는 퍼셉트론을 다층으로 설계한 모델이며, 선형 맞춤(LINEAR FITTING) 과 비선형 변환(nonlinear transformation)을 반복해 쌓아 올리는 구조로 이루어진다. 딥러닝 모델은 복잡한 공간 속에서 최적의 구분선을 만들어 내는 것을 목적으로 하며, 모델을 구성하는 각 계층(layers)에 설계자가 목적하는 바에 적합한 활성함수와 노드의 개수를 설정하여 목적 결과를 도출하는데 이용될 수 있다.
주요 특징 선택부(130)는 복수개의 특징 중 타겟 데이터(출력 데이터)인 건물의 가격(즉, 건물의 평균 매매가)에 큰 영향을 미치는 주요 특징을 선택(선정)하기 위해, 다기준의사결정(Multi-Criteria Decision Making, MCDM) 기법 중 하나인 TOPSIS 기법을 이용할 수 있다.
주요 특징을 선택하기 위해, 구체적으로, 주요 특징 선택부(130)는 복수개의 특징 선택 모델을 통해 특징(feature) 선택에 영향을 미치는 특징(feature)의 계수 또는 특징(feature) 중요도 벡터를 추출할 수 있다. 달리 표현하여, 주요 특징 선택부(130)는 복수개의 특징 선택 모델을 이용해 복수개의 특징 각각의 회귀계수 벡터 또는 특징 중요도 벡터(특징의 중요도 벡터)를 추출할 수 있다. 여기서, 복수개의 특징 선택 모델로는 앞서 말한 바와 같이, 일예로 Lasso Linear Regression, Decision Tree, Random Forest, Extra Tree Regression, Gradient Boosting Regression 등이 사용될 수 있다.
이후, 추출된 벡터(회귀계수 벡터와 특징 중요도 벡터)에 대하여, 주요 특징 선택부(130)는 최대-최소 정규화(min-max normalization)를 통해 모델 별로(즉, 복수개의 특징 선택 모델별로) 회귀계수 벡터 또는 특징 중요도 벡터를 정규화할 수 있다.
예시적으로, 라소 선형회귀 모델(Lasso Linear Regression)의 경우에는 L1 norm에 정규화를 진행하여 회귀 분석을 수행할 수 있다. 이에 따라, 라소 선형회귀 모델의 경우, 특징(Feature)별로 0 또는 0 이상의 회귀계수가 도출될 수 있으며, 이를 기반으로 주요 특징 선택부(130)에 의한 주요 특징의 선택의 이루어질 수 있다. 또한, 라소 선형회귀 모델의 경우에는 Lasso 객체의 'coef_' 필드를 통해 특징(feature)들의 회귀계수 확인(즉, 회귀계수 벡터의 추출)이 이루어질 수 있다.
또한, 트리 기반 회귀 모델의 경우에는 모델 생성에 있어서 특징(feature)들의 중요도를 결과로 도출하도록 생성될 수 있다. 이에 따르면, 트리 기반 회귀 모델의 경우에는 Tree 객체의 'feature_importance_' 필드를 통해 특징(feature)들의 중요도 확인(즉, 특징 중요도 벡터의 추출)이 이루어질 수 있다.
이후, 주요 특징 선택부(130)는 모델 별로(즉, 복수개의 특징 선택 모델별로) 정규화된 벡터에 각각 해당 모델의 MAE의 역수를 곱함으로써, 가중치를 반영한 매트릭스를 생성할 수 있다. 이를 통해, 모델 별로(특징 선택 모델별로) 긍정적으로 이상적인 대안(PIS; positive ideal solution) 및 부정적으로 이상적인 대안(NIS; negative ideal solution)이 도출될 수 있다.
이후, 주요 특징 선택부(130)는, 복수개의 특징 각각이 가지는 값(특징 각각의 특징값)과 PIS와 NIS 간의 거리를 기반으로, TOPSIS 기법의 적용을 통해 복수개의 특징 각각에 대한 근접성 값(closeness 값)을 산출할 수 있다.
주요 특징 선택부(130)는 산출된 각 특징의 근접성 값을 기반으로 복수개의 특징의 순위를 산출하고, 산출된 순위를 기반으로 복수개의 특징(예시적으로, 371개의 특징) 중 상위 20개의 특징을 복수의 주요 특징으로서 선택할 수 있다. 달리 표현해, 주요 특징 선택부(130)는 복수개의 특징 중 근접성 값이 큰 순으로 상위 20개의 특징을 복수의 주요 특징으로서 선택할 수 있다.
여기서, 복수개의 특징 중 근접성 값이 큰 특징일수록, 해당 특징이 건물의 가격에 큰 영향을 미치는 특징인 것임을 나타낼 수 있다.
도 7a는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 주요 특징 선택부(130)에 의하여 선택된 복수의 주요 특징의 예를 나타낸 도면이다. 도 특히, 도 7a는 복수개의 특징 각각의 근접성 값을 높은 순으로 정렬하였을 때, 복수의 주요 특징으로서 선택된 근접성 값이 높은 상위 20개의 특징의 예를 나타낸 도면이다.
도 7a를 참조하면, 주요 특징 선택부(130)에 의하여 선택된 복수의 주요 특징(상위 20개의 순위에 속한 특징)에는, 평균 전용면적, 평균 대지권면적, 건축년도, 신사, 서초구, 강동구, 경인선, 강남구, 사평, 압구정 등이 포함될 수 있다.
이에 따르면, 복수개의 특징(371개의 특징) 중 부동산(건물) 가격에 가장 큰 영향을 주는 특징은 건물의 평균 전용면적임을 알 수 있다. 그 다음으로, 복수개의 특징 중 부동산(건물) 가격에 두번째로 큰 영향을 미치는 특징은 건물의 평균 대지권면적임을 알 수 있다.
도 7b는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 복수개의 특징 중 TOPSIS 기법의 적용 결과 하위 20개의 순위에 속하는 특징의 예를 나타낸 도면이다.
도 7b를 참조하면, 복수개의 특징(371개의 특징) 중 부동산(건물) 가격에 가장 큰 영향을 미치지 않는 특징은 자치구 중 강서구에 관한 특징임을 알 수 있다.
이처럼, 주요 특징 선택부(130)는 복수개의 특징 중 부동산(건물) 가격에 큰 영향을 주는 상위 20개의 특징을 복수의 주요 특징으로서 선택할 수 있다.
한편, 모델 선정부(140)는 데이터 전처리부(120)에서 전처리하여 생성된 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정할 수 있다.
모델 선정부(140)는 전처리된 데이터셋에 대한 K겹 교차 검증(K-fold Cross Validation) 방식의 적용을 기반으로 복수개의 예측 모델의 예측 성능을 비교하고, 비교 결과 복수개의 예측 모델 중 가장 높은 예측 성능을 나타내는 예측 모델을 가격 예측 모델로서 선정할 수 있다.
여기서, 복수의 예측 모델 중 모델 선정부(140)에 의하여 선정된 가격 예측 모델은, 예를 들어, 엑스트라 트리 회귀 모델(Extra Tree Regressor)일 수 있으나, 반드시 해당 모델로 한정되는 것은 아니다.
복수개의 예측 모델에는 복수의 선형회귀 예측 모델, 복수의 트리 기반 회귀 예측 모델, 및 복수의 딥러닝 예측 모델이 포함될 수 있다.
예시적으로, 복수개의 예측 모델에 포함된 복수의 선형회귀 예측 모델로는 다중 선형회귀 모델(Multiple Linear Regression), 능형 선형회귀 모델(Ridge Linear Regression), 라소 선형회귀 모델(Lasso Linear Regression) 등이 포함될 수 있다. 또한, 복수개의 예측 모델에 포함된 복수의 트리 기반 회귀 예측 모델로는 결정 트리(Decision Tree) 모델, 랜덤 포레스트(Random Forest) 모델, 엑스트라 트리 회귀(Extra Tree Regression) 모델, 그래디언트 부스티드 회귀(Gradient Boosting Regression) 모델 등이 포함될 수 있다. 또한, 복수개의 예측 모델에 포함된 복수의 딥러닝 예측 모델로는 컨볼루션 신경망(Convolution Neural Network, CNN, 합성곱 신경망), 순환신경망(RNN, Recurrent Neural Network), 딥 신경망(Deep Neural Network) 등이 포함될 수 있다.
이때, 복수개의 예측 모델에 포함된 예측 모델들은, 앞서 설명한 복수개의 특징 선택 모델에 포함된 모델들과는 종류는 같을 수 있으나, 복수개의 특징 선택 모델에 포함된 모델들과는 별도로 새롭게 생성되어 마련되는 모델들(예측 모델들)을 의미할 수 있다.
모델 선정부(140)는 복수개의 예측 모델 각각의 성능을 비교할 수 있다. 모델 선정부(140)는 각 예측 모델들의 정확한 성능을 도출하기 위해, 일예로 K겹 교차 검증(K-fold Cross Validation) 방식을 이용할 수 있다.
여기서, K겹 교차 검증에서 교차 검증(Cross Validation)은 다음을 의미한다. 회귀분석 모델(모형)을 만드는 목적 중 하나는 종속 변수의 값을 예측하는 것이라 할 수 있는데, 교차 검증은 학습에 쓰이지 않은 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것을 의미한다.
또한, K겹 교차 검증에서 K-겹(K-fold)은 다음을 의미한다. 데이터의 수가 적은 경우 일부를 추출하여 검증데이터로 사용했을 경우 검증데이터의 수가 적어 검증 성능의 신뢰도가 떨어지는 한편, 학습 데이터를 줄이면 학습이 정상적으로 이루어지지 못할 수 있다. 이처럼, 검증데이터의 수를 증가시킬 수도, 그대로 활용할 수도 없는 딜레마를 해결하는 검증 방법을 K-겹 검증 방법이라 한다. 이는 과적합(overfitting)을 막을 수 있는 방법 중 하나라 할 수 있다.
도 8은 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 복수개의 예측 모델의 예측 성능을 비교하기 위해 고려되는 K겹 교차 검증(K-fold Cross Validation) 방식의 개념을 개략적으로 나타낸 도면이다.
도 8을 참조하면, 모델 선정부(140)는 복수개의 예측 모델 각각의 예측 성능을 비교하기 위해, 데이터셋(특히, 전처리된 데이터셋)에 대하여 K겹 교차 검증(K-fold Cross Validation) 방식을 적용할 수 있다.
이때, 본원의 일예에서는 각 예측 모델의 예측 성능의 비교를 위해, K=5로 설정하여 5개의 학습셋(train set)과 테스트셋(test set)을 만들고, 각 예측 모델의 생성을 반복 수행하였다.
모델 선정부(140)는 각 예측 모델의 예측 성능의 비교를 위해, 일예로 딥러닝 모델의 회귀 문제에서 자주 사용되는 MAE(mean absolute error)를 공통적으로 사용할 수 있다. MAE는 예측 값과 실제 값의 차이의 절대값의 평균을 의미하는 값으로서, MAE의 값이 낮을수록 좋은 예측 성능을 가진 모델(예측 모델)임을 의미할 수 있다.
모델 선정부(140)에서 고려되는 복수개의 예측 모델 중 딥러닝 예측 모델은, 예시적으로 3개의 레이어(layer)를 사용하여 생성된 모델일 수 있다. 이때, 3개의 레이어 중 첫번째 레이어와 두번째 레이어는 활성함수로 ReLu가 사용될 수 있으며, 세번째 레이어는 회귀를 위한 레이어가 사용될 수 있다. 또한, 딥러닝 예측 모델은 MAE가 최소가 되는 에포크(Epoch)=100을 사용하여 생성된 모델일 수 있다.
도 9는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 모델 선정부(140)가 가격 예측 모델을 선정하기 위해, 복수개의 예측 모델 각각의 예측 성능을 비교한 결과의 예를 나타낸 도면이다.
도 9를 참조하면, 모델 선정부(140)는 가격 예측 모델의 선정을 위해, 복수개의 예측 모델 각각의 성능(예측 성능)을 비교할 수 있다. 이때, 성능 비교의 척도로는 MAE 값이 고려될 수 있다. 앞서 말한 바와 같이, MAE 값이 낮을수록 좋은 예측 성능을 가진 모델임을 의미할 수 있다.
복수개의 예측 모델 각각의 성능(예측 성능)의 비교 결과, 복수개의 예측 모델들 중 엑스트라 트리 회귀 모델의 성능(MAE)이 0.153623으로서 가장 좋은 예측 성능을 보임을 확인할 수 있다.
따라서, 모델 선정부(140)는 복수개의 예측 모델 중 엑스트라 트리 회귀 모델을 본 장치(100)에서 건물(부동산)의 가격을 예측하기 위한 가격 예측 모델로서 선정할 수 있다.
모델 선정부(140)에서 고려되는 복수개의 예측 모델 각각은, 전처리된 데이터셋을 기반으로 복수개의 특징(예시적으로 371개의 특징)과 관련된 정보(예시적으로, 관계 정보, 건물의 특성 정보)와 복수개의 건물 각각의 위치 데이터를 입력값으로 하고, 복수개의 건물 각각과 매칭되는 건물의 가격 정보를 출력값으로 출력하도록 학습된 모델일 수 있다. 여기서, 출력값인 건물의 가격 정보는 해당 건물의 평균 거래금액(실거래가, 매매가)을 의미할 수 있다.
예측부(150)는 입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 모델 선정부(140)에서 선정된 가격 예측 모델의 입력으로 적용함으로써, 대상 건물에 대응하는 부동산 가격 예측 정보를 획득할 수 있다.
여기서, 대상 건물과 관련된 대상 건물 정보는 대상 건물과 관련하여 주요 특징 선택부(130)에서 선택된 복수의 주요 특징 중 적어도 하나의 주요 특징과 관련된 정보를 의미할 수 있다.
예시적으로, 대상 건물 정보는 대상 건물의 평균 전용면적 정보, 평균 대지권면적 정보, 대상 건물로부터 신사역까지의 거리 정보, 대상 건물로부터 압구정역까지의 거리 정보, 대상 건물로부터 대상 건물이 속한 자치구(일예로, 서초구)에 속한 구청까지의 거리 등이 포함될 수 있다.
이에 따르면, 예측부(150)는 일예로 대상 건물과 관련된 대상 건물 정보로서 '대상 건물로부터 신사역까지의 거리 정보'가 입력된 경우, 입력된 대상 건물 정보를 모델 선정부(140)에서 선정된 가격 예측 모델의 입력으로 적용할 수 있다. 이에 따르면, 선정된 가격 예측 모델은 입력에 응답하여 대상 건물에 대응하는 부동산 가격 예측 정보를 출력할 수 있다.
따라서, 예측부(150)는 선정된 가격 예측 모델의 입력에 대한 대상 건물 정보의 입력에 응답하여, 선정된 가격 예측 모델의 출력으로부터 대상 건물에 대응하는 부동산 가격 예측 정보(즉, 예측된 대상 건물의 부동산 가격 정보, 대상 건물의 예측된 실거래가 정보)를 획득할 수 있다.
또한, 대상 건물 정보는 대상 건물의 위치 데이터(위도 데이터와 경도 데이터)를 포함할 수 있다. 이에 따르면, 예측부(150)는 일예로 대상 건물과 관련된 대상 건물 정보로서 '대상 건물의 위치 데이터'가 입력된 경우, 입력된 대상 건물 정보를 모델 선정부(140)에서 선정된 가격 예측 모델의 입력으로 적용할 수 있다. 이러한 입력에 응답하여, 예측부(150)는 선정된 가격 예측 모델의 출력으로부터 대상 건물에 대응하는 부동산 가격 예측 정보를 획득할 수 있다.
또한, 본 장치(100)는 특징 세권 분류부(160) 및 프리미엄 정도 예측부(170)를 포함할 수 있다.
특징 세권 분류부(160)는 복수개의 특징 중 일부의 특징을 복수개의 X-세권으로 분류할 수 있다. 프리미엄 정도 예측부(170)는, X-세권으로 분류된 일부의 특징들 중 어느 하나의 특징의 변화에 따른 부동산(건물) 가격의 변화를 분석함으로써, 일부의 특징들에 의한 프리미엄 정도를 예측(측정)할 수 있다.
구체적으로, 특징 세권 분류부(160)는, 앞서 주요 특징 선택부(130)에서 TOPSIS 기법을 적용을 통해 산출된 복수개의 특징(예시적으로, 371개의 특징)의 순위(우선순위)를 기반으로, 복수개의 특징 중 일부의 특징을 추출할 수 있다. 이때, 일부의 특징으로는 복수개의 특징 중 파레토 법칙에 따라 일예로 상위 20%에 속하는 특징들이 추출될 수 있다. 즉, 특징 세권 분류부(160)는 복수개의 특징 중 상위 20%인 74개의 특징들을 일부의 특징으로서 추출할 수 있다.
이후, 특징 세권 분류부(160)는 추출된 일부의 특징(74개의 특징)을 복수개의 X-세권으로 분류할 수 있다. 여기서, 특징 세권 분류부(160)에 의하여 분류 가능한 복수개의 X-세권에는 7개의 X-세권으로서 역세권, 학세권, 문세권, 구세권, 몰세권, 안세권 및 주세권이 포함될 수 있다. 여기서, 복수개의 X-세권은 부동산 가격에 영향을 미치는 주요한 주요 X-세권이라 달리 표현될 수 있다.
이처럼, 특징 세권 분류부(160)는 일부의 특징을 복수개의 X-세권으로 분류함으로써, 복수개의 X-세권으로서 역할을 하는 특징들을 파악할 수 있다.
도 10은 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에서 특징 세권 분류부(160)에 의하여 분류되는 복수개의 X-세권을 설명하기 위한 도면이다.
도 10을 참조하면, 복수개의 X-세권에는 7개의 X-세권으로서 역세권, 학세권, 문세권, 구세권, 몰세권, 안세권 및 주세권이 포함될 수 있다.
특징 세권 분류부(160)는 일부의 특징 중 지하철 역 관련 특징을 역세권으로 분류하고, 학군 관련 특징을 학세권으로 분류하고, 문화생활 관련 특징을 문세권으로 분류할 수 있다. 또한, 특징 세권 분류부(160)는 일부의 특징 중 자치구 관련 특징은 구세권으로 분류하고, 쇼핑 관련 특징은 몰세권으로 분류하고, 안전 관련 특징은 안세권으로 분류하고, 주민편의시설 관련 특성은 주세권으로 분류할 수 있다.
여기서, 지하철 역 관련 특징이라 함은 지하철역(이름), 지하철 호선(번호) 관련 역세권을 의미하는 지하철 관련 특징(특성)을 의미할 수 있다. 또한, 학군 관련 특징이라 함은 학문/교육, 유치원, 초등학교, 중학교, 고등학교 등 학군에 대한 접근성을 의미하는 특징을 의미할 수 있다.
또한, 문화생활 관련 특징이라 함은 영화관, 문화/예술 관련 시설과의 접근성을 나타내는 특징을 의미할 수 있다. 또한, 자치구 관련 특징이라 함은 자치구(이름)를 포함한 지역별 영향력을 나타내는 특징을 의미할 수 있다. 쇼핑 관련 특징이라 함은 대형마트, 백화점과 같은 대형 쇼핑몰과 같은 시설과의 접근성을 나타내는 특징을 의미할 수 있다.
또한, 안전 관련 특징이라 함은 치안기관, 범죄율과 같이 안전 및 치안과 관련된 특징을 의미할 수 있다. 주민편의시설 관련 특징이라 함은 주민센터, 구청, 보건소와 같은 주민 편의시설과의 접근성을 나타내는 특징을 의미할 수 있다.
이하에서는 일부의 특징의 분류를 통해 파악된 복수개의 X-세권 각각의 특성에 대하여 설명하기로 한다.
도 11a는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 역세권 관련 특징을 설명하기 위한 도면이다.
도 11a를 참조하면, 역세권(지하철 역)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 역세권 관련 특징들이 다수 포함되어 있음을 확인할 수 있다. 여기서, 역세권 관련 특징은 앞서 설명한 지하철 역 관련 특징을 의미하는 것으로서, 각 지하철 역(이름), 각 지하철 호선을 포함하는 역 관련 특징을 포함할 수 있다.
역세권은 다른 X-세권에 비해 건물(주택, 부동산) 가격에 상대적으로 큰 영향을 주는 것으로 분석되었다.
구체적인 예로, 신사역과의 거리는 건물 가격에 큰 영향을 미치는데, 이는 신사역 주변 역세권의 프리미엄이 크고, 가로수길 주변 지역으로서 흔히 알려진 인식과 비슷한 수준임을 나타낸다. 반면, 충무로역, 동대입구역, 개화산역 등은 역세권의 영향을 확인하기 어려운 것으로 분석되었다.
또한, 1호선은 총 18개의 노선 중 건물 가격에 가장 큰 영향을 미치는 것으로 분석된 반면, 3호선은 건물 가격과 상대적으로 무관한 것으로 보여, 역세권으로서 프리미엄이 미미한 것으로 분석되었다.
도 11b는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 학세권 관련 특징을 설명하기 위한 도면이다.
도 11b를 참조하면, 학세권(학문/교육)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 학업과 관련된 특징이 상당 수 차지하고 있음을 확인할 수 있다. 여기서, 학업과 관련된 특징이라 함은 앞서 설명한 학군 관련 특징을 의미하는 것으로서, 학군과 관련된 유치원, 초, 중, 고등학교 및 학문/교육 관련 소상공인 관련 특징을 포함할 수 있다.
구체적으로, 일부의 특징 중 유치원 관련 특징은 66위, 초등학교 관련 특징은 71위, 고등학교 관련 특징은 73위로 나타남에 따라, 이들은 상대적으로 건물(주택) 가격에 큰 영향을 미침을 확인할 수 있다. 또한, 학문/교육 관련 특징은 63위로 나타남에 따라, 상대적으로 건물 가격과 상관 관계가 존재함을 확인할 수 있다. 또한, 중학교는 상위 20% 안에 포함되지 않음(즉, 일부의 특징으로서 추출되지 않음)을 확인할 수 있다.
이에 따르면, 중학교 관련 특징(예시적으로, 중학교까지의 거리 등에 관한 정보)이, 유치원, 초등학교, 고등학교에 관한 특징에 비해 상대적으로 건물 가격에 큰 영향을 미치지 않는 것으로 분석될 수 있다.
결과적으로, 유치원, 초등학교, 고등학교는 맹모삼천지교와 같이 학군이 매우 중요하다는 사회적 통념을 잘 반영하고 있지만, 중학교는 상식과는 다르게 다양한 학세권 중에서 상대적으로 중요성이 떨어진다는 것을 확인할 수 있다.
도 11c는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 문세권 관련 특징을 설명하기 위한 도면이다.
도 11c를 참조하면, 문세권(문화생활)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 문화생활 관련 특징이 포함되어 있음을 확인할 수 있다. 여기서, 문화생활 관련 특징에는 건물과의 거리를 기준으로 영화관 정보, 문화/예술 시설 정보에 관한 특징이 포함될 수 있다.
구체적인 예로, 영화관 관련 특징은 51위로서 상대적으로 건물 가격에 큰 영향을 미침을 확인할 수 있다. 이는 영화관이 들어섬과 동시에 교통의 발달 및 유동 인구 증가를 통하여, 인근의 건물 가격에 영향을 미치는 것을 잘 드러내고 있는 것으로 판단할 수 있다. 따라서, 영화관은 문세권으로서 프리미엄이 크다고 판단될 수 있다.
도 11d는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 구세권 관련 특징을 설명하기 위한 도면이다.
도 11d를 참조하면, 구세권(자치구)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 건물의 자치구와 관련된 특징이 상당 수 차지하고 있음을 확인할 수 있다. 여기서, 자치구와 관련된 특징이라 함은 상술한 자치구 관련 특징을 의미하는 것으로서, 주택이 어떤 자치구에 포함되어 있는지에 대한 정보에 관한 특징이 포함될 수 있다.
구체적인 예로, 서초구는 전체 복수개의 특징(feature) 중 우선순위(Rank)가 5위로 나타남에 따라, 상대적으로 다른 특징들 대비 건물 가격에 큰 영향을 미침을 확인할 수 있다. 강서구, 동작구, 종로구는 상위 20%개 안에 포함되지 않음에 따라, 이들은 서초구에 비해 구세권의 프리미엄이 상대적으로 부족함을 의미할 수 있다. 또한, 강서구는 우선순위가 371위임에 따라, 서울시 25개 구 중에서 건물 가격에 가장 작은 영향을 미침을 확인할 수 있다.
이에 따르면, 서초구는 강남 지역 자체가 주택 가격이 높다는 상식을 잘 반영하고 있다고 확인할 수 있다. 반면, 강서구는 예상과 다르게 자치구 중에서 상대적으로 주택 가격에 프리미엄을 제공하지 않는다는 것을 확인할 수 있다.
도 11e는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 안세권 관련 특징을 설명하기 위한 도면이다.
도 11e를 참조하면, 안세권(범죄율, 치안기관)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 범죄 및 치안 관련 특징이 포함되어 있음을 확인할 수 있다. 여기서, 범죄 및 치안 관련 특징이라 함은 상술한 안전 관련 특징을 의미하는 것으로서, 해당 지역의 범죄율, 치안기관에 대한 정보 관련 특징이 포함될 수 있다.
구체적인 예로, 구별 범죄율 관련 특징은 39위이고, 치안기관 관련 특징은 73위로 나타남에 따라, 이들은 상대적으로 주택 가격에 큰 영향을 미침을 확인할 수 있다. 특히, 건물 중 연립주택과 치안기관과의 거리는 건물 가격에 큰 영향을 미치는 것으로 분석되었다. 반면, 범죄율은 예상과 다르게 주택 가격에 유의미한 영향을 미치는 것으로 분석되었다.
이에 따르면, 범죄율 및 치안기관에 관한 특징은 X-세권 중 안세권(안전)으로서 프리미엄이 있는 것으로 판단될 수 있다.
도 11f는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 몰세권 관련 특징을 설명하기 위한 도면이다.
도 11f를 참조하면, 몰세권(소비생활)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 쇼핑 및 소비 생활 관련 특징이 포함되어 있음을 확인할 수 있다. 여기서, 쇼핑 및 소비 생활 관련 특징이라 함은 상술한 쇼핑 관련 특징을 의미하는 것으로서, 백화점, 대형마트 정보에 관한 특징이 포함될 수 있다.
구체적인 예로, 대형마트 관련 특징은 59위로 나타남에 따라 상대적으로 건물 가격에 큰 영향을 미침을 확인할 수 있다. 백화점은 상위 20%에 속하지 않아 상대적으로 주택 가격에 적은 영향을 미침을 확인할 수 있다.
이는 대형마트가 들어섬과 동시에 편리성의 증가, 교통의 발달 및 유동 인구 증가를 통하여, 인근 건물 가격에 영향을 미치는 것을 잘 드러내고 있는 것으로 판단될 수 있다. 한편, 백화점은 일반적인 예상과 달리 주택 가격에 상대적으로 영향이 적은 것으로 분석되었다.
따라서, 대형마트는 건물 가격(특히, 연립 주택 가격)에 대한 몰세권으로서의 프리미엄이 충분하나, 백화점은 프리미엄이 충분치 않다고 판단될 수 있다.
도 11g는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 고려되는 주세권 관련 특징을 설명하기 위한 도면이다.
도 11g를 참조하면, 주세권(주민편의시설)과 관련하여, 복수개의 특징 중에서 추출된 일부의 특징(즉, 상위 20%에 속하는 특징들)에는 보건소와 구청 관련 특징이 포함되어 있음을 확인할 수 있다. 따라서, 보건소와 구청 관련 특징은 주세권으로서 건물 가격에 큰 영향을 미치는 것으로 파악될 수 있다. 반면, 주민센터는 우선순위가 102위로서 일부의 특징으로서 추출되지 않음에 따라, 보건소와 구청에 비해 상대적으로 주세권으로서 프리미엄이 적은 것으로 판단될 수 있다.
도 11h는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 특징 세권 분류부(160)에서 복수개의 X-세권으로 분류되지 않는 특징을 설명하기 위한 도면이다. 즉, 도 11h는 복수개의 특징(371개의 특징) 중 X-세권으로서 영향력이 적은 특징들을 설명하기 위한 도면이다.
도 11h를 참조하면, 한의원, 동물병원, 약국, 일반병원과 같은 병원 시설 관련 특징들은 우선순위가 하위 순위에 속해있음에 따라, 전반적으로 X-세권으로서의 영향력이 전반적으로 낮은 것으로 판단될 수 있다.
따라서, 의세권(의료 관련 시설)은 주요 X-세권으로 분류되기에 전반적으로 프리미엄 정도가 부족한 것으로 판단될 수 있다.
특징 세권 분류부(160)에서 추출된 일부의 특징(74개의 특징)을 복수개의 X-세권으로 분류한 경우, 프리미엄 정도 예측부(170)는, 일부의 특징들에 의한 프리미엄 정도를 예측(측정)하기 위해, 일부의 특징들 중 어느 하나의 특징의 변화에 따른 부동산(건물) 가격의 변화를 분석할 수 있다. 여기서, 프리미엄 정도는 X-세권의 영향으로 인해 변화되는 건물(부동산) 가격의 변화 정도를 의미할 수 있다.
프리미엄 정도 예측부(170)는 앞서 추출된 일부의 특징들(일예로, 74개의 특징들)에 의한 프리미엄 정도(부동산 가격 변화 정도)를 측정하기 위해, 일부의 특징 중 어느 하나의 특징에 해당하는 특징 값(실제 데이터)을 수정하여 건물(부동산) 가격의 변화 정도를 파악하는 분석 과정을 수행할 수 있다.
프리미엄 정도 예측부(170)는 분석 과정의 수행시, 어느 하나의 특징에 해당하는 특징 값을 수정한 후 수정된 특징 값을 앞서 모델 선정부(140)에서 선정된 가격 예측 모델의 입력으로 적용할 수 있으며, 이를 기반으로 선정된 가격 예측 모델의 출력 변화를 기반으로 건물 가격의 변화 정도를 파악할 수 있다.
프리미엄 정도 예측부(170)는 분석 과정으로서 예시적으로 제1 분석 과정 내지 제3 분석 과정을 수행할 수 있다. 이는 도 12를 참조하여 보다 쉽게 이해될 수 있다.
도 12는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에서 수행되는 분석 과정을 설명하기 위한 도면이다.
도 12를 참조하면, 프리미엄 정도 예측부(170)는 일부의 특징들에 의한 프리미엄 정도를 측정하기 위해, 제1 분석 과정을 수행할 수 있다. 제1 분석 과정은, 일예로 타 데이터(정보)는 고정하고 역 관련 데이터(정보)만 변환하는 수정을 기반으로 하는 분석 과정을 의미할 수 있다.
구체적인 예로, 프리미엄 정도 예측부(170)는 지하철역이 가격에 미치는 영향을 파악하기 위해 제1 분석 과정을 수행할 수 있다. 프리미엄 정도 예측부(170)는, 제1 분석 과정의 수행시, 건물 하나의 모든 특징 관련 정보는 고정시킨 채 특정 지하철역까지의 거리를 일예로 등차수열로 증가시켜 100개의 데이터를 생성하고, 생성된 100개의 데이터를 수정된 데이터로서 가격 예측 모델의 입력으로 적용할 수 있다. 이를 통해, 프리미엄 정도 예측부(170)는 생성된 100개의 데이터를 가격 예측 모델의 입력에 적용함에 따라 변화되는 가격 예측 모델의 출력 변화를 분석할 수 있다. 즉, 프리미엄 정도 예측부(170)는 가격 예측 모델의 출력으로부터 변화된 값(변화된 부동산 가격 예측 정보) 내지 변화된 값의 추세를 파악할 수 있다.
또한, 프리미엄 정도 예측부(170)는 자치구가 건물 가격에 미치는 영향을 파악하기 위해 제2 분석 과정을 수행할 수 있다. 여기서, 제2 분석 과정은 여러 자치구를 하나의 자치구로 통합하는 수정을 기반으로 하는 분석 과정을 의미할 수 있다.
구체적으로, 프리미엄 정도 예측부(170)는, 제2 분석 과정의 수행시, 모든 자치구 관련 열(column)의 성분을 0으로 지정한 뒤, 분석하고자 하는 자치구에 해당하는 열(column)의 성분을 1로 변환하고, 이를 수정된 데이터로서 가격 예측 모델의 입력으로 적용할 수 있다. 이를 통해, 프리미엄 정도 예측부(170)는 가격 예측 모델의 출력으로부터 변화된 값(변화된 부동산 가격 예측 정보)을 파악할 수 있다.
또한, 프리미엄 정도 예측부(170)는 시설 관련 특징이 건물 가격에 미치는 영향을 파악하기 위해 제3 분석 과정을 수행할 수 있다. 여기서, 제3 분석 과정은 열의 최소값이나 열의 최소값으로 변환시키는 수정을 기반으로 하는 분석 과정을 의미할 수 있다.
구체적으로, 프리미엄 정도 예측부(170)는, 제3 분석 과정의 수행시, 시설 관련 특징의 열(column) 값을 해당 열의 최대값과 최소값 각각으로 변환시킨 데이터를 생성한 후, 생성된 각각의 데이터(최대값으로 변환시킨 데이터와 최소값으로 변환시킨 데이터 각각)를 수정된 데이터로서 가격 예측 모델의 입력으로 적용할 수 있다. 이를 통해, 프리미엄 정도 예측부(170)는 가격 예측 모델의 출력으로부터 변화된 값(변화된 부동산 가격 예측 정보)을 파악할 수 있다.
프리미엄 정도 예측부(170)는 상술한 분석 과정의 수행을 수행함에 있어서, 데이터의 수정(변경, 변환)은 테스트 데이터(test data)에 대하여 수행하였고, 데이터의 수정(변경, 변환) 이전의 테스트 데이터(test data)와의 비교를 수행하였다.
도 13은 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에서 분석 과정의 수행시 고려된 수정(변환)된 데이터셋을 설명하기 위한 도면이다. 즉, 도 13은 앞서 도 12에서의 분석 과정의 수행시 고려된 데이터셋으로서, 수정된 데이터 관련 데이터셋과 수정된 데이터를 고려해 가격 예측 모델에 의하여 예측된 건물 가격의 변화 정보(즉, 변화된 부동산 가격 예측 정보)와 관련된 데이터셋 등의 정의를 나타낸 도면이다.
도 13을 참조하면, 프리미엄 정도 예측부(170)는 도 13에 도시된 데이터셋을 기반으로 수정(변환)된 데이터(즉, 테스트 데이터)를 이용해 가격 예측 모델의 입력으로 제공함으로써, 가격 예측 모델의 출력으로부터 수정된 데이터의 특징의 변화로 인해 변화된 건물(주택)의 가격 변화 정보를 예측(측정, 파악)할 수 있다.
도 13에서, 현재 y_test 데이터는 로그 스케일링된 상태임에 따라, 변환 후 예측한 값 역시 로그 스케일링이 되어 있음을 확인할 수 있다. 따라서, 직관적인 비교를 위해, y 데이터들은 자연상수에 대한 거듭제곱 과정을 거친 뒤 비교에 사용될 수 잇다. 이후에 도시되는 y 데이터들은 자연상수에 대한 거듭제곱 과정을 거친 수치를 나타낼 수 있다.
도 14는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에서 제1 분석 과정의 수행 결과를 설명하기 위한 도면이다.
도 14를 참조하면, 상술한 제1 분석 과정은 역세권(지하철 역) 관련 프리미엄 정도의 예측을 위한 분석 과정으로서, TOPSIS 결과를 기반으로 상위의 순위에 랭크된 지하철역들까지의 거리가 특정 건물에 어떠한 영향을 미치는지 파악하기 위한 과정이라 할 수 있다.
제1 분석 과정의 수행시, 프리미엄 정도 예측부(170)는 건물 하나를 지정하여, 특정 역까지의 맨해튼 거리(Manhattan distance)를 점진적으로 증가시켜 증가된 거리 값을 가격 예측 모델의 입력으로 제공함으로써, 가격 예측 모델의 출력을 기반으로 증가된 거리에 따른 건물(주택) 가격 변화를 확인할 수 있다.
제1 분석 과정의 수행 결과에 따르면, 구체적인 예로 논현역의 경우에는 역에서부터 일정 거리를 넘어서면 부동산 가격이 상승하는 반면, 신사역의 경우에는 일정 거리를 넘어서면 부동산 가격이 하락함을 확인할 수 있다.
이에 따르면, 부동산(건물)이 모든 지하철 역에 가까이 위치해있을수록 해당 부동산 가격이 높게 나타나는 것이 아니라, 어떠한 지하철 역인지에 따라 해당 지하철 역으로부터의 거리에 따라 부동산 가격이 상승할 수도 있고 혹은 하락할 수도 있음을 의미할 수 있다. 한편, 본원에서 고려되는 가격 예측 모델이 엑스트라 트리 회귀(Extra Tree Regressor) 모델임에 따라 예측 결과값이 연속적이지 않게 나타날 수 있다.
도 15는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에서 제2 분석 과정의 수행 결과를 설명하기 위한 도면이다.
도 15를 참조하면, 상술한 제2 분석 과정은 자치구 관련 프리미엄 정도의 예측(즉, 자치구가 건물 가격에 미치는 영향 파악)을 위한 분석 과정이라 할 수 있다.
프리미엄 정도 예측부(170)는 제2 분석 과정의 수행시 일예로 테스트 데이터의 모든 자치구를 서초구로 변경하였다. 여기서, 서초구는 TOPSIS 결과 우선순위가 5위로서, 전체 자치구 중 가장 높은 우선순위를 보이는 자치구라 할 수 있다. 또한, 프리미엄 정도 예측부(170)는 제2 분석 과정에서, y_test_gu와 y_predict 값을 구 별로(자치구 별로) 비교를 수행하였다.
모든 구를 서초구로 바꾸었을 때(변경했을 때), 기존 가격 평균과 바뀐 가격 평균의 차이(즉, 기존의 건물 평균 거래금액과 변화된 평균 거래금액 간의 차이)를 지도에 나타내면 도 15와 같을 수 있다. 이에 따르면, 서초구가 절반 이상의 자치구 보다 예측 가격이 높은 것으로 보아, 서초구에 속한다는 것만으로도 구세권(자치구) 프리미엄이 존재한다는 것을 확인할 수 있다. 이때, 도 15에서 색상이 밝은 자치구 영역일수록 해당 자치구에 속한 부동산 예측 가격이 높게 나타난 영역임을 의미할 수 있다.
도 16은 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에서 제3 분석 과정의 수행 결과를 설명하기 위한 도면이다.
도 16을 참조하면, 상술한 제3 분석 과정은 시설 특징 관련 프리미엄 정도의 예측(즉, 시설 관련 특징이 건물 가격에 미치는 영향 파악)을 위한 분석 과정이라 할 수 있다. 달리 표현해, 제3 분석 과정은 주요 X-세권의 단일 특징의 프리미엄 정도를 예측하기 위한 분석 과정이라 할 수 있다.
프리미엄 정도 예측부(170)는 제3 분석 과정을 통해, 일예로 주요 X-세권(즉, 복수개의 X-세권) 중 학세권, 문세권, 안세권 및 몰세권 각각에 대하여 개별 특징(Feature)의 프리미엄 정도를 측정할 수 있다.
이때, 프리미엄 정도 예측부(170)는 제3 분석 과정의 수행시 해당 특징의 실제 데이터를 수정하여 가격 예측 모델의 입력으로 제공함으로써, 가격 예측 모델의 출력을 기반으로 건물(주택) 가격의 변화 정도를 파악할 수 있다.
구체적으로, 프리미엄 정도 예측부(170)는, 학세권에 대해서는 개별 특징으로서 유치원 관련 특징에 관한 실제 데이터(즉, 전처리된 데이터셋에 저장되어 있는 유치원 관련 특징에 관한 데이터)를 수정함으로써, 유치원 관련 특징이 학세권에 미치는 영향으로 인한 건물 가격의 변화 정도를 파악할 수 있다. 또한, 문세권에 대해서는 개별 특징으로서 영화관 관련 특징에 관한 실제 데이터를 수정함으로써, 영화관 관련 특징이 문세권에 미치는 영향으로 인한 건물 가격의 변화 정도를 파악할 수 있다.
구별로 주택 가격의 기초 통계량을 확인해 본 결과, 금천구에 위치한 건물들의 표준편차가 가장 작게 나타남을 확인할 수 있다. 따라서, 프리미엄 정도 예측부(170)는 일예로 건물(주택) 가격이라는 우연변동이 최소화된 금천구의 X_test 데이터의 최소값, 최대값으로 조정함으로써 가격 예측 확인(즉, 변화된 부동산 가격의 확인)이 가능하다.
도 17은 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에 의하여 분석된 주요 X-세권의 특징 간의 상관관계를 설명하기 위한 도면이다.
도 17을 참조하면, 실제로 현실에서 건물(주택) 가격에 영향을 미치는 것은 단일 특징(Feature)이 아닌, 복수개의 X-세권의 특징임을 확인할 수 있다. 여기서, 복수개의 X-세권의 특징이라 함은 앞서 특징 세권 분류부(160)에 의하여 추출된 복수개의 특징 중 상위 20%인 74개의 특징을 의미할 수 있다.
본원에서는 프리미엄 정도 예측부(170)에 의한 분석 과정의 수행을 통해, 특징 간의 상관관계를 확인함으로써, 하나의 세트(Set)의 X-세권 특징을 확인하고자 하였다.
그 결과, 학세권이(초등학교_3rd, 유치원_3rd, 유치원_2nd, 초등학교_2nd, 중학교_3rd) 높은 상관관계를 보임을 확인할 수 있다. 이때, 학세권과 높은 상관관계를 보이는 전술한 5개지의 특징들을 적용하여 복합적인 학세권의 프리미엄 분석을 수행한 결과는 도 18을 참조하여 보다 쉽게 이해될 수 있다.
도 18은 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)의 프리미엄 정도 예측부(170)에 의하여 분석된 학세권의 주요 특징들의 복합적 프리미엄 정도 예측(파악) 결과를 설명하기 위한 도면이다.
도 18을 참조하면, 프리미엄 정도 예측부(170)는 일예로 학세권과 관련하여 높은 상관관계를 보인 학세권 관련 주요 특징들에 대한 분석을 수행할 수 있다. 여기서, 학세권 관련 주요 특징들에는 '초등학교_3rd' 관련 특징, '유치원_3rd' 관련 특징, '유치원_2nd' 관련 특징, '초등학교_2nd' 관련 특징, '중학교_3rd' 관련 특징이 포함될 수 있다.
분석 결과에 따르면, 실제로 현실에서는 학세권과 관련하여 단일 특징(Feature)이 아닌 복수의 특징이 건물 가격에 복합적으로 작용함을 확인할 수 있다.
프리미엄 정도 예측부(170)는 제3 분석 과정의 수행시 각 열(Column)의 최소값, 최대값으로 변형시켜 가격 예측 모델의 입력으로 반영하고 가격 예측 모델의 출력으로부터 변화된 부동산 가격 정보를 예측하는 분석을 수행할 수 있으며, 그 결과는 도 18에 도시된 바와 같을 수 있다.
프리미엄 정도 예측부(170)에 의한 분석에 따르면, 학세권 내에서 다양한 특징들이 복합적으로 작용함으로써 종합적 학세권의 프리미엄 파악이 가능하다. 본 장치(100)는 상술한 바와 같은 분석 과정을 통해, 수많은 조합의 특징 및 X-세권에 대한 분석이 가능하다.
건물(부동산, 주택) 가격은 건물의 평수, 건축년도 이외에도 지하철 역, 학군, 상권 등 다양한 요소들에 영향을 받는다고 할 수 있다. 그러나, 종래에는 건물 가격에 영향을 미치는 다양한 요소(요인)들을, 대량(방대한 양)의 데이터를 이용해 과학적으로 분석을 수행해 건물 가격에 미치는 영향을 파악한 연구들이 마땅히 존재하지 않는 실정이다.
이에, 본 장치(100)는 건물 가격에 영향을 미치는 X-세권의 영향력 파악 및 프리미엄 정도 예측을 위한 분석을 수행할 수 있다. 이를 기초로, 본 장치(100)는 건물 가격에 영향을 미치는 다양한 요소(즉, 복수개의 특징과 관련된 복수의 외부 요인 데이터에 관한 정보들로서, 관계 정보, 건물의 특성 정보 등을 의미함)를 고려하여 부동산 가격을 보다 정확히 예측할 수 있다.
본 장치(100)는, 데이터 수집부(110)를 통해 건물(일예로, 연립주택)의 매매가, 평수, 건축년도 등의 건물의 데이터(즉, 건물의 특성 정보)를 수집할 수 있으며, 또한 가격에 영향을 줄 수 있는 요인을 찾기 위해 지하철 역, 공공시설, 학군, 상권 등으로 분류되는 시설 데이터를 수집할 수 있다.
이후, 본 장치(100)는 데이터 전처리부(120)를 통해, 일예로 파이썬(Python)의 구글맵(googlemaps) 라이브러리를 이용하여 데이터 수집부(110)에서 수집된 데이터(복수의 외부 요인 데이터)의 위치 데이터(즉, 위도, 경도)를 추출한 후, 하버사인(haversine) 라이브러리를 이용하여 건물과 시설 간의 거리(맨해튼 거리)를 산출할 수 있다.
이후, 데이터 전처리부(120)는 각 시설의 특징에 맞게 다양한 형태로 데이터를 변환 및 스케일링하여, 예시적으로 (26542, 371) 형태, 즉 26542×371형태의 데이터셋(즉, 전처리된 데이터셋)을 구축(생성)할 수 있다.
이후, 주요 특징 선택부(130)는 부동산(건물) 가격에 영향을 미치는 주요 특징을 선택(선정)하기 위해, 복수개의 특징 선택 모델(예시적으로, Lasso, Decision Tree, Random Forest, Extra Tree Regression, Gradient Boosting Regression)의 결과를 기반으로 TOPSIS를 수행할 수 있다.
또한, 본 장치(100)에서 모델 선정부(140)는 건물(부동산) 가격을 예측할 수 있는 모델을 생성(구축)하기 위해, 복수개의 예측 모델로서 선형회귀 예측 모델, 트리 기반 예측 모델, 딥러닝 예측 모델을 생성하고, 생성된 각 예측 모델들의 예측 성능을 평가할 수 있다. 성능 평가 결과, 복수개의 예측 모델 중 엑스트라 트리 회귀 모델이 가장 좋은 성능을 보임에 따라, 모델 선정부(140)는 엑스트라 트리 회귀 모델을 부동산(건물) 가격 예측을 위한 모델(즉, 가격 예측 모델)로 선정할 수 있다.
이후, 예측부(150)는 모델 선정부(140)에서 선정된 가격 예측 모델을 이용하여 입력된 대상 건물에 대응하는 부동산의 가격을 예측할 수 있다.
또한, 본 장치(100)는 특징 세권 분류부(160)를 통해 주요X-세권을 파악할 수 있다. 구체적으로, 본 장치(100)는 특징 세권 분류부(160)를 통하여, TOPSIS로 도출된 371개의 특징을 기반으로 7개의 주요 X-세권(역세권, 학세권, 문세권, 구세권, 몰세권, 안세권, 주세권) 분류를 수행할 수 있다. 이를 통해, 본 장치(100)는 7개의 주요 X-세권으로서 역할을 하는 특징을 파악할 수 있다.
또한, 본 장치(100)는 프리미엄 정도 예측부(170)를 통하여 프리미엄 정도를 예측할 수 있다. 구체적으로, 프리미엄 정도 예측부(170)는 추출된 주요 특징들(즉, 일부 특징들로서 74개의 특징들을 의미함)에 의한 프리미엄 정도를 측정하기 위해, 해당 특징들의 실제 데이터를 수정하여 건물 가격의 변화 정도를 파악하는 분석을 수행할 수 있다.
프리미엄 정도 예측부(170)에 의하면, 단일 특징으로서 학세권의 유치원_1st, 문세권의 영화관_2nd 등에서 유의미한 가격 차이를 확인할 수 있다.
또한, 프리미엄 정도 예측부(170)에 의하면, 복합적인 특징으로서 학세권의 초등학교_3rd, 유치원_3rd, 유치원_2nd, 초등학교_2nd, 중학교_3rd를 동시에 수정하여 프리미엄 정도를 예측할 수 있다. 학세권 내에서 상술한 5개의 특징들이 복합적으로 작용함으로써 종합적 학세권의 프리미엄 파악이 가능하다. 본 장치(100)는 위와 같은 방식으로 수많은 조합의 특징 및 X-세권에 대한 분석이 가능하다.
이러한 본 장치(100)는 신개발 지구의 건물(주택) 가격의 상승폭을 예측할 수 있다. 특히, 본 장치(100)는 개발 예정 지역의 특징 변화를 통한 실거래가의 변동폭을 예측할 수 있다. 본 장치(100)는 백화점, 편의시설 등 새로운 시설이 생겼을 때의 가격 변동 여부를 파악할 수 있다.
또한, 본 장치(100)는 실거래 데이터를 기반으로 부동산 가치에 영향을 주는 주요 특징(주요 특징 선택부에 의하여 선택되는 복수의 주요 특징)을 식별할 수 있다. 이를 통해, 본 장치(100)는 지역 이해관계자들의 사업 투자 지원 정보를 제공할 수 있다. 또한, 본 장치(100)는 X-세권의 범위와 프리미엄 정도를 정의할 수 있는 표준을 생성하여 제공할 수 있다.
또한, 본 장치(100)는 다각적 부동산 정책 지원을 위한 부동산 가치 예측 모델(모델 선정부에서 고려되는 예측 모델)을 생성하여 제공할 수 있다. 이를 통해, 본 장치(100)는 빅데이터 학습 모델(예측 모델)에 기반하여 정책 결정자의 의사결정을 지원할 수 있다. 또한, 본 장치(100)는 무분별한 X-세권 프리미엄 광고의 분별이 가능하도록 제공할 수 있다.
상술한 본원의 일예에서는 본 장치(100)가 부동산(건물) 가격을 예측함에 있어서, 건물 가격에 영향을 미치는 요인으로서 주변 시설과 관련된 데이터(즉, 복수의 외부 요인 데이터)만 고려하는 것으로 예시하였으나, 이에 한정되는 것은 아니다. 다른 일예로, 본 장치(100)는 건물 가격에 영향을 미치는 요인으로서 인구통계학적 지표, 정책적 지표를 추가로 반영하여 건물 가격을 예측할 수 있다.
또한, 본 장치(100)에서 고려되는 부동산 가격 예측의 대상이 되는 건물은, 일예로 연립주택 및 다세대 주택일 수 있으나, 이에만 한정되는 것은 아니다. 본 장치(100)에서 고려되는 부동산 가격 예측의 대상이 되는 건물로는 단독주택, 아파트, 오피스텔 등 다양한 유형의 구조물이 적용(고려)될 수 있다.
본 장치(100)는 지하철 역과 건물 간의 거리, 건물의 가격 등의 정보를 기반으로 역 별 프리미엄 정도 및 범위를 파악할 수 있다. 또한, 본 장치(100)는 Nonlinear SVM을 이용하여 역세권 결정의 최적 특징(즉, 주요 특징 선택부에 의하여 선택되는 복수의 주요 특징)을 결정할 수 있다.
또한, 본 장치(100)는 복수개의 예측 모델을 기반으로 한 기계학습을 이용하여 역세권의 프리미엄 정도를 예측할 수 있다.
도 19는 본원의 일 실시예에 따른 부동산 가격 예측 장치(100)에 의하여 정의되는 역세권의 범위(실질적 범위)와 종래 법에서 명시하는 역세권(즉, 250m로 정의되는 역세권)의 범위를 비교한 도면이다.
도 19를 참조하면, 종래에는 단순히 각 역으로부터 250m 이내에 해당하는 범위가 역세권의 범위로 정의되었다. 그런데, 실제로는 건물의 가격에 영향을 주는 역세권의 실질적 범위가 주변의 다양한 요인으로 인해 각 역마다 차이가 있는 것으로 분석되었다. 즉, 역으로부터 거리가 멀수록 부동산 가격이 높아지는 경우가 있는 한편, 역으로부터 거리가 가까울수록 부동산 가격이 높아지는 경우가 존재하는 것으로 분석되었다.
이에 본 장치(100)에 의하면, 건물 가격에 영향을 미치는 다양한 요인을 고려함으로써 각 역마다 정의되는 역세권의 범위(실질적 범위)가 서로 상이하게 정의될 수 있다.
종래에는 단순히 역까지의 거리와 건물의 가격만 고려함에 따라, 역세권의 실질적 범위와 프리미엄을 측정할 수 없었던 반면, 본 장치(100)는 건물의 가격에 영향을 주는 다양한 요소(요인)을 고려함으로써, X-세권의 파악이 가능하고 X-세권의 실질적 범위와 프리미엄 정도를 측정할 수 있다.
본원은 기계학습 방법론을 기초로 부동산 가격을 예측하는 장치(본 장치, 100)를 제공할 수 있다. 본 장치(100)에 의하면, 부동산 가격(실거래가)에 영향을 미치는 요인 및 시설 변화에 따른 건물(주택) 가격을 예측할 수 있다.
본 장치(100)는 건물의 가격(실거래가)과 가격에 영향을 주는 지하철역, 편의시설, 공공시설, 학군, 상권과의 거리, 일정 거리 내에 존재하는 시설의 수 등을 포함하는 다양한 요인들을 고려한 전처리된 데이터셋을 기반으로, 건물(부동산)의 가격을 예측할 수 있다.
본 장치(100)는 전처리된 데이터셋을 기초로 복수개의 예측 모델(Linear-based 예측 모델, Tree-based 예측 모델, 딥러닝 모델 등)을 생성할 수 있다. 본 장치(100)는 생성된 복수개의 예측 모델 각각의 성능을 평가하여 가장 좋은 성능을 보인 모델을 가격 예측 모델로서 선정할 수 있다. 이후, 본 장치(100)는 가격 예측 모델의 선정 이후, 전처리된 데이터셋에 포함된 데이터들 중 요인 값(즉, 어느 한 특징에 해당하는 특징 값)에 변화를 주어 가격 예측 모델에 적용함으로써, 가격 예측 모델의 출력으로부터 변화된 가격을 산출할 수 있다.
이를 통해, 본 장치(100)는 부동산(건물) 가격에 영향을 주는 요인(특징)의 변화에 따른 부동산 가격(변화된 부동산 가격)을 예측할 수 있다. 즉, 본 장치(100)는 가격 예측 모델을 이용하여, 복수개의 특징 중 어느 하나의 특징의 변화에 따른 부동산 가격을 예측(즉, 부동산의 가격 변화를 파악)할 수 있다.
본 장치(100)는 추후 개발 예정 지역의 요인/시설 관련 특징의 변화를 통한 실거래가 변동폭을 예측할 수 있다. 또한, 본 장치(100)는 각 요인 및 시설의 범위와 프리미엄 정도를 정의할 수 있는 표준을 생성하여 제공할 수 있다. 또한, 본 장치(100)는 건물 가격에 영향을 주는 요인으로서 지하철역, 연립주택, 편의시설, 공공시설, 학군, 상권 등 수많은 요인을 고려할 수 있다.
본 장치(100)는 부동산 가격 예측을 수행함에 있어서 공공데이터(오픈 데이터)를 활용(예시적으로, 서울시 공공데이터, 웹 스크랩핑 등을 활용)할 수 있다. 또한, 본 장치(100)는 건물 가격에 영향을 주는 다양한 요인으로서, 물가, 세금과 같은 금리적 요인이 아닌 건물의 물리적 위치를 고려한 다수 요인을 고려할 수 있다. 본 장치(100)는 이러한 요인의 변화(즉, 특정 특징에 해당하는 특징 값의 변화)에 따른 부동산 가격(가격 변동값)을 예측할 수 있다.
본 장치(100)는 부동산 가격에 영향을 주는 다양한 요인(요소)으로서 지하철역, 편의시설, 공공시설, 학군, 상권과의 거리, 일정 거리 이내에 위치하는 시설의 수 등을 포함하는 다양한 요인들을 고려한 데이터셋을 기반으로, 부동산 가격을 예측할 수 있다. 본 장치(100)는 다양한 요인을 고려한 데이터셋을 전처리하여 각 부동산(건물)을 기준으로 전처리된 형태의 데이터셋(즉, 전처리된 데이터셋)을 구축할 수 있다. 이때, 전처리된 데이터셋은 '26542'×'건물가격 및 371개의 특징(Feature)'의 형태를 가질 수 있다.
본 장치(100)는 예시적으로 371개의 특징에 대하여 선형 회귀 모델, 트리 기반 모델, 딥러닝, K-fold 기법을 기반으로 하고, TOPSIS를 적용함으로써 부동산(건물) 가격에 영향을 미치는 주요 특징을 선택(결정)할 수 있다. 또한, 본 장치(100)는 복수개의 예측 모델 중 가장 좋은 성능을 보인 모델을 가격 예측 모델로서 선정하고, 이후 전처리된 데이터셋 내에서 일부 요인 값(어느 한 특징에 해당하는 특징 값)에 변화를 주어 선정된 가격 예측 모델에 적용함으로써 변화된 부동산 가격을 산출할 수 있다.
본 장치(100)는, 371개의 특징 중 상위 20%에 속하는 특징(일부의 특징으로서 74개의 특징을 의미함)을 이용하여 주요 X-세권을 분석할 수 있으며, 일부의 특징들이 X-세권 부동산 가격에 영향을 미치는 정도(프리미엄 정도)를 분석 및 파악할 수 있다.
이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.
도 20은 본원의 일 실시예에 따른 부동산 가격 예측 방법에 대한 동작 흐름도이다.
도 20에 도시된 부동산 가격 예측 방법은 앞서 설명된 본 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 본 장치(100)에 대하여 설명된 내용은 부동산 가격 예측 방법에 대한 설명에도 동일하게 적용될 수 있다.
도 20을 참조하면, 단계S11에서 데이터 수집부(110)는, 건물의 가격(변화, 측정)에 영향을 주는 복수의 외부 요인 데이터를 수집할 수 있다.
이때, 단계S11에서 데이터 수집부는, 공공데이터 포털 사이트 및 국토교통부 시스템으로부터 복수의 외부 요인 데이터를 수집할 수 있다. 여기서, 복수의 외부 요인 데이터는, 건물과 관련된 건물 거래 데이터 및 복수의 시설과 관련된 시설 데이터를 포함할 수 있다.
또한, 시설 데이터는, 지하철 역, 편의시설, 공공시설, 학군 및 상권으로 분류되는 복수의 시설과 관련된 시설 데이터를 포함할 수 잇다.
다음으로, 단계S12에서 데이터 전처리부(120)는, 단계S11에서 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징(371개의 특징)과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성할 수 있다.
또한, 단계S12에서 데이터 전처리부는, 외부 라이브러리를 기반으로 복수의 외부 요인 데이터에 포함된 건물과 복수의 시설 각각에 대한 위치 데이터(위도, 경도)를 획득할 수 있다. 또한, 데이터 전처리부는 획득된 위치 데이터를 기반으로 각 건물마다 건물과 시설 간의 거리를 산출할 수 있다.
단계S12에서 관계 정보는, 각 건물과 지하철 역 간의 거리, 각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리 및 각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리를 포함하는 거리 정보, 각 건물이 속한 자치구의 특성 정보 및 각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보를 포함할 수 있다.
또한, 건물의 특성 정보는, 건물의 거래금액 정보, 전용면적 정보, 대지권면적 정보 및 건축년도 정보를 포함할 수 있다.
또한, 단계S12에서 데이터 전처리부는, 각 건물 중 어느 한 건물에 대하여 복수회의 거래 이력이 존재하는 경우, 어느 한 건물에 대응하는 거래금액 정보로서 복수회의 거래 이력 각각에 대응하는 거래금액 정보를 평균한 평균 거래금액 정보를 고려할 수 있다.
다음으로, 단계S13에서 주요 특징 선택부(130)는, 단계S12에서 고려되는 복수개의 특징 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택할 수 있다.
또한, 단계S13에서 주요 특징 선택부(130)는, 복수개의 특징 선택 모델을 통해 상기 복수개의 특징 각각의 회귀계수 벡터 또는 특징 중요도 벡터를 추출하고, 추출된 벡터를 기반으로 TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution) 기법을 적용하여 복수개의 특징의 순위를 산출하고, 산출된 순위를 기반으로 미리 설정된 수에 대응하는 특징을 복수의 주요 특징으로서 선택할 수 있다.
다음으로, 단계S14에서 모델 선정부(140)는, 단계S12에서 생성된 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정할 수 있다.
이때, 단계S14에서 모델 선정부는, 전처리된 데이터셋에 대한 K겹 교차 검증(K-fold Cross Validation) 방식의 적용을 기반으로 복수개의 예측 모델의 예측 성능을 비교하고, 비교 결과 상기 복수개의 예측 모델 중 가장 높은 예측 성능을 나타내는 예측 모델을 가격 예측 모델로서 선정할 수 있다.
여기서, 선정된 가격 예측 모델은, 예를 들어, 엑스트라 트리 회귀 모델(Extra Tree Regressor)일 수 있다.
다음으로, 단계S15에서 예측부(150)는, 입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 단계S14에서 선정된 가격 예측 모델의 입력으로 적용함으로써, 대상 건물에 대응하는 부동산 가격 예측 정보를 획득할 수 있다.
또한, 도면에 도시하지는 않았으나, 본원의 일 실시예에 따른 부동산 가격 예측 방법은 단계S15 이후에, 특징 세권 분류부(160)가 복수개의 특징 중 일부의 특징을 복수개의 X-세권으로 분류하는 단계, 및 프리미엄 정도 예측부(170)가 X-세권으로 분류된 일부의 특징들 중 어느 하나의 특징의 변화에 따른 부동산(건물) 가격의 변화를 분석함으로써, 일부의 특징들에 의한 프리미엄 정도를 예측(측정)하는 단계를 더 포함할 수 있다.
상술한 설명에서, 단계 S11 내지 S15는 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 부동산 가격 예측 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 부동산 가격 예측 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 부동산 가격 예측 장치
110: 데이터 수집부
120: 데이터 전처리부
130: 주요 특징 선택부
140: 모델 선정부
150: 예측부
160: 특징 세권 분류부
170: 프리미엄 정도 예측부

Claims (11)

  1. 부동산 가격 예측 장치로서,
    건물의 가격에 영향을 주는 복수의 외부 요인 데이터를 수집하는 데이터 수집부;
    상기 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성하는 데이터 전처리부;
    상기 복수개의 특징 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택하는 주요 특징 선택부;
    상기 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정하는 모델 선정부; 및
    입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 상기 선정된 가격 예측 모델의 입력으로 적용함으로써, 상기 대상 건물에 대응하는 부동산 가격 예측 정보를 획득하는 예측부,
    를 포함하고,
    상기 주요 특징 선택부는,
    복수개의 특징 선택 모델을 통해 상기 복수개의 특징 각각의 회귀계수 벡터 또는 특징 중요도 벡터를 추출하고, 추출된 벡터를 기반으로 TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution) 기법을 적용하여 상기 복수개의 특징의 순위를 산출하고, 상기 산출된 순위를 기반으로 상기 미리 설정된 수에 대응하는 특징을 상기 복수의 주요 특징으로서 선택하는 것인, 부동산 가격 예측 장치.
  2. 제1항에 있어서,
    상기 데이터 수집부는, 공공데이터 포털 사이트 및 국토교통부 시스템으로부터 상기 복수의 외부 요인 데이터를 수집하고,
    상기 복수의 외부 요인 데이터는, 건물과 관련된 건물 거래 데이터 및 복수의 시설과 관련된 시설 데이터를 포함하는 것인, 부동산 가격 예측 장치.
  3. 제2항에 있어서,
    상기 시설 데이터는, 지하철 역, 편의시설, 공공시설, 학군 및 상권으로 분류되는 복수의 시설과 관련된 시설 데이터를 포함하는 것인, 부동산 가격 예측 장치.
  4. 제2항에 있어서,
    상기 데이터 전처리부는,
    외부 라이브러리를 기반으로 상기 복수의 외부 요인 데이터에 포함된 건물과 복수의 시설 각각에 대한 위치 데이터를 획득하고,
    상기 획득된 위치 데이터를 기반으로 각 건물마다 건물과 시설 간의 거리를 산출하는 것인, 부동산 가격 예측 장치.
  5. 제4항에 있어서,
    상기 관계 정보는, 각 건물과 지하철 역 간의 거리, 각 건물과 미리 설정된 수의 최근접 시설 각각 간의 거리 및 각 건물과 해당 건물이 속한 자치구 소속의 시설 간의 거리를 포함하는 거리 정보, 각 건물이 속한 자치구의 특성 정보 및 각 건물로부터 미리 설정된 거리 내에 존재하는 시설의 수에 관한 시설 수 정보를 포함하고,
    상기 건물의 특성 정보는, 건물의 거래금액 정보, 전용면적 정보, 대지권면적 정보 및 건축년도 정보를 포함하는 것인, 부동산 가격 예측 장치.
  6. 제5항에 있어서,
    상기 데이터 전처리부는,
    상기 각 건물 중 어느 한 건물에 대하여 복수회의 거래 이력이 존재하는 경우, 상기 어느 한 건물에 대응하는 거래금액 정보로서 상기 복수회의 거래 이력 각각에 대응하는 거래금액 정보를 평균한 평균 거래금액 정보를 고려하는 것인, 부동산 가격 예측 장치.
  7. 삭제
  8. 제1항에 있어서,
    상기 모델 선정부는,
    상기 전처리된 데이터셋에 대한 K겹 교차 검증(K-fold Cross Validation) 방식의 적용을 기반으로 상기 복수개의 예측 모델의 예측 성능을 비교하고, 비교 결과 상기 복수개의 예측 모델 중 가장 높은 예측 성능을 나타내는 예측 모델을 상기 가격 예측 모델로서 선정하는 것인, 부동산 가격 예측 장치.
  9. 제8항에 있어서,
    상기 선정된 가격 예측 모델은, 엑스트라 트리 회귀 모델(Extra Tree Regressor)인 것인, 부동산 가격 예측 장치.
  10. 부동산 가격 예측 장치에 의해 수행되는 부동산 가격 예측 방법으로서,
    (a) 건물의 가격에 영향을 주는 복수의 외부 요인 데이터를 수집하는 단계;
    (b) 상기 수집된 복수의 외부 요인 데이터에 전처리를 수행함으로써, 각 건물마다 복수개의 특징과 관련하여 건물과 시설 간의 관계 정보와 건물의 특성 정보를 포함하는 전처리된 데이터셋을 생성하는 단계;
    (c) 상기 복수개의 특징 중 미리 설정된 수에 대응하는 특징을 건물의 가격에 영향을 주는 복수의 주요 특징으로서 선택하는 단계;
    (d) 상기 전처리된 데이터셋을 기반으로, 부동산 가격 예측을 위해 생성된 복수개의 예측 모델 중 가격 예측 모델을 선정하는 단계; 및
    (e) 입력된 부동산 가격 예측 대상이 되는 대상 건물과 관련된 대상 건물 정보를 상기 선정된 가격 예측 모델의 입력으로 적용함으로써, 상기 대상 건물에 대응하는 부동산 가격 예측 정보를 획득하는 단계,
    를 포함하고,
    상기 (c) 단계는,
    복수개의 특징 선택 모델을 통해 상기 복수개의 특징 각각의 회귀계수 벡터 또는 특징 중요도 벡터를 추출하고, 추출된 벡터를 기반으로 TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution) 기법을 적용하여 상기 복수개의 특징의 순위를 산출하고, 상기 산출된 순위를 기반으로 상기 미리 설정된 수에 대응하는 특징을 상기 복수의 주요 특징으로서 선택하는 것인, 부동산 가격 예측 방법.
  11. 제10항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.
KR1020190101034A 2019-08-19 2019-08-19 부동산 가격 예측 장치 및 방법 KR102290132B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190101034A KR102290132B1 (ko) 2019-08-19 2019-08-19 부동산 가격 예측 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190101034A KR102290132B1 (ko) 2019-08-19 2019-08-19 부동산 가격 예측 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210021739A KR20210021739A (ko) 2021-03-02
KR102290132B1 true KR102290132B1 (ko) 2021-08-13

Family

ID=75169402

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190101034A KR102290132B1 (ko) 2019-08-19 2019-08-19 부동산 가격 예측 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102290132B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220207846A1 (en) * 2020-12-30 2022-06-30 Propsee LLC System and Method to Process and Display Information Related to Real Estate by Developing and Presenting a Photogrammetric Reality Mesh

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102658012B1 (ko) * 2021-06-09 2024-04-17 주식회사 데이터노우즈 딥러닝 그래프 네트워크 기반 부동산 거래정보 예측 방법 및 시스템
KR102457455B1 (ko) * 2021-07-29 2022-10-21 (주)위세아이텍 인공지능 기반의 미술품 가격 예측 장치 및 방법
KR102612080B1 (ko) * 2022-08-24 2023-12-07 최정만 지도정보에 기반한 토지 통합정보 제공 시스템
KR102687521B1 (ko) * 2022-11-29 2024-07-22 한국부동산원 기계학습으로 산출된 위험도를 이용한 주택 부정청약 예측 시스템 및 예측 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017004509A (ja) * 2015-06-04 2017-01-05 ザ・ボーイング・カンパニーThe Boeing Company 機械学習のための高度解析インフラストラクチャ
KR101931098B1 (ko) * 2018-06-07 2019-03-13 박성훈 상업용 부동산 가치 분석 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180129693A (ko) * 2017-05-26 2018-12-05 (주)씨에이씨컴퍼니 부동산 시세 서비스 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017004509A (ja) * 2015-06-04 2017-01-05 ザ・ボーイング・カンパニーThe Boeing Company 機械学習のための高度解析インフラストラクチャ
KR101931098B1 (ko) * 2018-06-07 2019-03-13 박성훈 상업용 부동산 가치 분석 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220207846A1 (en) * 2020-12-30 2022-06-30 Propsee LLC System and Method to Process and Display Information Related to Real Estate by Developing and Presenting a Photogrammetric Reality Mesh

Also Published As

Publication number Publication date
KR20210021739A (ko) 2021-03-02

Similar Documents

Publication Publication Date Title
KR102290132B1 (ko) 부동산 가격 예측 장치 및 방법
Ma et al. Analyzing driving factors of land values in urban scale based on big data and non-linear machine learning techniques
Demetriou A spatially based artificial neural network mass valuation model for land consolidation
Zopluoglu Detecting examinees with item preknowledge in large-scale testing using extreme gradient boosting (XGBoost)
Iban An explainable model for the mass appraisal of residences: The application of tree-based Machine Learning algorithms and interpretation of value determinants
Verburg et al. Determinants of land-use change patterns in the Netherlands
Mimis et al. Property valuation with artificial neural network: the case of Athens
Jassim et al. Comparative performance analysis of support vector regression and artificial neural network for prediction of municipal solid waste generation
Sun et al. Tourism demand forecasting: An ensemble deep learning approach
KR20210082109A (ko) 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치
KR102438644B1 (ko) 부동산 시세 예측 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램
Ja’afar et al. Machine learning for property price prediction and price valuation: a systematic literature review
Coffee et al. Composition and context drivers of residential property location value as a socioeconomic status measure
Ladi et al. Applications of machine learning and deep learning methods for climate change mitigation and adaptation
Jayawardena et al. Artificial intelligence based Smart library management system
Ragapriya et al. Machine Learning Based House Price Prediction Using Modified Extreme Boosting
Zhang et al. Enabling rapid large-scale seismic bridge vulnerability assessment through artificial intelligence
Bigotte et al. The relationship between population dynamics and urban hierarchy: Evidence from Portugal
Lee et al. The well‐being of nations: estimating welfare from international migration
Larraz et al. A computer-assisted expert algorithm for real estate valuation in Spanish cities
Jin et al. Learning context-aware region similarity with effective spatial normalization over Point-of-Interest data
Bernasco The usefulness of measuring spatial opportunity structures for tracking down offenders: A theoretical analysis of geographic offender profiling using simulation studies
Mengüç et al. Feature selection by machine learning models to identify the public’s changing priorities during the COVID-19 pandemic
Aurnab et al. Comparative analysis of machine learning techniques in optimal site selection
Sápi The international practice of statistical property valuation methods and the possibilities of introducing automated valuation models in Hungary

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant