KR20210082103A

KR20210082103A - 기계 학습 모델을 이용한 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치 및 그 동작 방법

Info

Publication number: KR20210082103A
Application number: KR1020200182051A
Authority: KR
Inventors: 임현서
Original assignee: 탱커주식회사
Priority date: 2019-12-24
Filing date: 2020-12-23
Publication date: 2021-07-02
Also published as: KR20210082114A; KR20210082106A; KR20210082110A; KR20210082109A; KR20210082104A; KR20210082111A; KR20210082112A; KR20210082113A; KR20210082108A; KR20210082107A; KR20210082105A

Abstract

본 발명의 부동산 예상 실거래가 산출 장치의 동작 방법은, 외부 부동산 정보 데이터베이스로부터 수집된 부동산 관련 데이터를 부동산 물건 모델별로 병합 가공하여, 실거래가 데이터베이스를 구축하는 단계; 상기 실거래가 데이터베이스로부터 사전 설정된 시간 또는 공간 범위에 대응하는 트레이닝 세트를 구성하여, 실거래가 예측을 위한 시계열 추세 예측 학습 모델을 생성하는 단계; 상기 실거래가 데이터베이스로부터 상기 트레이닝 세트와는 분리된 실거래 데이터 기반의 테스트 세트를 구성하여, 상기 시계열 추세 예측 학습 모델의 정확도를 검증하는 단계; 상기 시계열 추세 예측 학습 모델의 정확도 검증 결과에 따라 상기 시계열 추세 예측 학습 모델의 재구성 또는 고정 처리를 수행하는 단계; 및 상기 고정 처리된 시계열 추세 예측 학습 모델을 고정 예측 모델로 설정하고, 사용자 단말의 요청에 대응하는 특징 인스턴스 데이터를 상기 고정 예측 모델에 적용하여 획득되는 부동산 실거래가 예측 정보를 상기 사용자 단말로 제공하는 단계를 포함한다.

Description

기계 학습 모델을 이용한 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치 및 그 동작 방법{AN APPARATUS AND A METHOD FOR CALCULATING EXPECTED REAL ESTATE TRANSACTION PRICE BASED ON REAL ESTATE TRANSACTION PRICE BY USING A MACHINE LEARNING MODEL}

본 발명은 예상 실거래가 산출 장치 및 그 동작 방법에 관한 것이다. 보다 구체적으로, 본 발명은 기계 학습 모델을 이용한 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치 및 그 동작 방법에 관한 것이다.

국토교통부 실거래가 공개시스템과 같이, 최근에는 부동산 실거래가에 대한 다양한 데이터들이 투명하게 공개되어 공유되고 있으며, 이를 통해 현재 거래할 부동산의 부동산 예상 실거래가를 산출하는 방식들은 금융 기관과 개인을 가리지 않고 널리 사용되고 있다.

그러나, 현재까지 제안된 부동산 예상 실거래가 산출 기술들은 아직까지 완성적이지 못하며, 많은 문제점들을 내포하고 있는 실정이다.

예를 들어, 금융 기관에서 제시한 시세 시표나 공시가격 지표등을 통해 부동산 실거래가를 예측하는 방식이 있으나, 이러한 지표들은 실거래가와 현장 거래 의견 등을 반영하여 작성되고, 지표 생성자의 직관에 의존되는 경우가 많아 정확성이 떨어지는 문제점이 있다. 또한, 금융 기관의 경우 세금 부과나 대출 실행의 주체이므로, 이해관계에 좌우되는 부분이 있어 공정성이 결여되기 쉽다.

한편, 감정 평가 이론을 이용한 부동산 예상 실거래가 산출 기술의 경우, 체계화된 평가 기준을 제시하고, 그에 기초한 부동산의 예상 실거래가를 산출하고 있지만, 그 평가 기준 및 평가 결과도 자의적일 수 있으며, 실거래가와 다소 괴리가 있는 가격을 예상 실거래가로 산출하는 일도 잦은 문제점이 있다.

이에 최근 시장에서는 기계학습을 활용하여 부동산 예상 실거래가를 산출하고자 하는 흐름이 전개되고 있다. 그러나, 예측하고자 하는 데이터의 특성에 적합한 시도가 이루어지지는 못하고 있는 실정이다. 예를 들어 빅밸류의 관련 선행특허(10-2016-0123722 등)에서는 다중회귀분석과 유사도 점수 등의 방법을 활용하여 부동산의 예상 실거래가를 산출할 수 있는 것을 설명하고 있다.

그러나, 다중회귀분석의 경우 정교한 모델링이 어려울 뿐만 아니라 투입하는 특징(feature)의 설명력에 의해 그 정확도가 크게 좌우되므로 부동산 예상 실거래가 산출에 활용하기에는 부적합하다.

또한, 유사도 점수 분석의 경우에도 각 부동산 물건마다 유사도를 계산할 부동산 물건을 복수 개 매칭하여야 하는데, 사용자의 예측 요청 이전 모든 부동산에 대해 유사도 점수를 계산해놓지 않는 이상 계산에 많은 시간이 소모되므로 실시간 서비스 제공시 애로사항이 다수 발생할 것으로 예상된다.

나아가, 부동산 실거래가 데이터는 특징(feature) 간 구분을 명확히 할 수 있어 표로 정리 가능한 데이터, 즉 타뷸러 데이터(tabular data)일 수 있으며, 이와 같은 유형의 데이터는 특정 특징정보(feature)의 값을 기준으로 학습 세트(training set)를 분류하고, 분류된 학습 세트별로 학습하는 결정 트리(decision tree) 계열 학습 방식이 효과적인 것으로 알려져 있다. 그러나, 학습과 동시에 현재 학습 세트(training set)보다 미래 시점의 시계열 데이터를 예측하게 하는 경우 결정 트리 방식만으로는 성능이 급락한다는 단점이 존재하는데, 이는 현재 시점의 예상 실거래가를 산출하는 것은 단기 미래 예측에 해당되므로 정확도를 보장하기 어렵기 때문이다.

또한, 부동산 실거래가 데이터는 시계열 데이터로서 정밀한 추정을 가능하게 위한 전처리 및 데이터베이스 구축이 필요하나, 모든 데이터를 데이터베이스에 적재하기에는 저장 공간 및 복잡도상 어려움이 있으며, 기계 학습 모델에 적합하면서도 활용성 높은 데이터베이스의 구축방법이 요구되고 있는 실정이다.

본 발명은 상기한 바와 같은 과제를 해결하기 위해 안출된 것으로, 학습 효율 및 활용성을 고려하여 공공 데이터베이스로부터 사전 처리된 실거래가 데이터베이스를 이용하여, 기계 학습을 이용한 부동산 실거래가 예측 모델을 구축하고, 예측 모델에 기초한 현재 및 미래의 부동산 시세에 대한 예상 실거래가 산출 데이터를 산출함으로써, 부동산 예측 실거래가 기반의 자산 추정 및 관련 서비스를 사용자 단말로 제공할 수 있는 부동산 예상 실거래가 산출 장치 및 그 동작 방법을 제공하는 데 그 목적이 있다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 부동산 예상 실거래가 산출 장치의 동작 방법은, 외부 부동산 정보 데이터베이스로부터 수집된 부동산 관련 데이터를 부동산 물건 모델별로 병합 가공하여, 실거래가 데이터베이스를 구축하는 단계; 상기 실거래가 데이터베이스로부터 사전 설정된 시간 또는 공간 범위에 대응하는 트레이닝 세트를 구성하여, 실거래가 예측을 위한 시계열 추세 예측 학습 모델을 생성하는 단계; 상기 실거래가 데이터베이스로부터 상기 트레이닝 세트와는 분리된 실거래 데이터 기반의 테스트 세트를 구성하여, 상기 시계열 추세 예측 학습 모델의 정확도를 검증하는 단계; 상기 시계열 추세 예측 학습 모델의 정확도 검증 결과에 따라 상기 시계열 추세 예측 학습 모델의 재구성 또는 고정 처리를 수행하는 단계; 및 상기 고정 처리된 시계열 추세 예측 학습 모델을 고정 예측 모델로 설정하고, 사용자 단말의 요청에 대응하는 특징 인스턴스 데이터를 상기 고정 예측 모델에 적용하여 획득되는 부동산 실거래가 예측 정보를 상기 사용자 단말로 제공하는 단계를 포함한다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 부동산 예상 실거래가 산출 장치는, 외부 부동산 정보 데이터베이스로부터 수집된 부동산 관련 데이터를 부동산 물건 모델별로 병합 가공하여, 데이터베이스를 구축하는 실거래가 데이터베이스; 상기 실거래가 데이터베이스로부터 사전 설정된 시간 또는 공간 범위에 대응하는 트레이닝 세트를 구성하여, 실거래가 예측을 위한 시계열 추세 예측 학습 모델을 생성하는 시계열 추세 예측 학습 모델 생성부; 상기 실거래가 데이터베이스로부터 상기 트레이닝 세트와는 분리된 실거래 데이터 기반의 테스트 세트를 구성하여, 상기 시계열 추세 예측 학습 모델의 정확도를 검증하는 검증부; 상기 시계열 추세 예측 학습 모델의 정확도 검증 결과에 따라 상기 시계열 추세 예측 학습 모델의 재구성 또는 고정 처리를 수행하는 모델 생성부; 상기 고정 처리된 시계열 추세 예측 학습 모델을 고정 예측 모델로 설정하고, 사용자 단말의 요청에 대응하는 특징 인스턴스 데이터를 상기 고정 예측 모델에 적용하여 부동산 실거래가 예측 정보를 획득하는 예측부; 및 상기 획득된 부동산 실거래가 예측 정보를 상기 사용자 단말로 제공하는 출력부를 포함한다.

본 발명의 실시 예에 따르면, 학습 효율 및 활용성을 고려하여 공공 데이터베이스로부터 사전 처리된 실거래가 데이터베이스를 이용하여, 기계 학습을 이용한 부동산 실거래가 예측 모델을 구축하고, 예측 모델에 기초한 현재 및 미래의 부동산 시세에 대한 예상 실거래가 산출 데이터를 산출함으로써, 부동산 예측 실거래가 기반의 자산 추정 및 관련 서비스를 사용자 단말로 제공할 수 있는 부동산 예상 실거래가 산출 장치 및 그 동작 방법을 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시 예에 따른 정보 저장부에 저장되는 데이터의 예시도이다.
도 3은 본 발명의 실시 예에 따른 학습부를 보다 구체적으로 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 부동산 실거래 데이터 처리부에서 학습을 위해 분리된 예측 모델용 데이터의 예시도이다.
도 5는 본 발명의 실시 예에 따른 가상 데이터의 예시도이다.
도 6은 본 발명의 실시 예에 따른 입력부를 보다 구체적으로 도시한 도면이다.
도 7은 본 발명의 실시 예에 따른 사용자 입력 데이터 수용부에서 처리되는 사용자 입력 데이터 및 데이터 보정 실시예이다.
도 8 및 도 9는 본 발명의 실시 예에 따른 특성 데이터 획득 및 보정예시도이다.
도 10은 본 발명의 실시 예에 따른 예측부를 보다 구체적으로 도시한 블록도이다.
도 11 내지 도 13은 본 발명의 실시 예에 따른 서버의 동작 방법을 순차적으로 도시한 흐름도이다.
도 14 내지 도 19는 본 발명의 실시 예에 따른 실거래가 데이터베이스 구축 단계와, 이에 기초한 학습 모델을 구축하기 위한 특성 데이터 구성, 특징 정보 인스턴스 구성 및 이에 따른 프로세스를 설명하기 위한 도면들이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 도면이다.

도 1을 참조하면 본 발명의 일 실시 예에 따른 전체 시스템은, 외부 부동산 정보 데이터베이스(300), 서버(100) 및 사용자 단말(200)을 포함한다.

보다 구체적으로, 외부 부동산 정보 데이터베이스(300), 서버(100) 및 사용자 단말(200)은, 네트워크를 통해 유선 또는 무선으로 연결될 수 있다.

네트워크간 상호간 통신을 위해 각 외부 부동산 정보 데이터베이스(300), 서버(100) 및 사용자 단말(200)은, 인터넷 네트워크, LAN, WAN, PSTN(Public Switched Telephone Network), PSDN(Public Switched Data Network), 케이블 TV 망, WIFI, 이동 통신망 및 기타 무선 통신망 등을 통하여 데이터를 송수신할 수 있다. 또한, 각 외부 부동산 정보 데이터베이스(300), 서버(100) 및 사용자 단말(200)은 각 통신망에 상응하는 프로토콜로 통신하기 위한 각각의 통신 모듈을 포함할 수 있다.

그리고, 본 명세서에서 설명되는 사용자 단말(200)에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 등이 포함될 수 있으나, 본 발명은 이에 한정되지 아니하며 그 이외에 사용자 입력 및 정보 표시 등이 가능한 다양한 장치일 수 있다.

먼저, 외부 부동산 정보 데이터베이스(300)는, 부동산 정보 조회 시스템과 같은 공공 데이터베이스로서, 부동산 관련 데이터를 저장 및 관리하며, 서버(100)의 요청에 따라 부동산 관련 데이터를 제공하는 국토교통부 실거래가 공개시스템 등이 예시될 수 있다.

본 명세서에서 부동산 관련 데이터란, 부동산 가격 및 거래량에 영향을 줄 수 있는 데이터를 포함할 수 있다. 현대의 부동산 시장은 미시 및 거시경제의 다양한 변수들과 정부의 부동산 관련 정책 등에 의해 영향을 받는다. 즉, 부동산 실거래량, 매물량(매매/전세/월세 등), 실거래가, 호가, 주택 시세, 공시지가 및 주택 공급/멸실 등 부동산 가격과 거래량과 직접 연관된 데이터들뿐만 아니라, 기준 금리, 물가지수, 취득세, 인지세, 종합부동산세와 같은 부동산 관련 세금 또는 LTV, DTI와 같은 부동산 대출 규제 및 부동산 정책과 같은 정부의 부동산에 대한 행동들 역시 부동산 가격과 거래량에 영향을 준다.

따라서 외부 부동산 정보 데이터베이스(300)로부터, 서버(100)는 부동산 가격과 거래량에 영향을 줄 수 있는 부동산 가격과 거래량에 직접 연관된 내용, 부동산 관련 세금, 부동산 대출 규제 또는 부동산 정책과 같은 내용의 부동산 관련 데이터를 획득할 수 있다.

그러므로, 서버(100)가 획득할 수 있는 부동산 관련 데이터는 실거래량, 매물량, 실거래가, 호가, 공시지가, 공급량, 멸실량, 기준금리, 물가지수, DTI, LTV 및 부동산 관련 세금 등 다양한 부동산 시장에 영향을 주는 데이터 중 적어도 하나를 포함할 수 있다. 또한, 부동산 시장은 지역단위로 움직이는 것이 일반적이므로, 부동산 관련 데이터는 부동산의 위치 정보를 더 포함할 수 있으나, 위치 정보를 포함하지 않는 경우에도 서버(100)는 지오코딩과 같은 방식으로 전처리를 수행하여, 학습 및 예측에 용이한 부동산 특성 인스턴스 데이터를 산출할 수 있다.

이와 같이 서버(100)는, 공공 데이터베이스와 같은 부동산 정보 데이터베이스(300)로부터 획득된 부동산 관련 데이터의 전처리를 수행하여 실거래가 데이터베이스(110)를 구축하고, 구축된 데이터베이스를 이용한 부동산 예상 실거래가 산출 엔진(120)을 구동시켜, 기계 학습을 이용한 부동산 실거래가 예측 모델을 구축하며, 예측 모델에 기초한 현재 및 미래의 부동산 시세에 대한 예상 실거래가 산출 데이터를 산출할 수 있다.

그리고, 서버(100)는, 서비스 제공 엔진(130)을 구동시켜, 부동산 예측 실거래가 기반의 자산 추정 및 관련 서비스를 접속된 사용자 단말(200)로 제공할 수 있다.

이러한 처리를 위해, 먼저 서버(100)는 실거래가 데이터베이스(110)를 포함할 수 있으며, 실거래가 데이터베이스(110)는 정보 수집부(111) 및 정보 저장부(112)를 포함하여, 외부 부동산 정보 데이터베이스(300)로부터 수집된 부동산 관련 데이터를 전처리하고, 데이터베이스로서 저장 및 관리한다.

부동산 관련 데이터는 제공 주체와 제공 목적에 따라 다양한 형태로 유통되는 한편, 그 특성상 단일 종류의 데이터만으로는 데이터의 원 관념인 부동산을 총체적으로 파악하기 어렵다. 즉, 부동산 데이터를 온전히 활용하기 위해서는 여러 데이터를 종합하여 완결성을 갖는 부동산 데이터로 가공할 필요가 있다.

따라서, 본 발명의 실시 예에 따른 정보 수집부(111)는, 외부 부동산 정보 데이터베이스(300)로부터 수집된 부동산 관련 데이터를 전처리 가공하여, 정보 저장부(112)에 저장 및 관리할 수 있다. 수집하고자 하는 부동산 관련 데이터 혹은 그 데이터가 포함된 외부 부동산 정보 데이터베이스(300)의 특성에 따라 데이터 수집 주기는 조정될 수 있으며, 여러 종류의 데이터를 수집하는 경우 각 데이터 종류마다 수집 주기가 다르게 설정될 수 있다.

정보 저장부(112)는 정보 수집부(111)에서 수집한 데이터로부터 취합하고자 하는 정보를 정리하고, 이를 데이터베이스의 형태로 저장한다.

예를 들어, 정보 저장부(112)는 저장 시, 동일한 부동산 혹은 부동산 거래 사례와 관련하여 여러 데이터에서 중복되거나 상충하는 항목이 존재하는 경우, 검증 프로세스를 통해 하나의 데이터로 통합 처리하는 전처리를 수행할 수 있다. 정보 저장부(112)에 구축된 데이터베이스는 이후 학습 데이터로 활용될 수 있으며, 부동산 예상 실거래가 산출를 위한 핵심적인 데이터를 포함할 수 있다.

도 2는 본 발명의 실시 예에 따른 정보 저장부(112)에 저장되는 데이터의 예시도이다. 도 2에서는, 인천광역시 부평구 내 3개의 법정동에 위치한 아파트 단지들의 2019년 1월 1일부터 2019년 11월 30일까지의 실거래 데이터가 정보 수집부(111)를 통해 외부 부동산 정보 데이터베이스(300)로부터 수집되고, 정보 저장부(112)에서 전처리 가공하여 저장한 데이터베이스가 도시되어 있다.

본 발명의 실시 예에 따르면, 전처리 가공단계에서는 부동산 예상 실거래가 산출 엔진(120)의 학습 및 예측을 용이하게 하기 위해, {시군구, 번지, 본번, 부번, 단지명, 건축년도, 면적, 층, 거래일자, 거래가격}으로 지정되어 있는 외부 부동산 정보 데이터베이스(300)의 부동산 관련 데이터 구성 항목을 변경 가공할 수 있다.

변경 가공을 위해, 본 발명의 실시 예에 따른 정보 저장부(112)는 실제 데이터베이스를 구성함에 있어서, 상기 항목들 중 일부를 제외하거나 {도로명주소, 동, 호, 향}과 같은 세부 주소 항목을 추가하는 등의 가공 처리를 수행할 수 있다. 다만, 특정 시점의 부동산 실거래가를 예측하기 위해서는 특성 값인 {거래일자}와 결과 값인 {거래가격} 항목은 필수적으로 포함시키는 것이 바람직하다.

도 3은 본 발명의 실시 예에 따른 학습부(121)를 보다 구체적으로 설명하기 위한 도면이다.

도 3을 참조하면 본 발명의 실시 예에 따른 학습부(121)는, 부동산 실거래 데이터 처리부(1211), 시계열 추세 예측 학습 모델 생성부(1212), 부동산 예측 데이터 생성부(1213), 부동산 시세 분류 모델 생성부(1214) 및 부동산 시세 검증부(1215) 중 적어도 하나를 포함할 수 있다.

부동산 실거래 데이터 처리부(1211)는, 실거래가 데이터베이스(110)로부터 학습에 필요한 학습 데이터 및 예측 모델 데이터 구성을 위한 분리 데이터를 추출 처리한다. 예를 들어, 부동산 실거래 데이터 처리부(1211)는, 실거래가 데이터베이스(110)를 로드하고, 사전 설정된 지역 또는 기간 범위 조건에 따라 일부 데이터를 분리하여 예측 모델 데이터로서 1차적으로 추출하고 나머지 데이터를 원본 학습 데이터로서 추출할 수 있다. 이 때 분리할 데이터는 전체 데이터 중 무작위로 선정할 수 있으나, 목표 성능에 따라 일정 기준을 정하여 선별할 수 있다.

도 4는 부동산 실거래 데이터 처리부(1211)에서 학습을 위해 분리된 예측 모델용 데이터의 예시도이다. 도 4를 참조하면, 2019년 11월 30일과 그 이후의 실거래가를 예측하고자 한다는 전제 하에, 도 2에 도시된 실거래가 데이터베이스(110)에 포함된 데이터 중 거래일자 항목의 특성값이 2019년 9월 1일부터 2019년 11월 30일 사이인 데이터가 학습을 위해 분리된 것을 확인할 수 있다.

이와 같이, 예측하고자 하는 시점으로부터 일정 기간 이전의 데이터를 분리하면, 시계열 추세 예측 학습 모델 생성부(1212)에서는 분리 데이터를 이용하여 시계열 추세 예측 학습 모델을 생성할 수 있다. 분리 데이터로부터 예측된 모델은 동일 기간의 실거래 데이터와는 적합되지 않아 예측이 편향되지 않을 가능성이 높아질 수 있다. 본 실시예에 사용된 분리 기준은 일례에 불과하며, 특정 특성값 항목 또는 데이터 통계량 등 그 기준이 될 수 있는 요소는 목표 성능에 따라 달라질 수 있다.

시계열 추세 예측 학습 모델 생성부(1212)는 부동산 실거래 데이터 처리부(1211)에서 분리된 데이터로부터, 시계열 추세를 예측하기 위한 예측 학습 모델을 생성한다. 시계열 추세 예측 학습 모델 생성부(1212)가 생성하는 모델은 최종 예측 실거래가 산출에 직접적으로 이용될 수도 있으나, 분리된 데이터 영역을 나머지 학습 데이터와 함께 학습 처리할 수 있는 가상 데이터 구성에 이용되는 것이 바람직하다.

따라서, 시계열 추세 예측 학습 모델 생성부(1212)는, 시계열 추세 예측 학습 모델로부터 부동산 실거래 데이터 처리부(1211)에서 분리된 데이터와 유사한 경향성을 갖되 그 데이터와 일치하지는 않는 가상 데이터를 생성함으로써, 그 가상 데이터가 전체 데이터의 일관성을 해치지 않는 선에서 학습에 활용되도록 처리할 수 있다.

이를 위해, 시계열 추세 예측 학습 모델 생성부(1212)는 정확도가 비교적 낮지만 대규모 데이터 처리에 강점이 있는 기계 학습/인공신경망 학습 알고리즘과, 정확도가 비교적 높지만 국지적으로 활용하기 적합한 기계 학습/인공신경망 학습 알고리즘을 상보적으로 이용하여 시계열 추세 예측 학습 모델을 생성할 수 있다.

이러한 예측 학습 모델을 위해, 부동산 예측 데이터 생성부(1213)는, 시계열 추세 예측 학습 모델 생성부(1212)에서 생성된 모델을 기반으로 사전 분리된 데이터 구간에 대응하는 예측을 실행하며 그 결과를 가상 데이터로 생성할 수 있다.

도 5는 본 발명의 실시 예에 따른 가상 데이터의 예시도이다. 부동산 실거래 데이터 처리부(1211)에서 분리된 데이터는 거래일자 항목의 특성값이 2019년 9월 1일부터 2019년 11월 30일 사이인 데이터이기 때문에, 2019년 9월 1일 이후 시점에 대한 실거래 데이터는 원본 데이터에는 포함되지 않은 상태이다.

따라서, 본 발명의 실시 예에 따른 부동산 예측 데이터 생성부(1213)는, 시계열 추세 예측 학습 모델 생성부(1212)에서 생성한 예측 학습 모델을 이용하여 2019년 9월 1일부터 2019년 11월 30일 기준 근미래 시점까지의 가상 실거래 데이터를 예측 생성할 수 있다. 도 5에서의 실시예에 따르면, 학습 데이터 원본의 거래일자를 제외한 모든 특성값은 고정하고 2019년 9월 1일 이후 임의의 시점이 거래일자가 되도록 부여하여 구성된 데이터이며, 기존 거래가격에 임의의 증감폭을 부여한 수치를 거래가격으로 예측하도록 생성된 시계열 추세 예측 학습 모델을 이용한 가상 데이터가 산출될 수 있다. 여기서, 거래일자를 포함한 가상 데이터 특성값의 지정/부여 방식은 다양하게 변경될 수 있다.

한편, 부동산 시세 분류 모델 생성부(1214)는, 부동산 실거래 데이터 처리부(1211)에서 분리된 학습용 데이터와, 부동산 예측 데이터 생성부(1213)에서 생성된 가상 데이터를 이용하여, 최종 실거래가 예측 모델을 생성한다.

그리고, 부동산 시세 검증부(1215)는 부동산 시세 분류 모델 생성부(1214)에서 생성한 모델의 정확도를 테스트를 통해 검증하고, 그 결과에 따라 부동산 시세 분류 모델 생성부(1214)의 재 기동 여부를 결정한다.

부동산 시세 검증부(1215)는, 부동산 실거래 데이터 처리부(1211)에서 분리하여, 시계열 추세 예측 학습 모델 생성부(1212)로 전달되었던 분리 데이터를 이용하여, 예측 정확도 테스트를 실시할 수 있다. 정확도 테스트에는 MAPE 등 다양한 통계적 측정 방식이 활용될 수 있다.

부동산 시세 검증부(1215)는 테스트 결과 목표 정확도를 만족한 경우 지금까지 생성된 학습 모델 기반의 트리를 시세 분류 모델로 고정 처리하며, 만족하지 못한 경우 부동산 시세 분류 모델 생성부(1214)로 보정 정보를 전달할 수 있다. 부동산 시세 분류 모델 생성부(1214)는, 보정 정보에 따라, 추가 학습 모델 트리를 생성하여 기존 생성된 학습 모델 트리에 결합할 수 있다.

도 6은 본 발명의 실시 예에 따른 입력부(131)를 보다 구체적으로 도시한 도면이다. 도 6을 참조하면, 입력부(131)는, 사용자 입력 데이터 수용부(1311) 및 특성 데이터 전송부(1312)를 포함할 수 있으며, 사용자 입력 데이터 수용부(1311)는, 사용자 입력 데이터 획득부(1311A) 및 사용자 입력 데이터 보정부(1311B)를 포함할 수 있고, 특성 데이터 전송부(1312)는, 특성 데이터 획득부(1312A) 및 특성 데이터 보정부(1312B)를 포함할 수 있다.

사용자 입력 데이터 획득부(1311A)는 사용자 단말(200)로부터 특정 부동산의 가격을 예측하고자 하는 사용자 요청 데이터를 입력 데이터로서 수신할 수 있다. 사용자 단말(200)에서는 부동산의 주소를 텍스트로 입력하거나, 지도에서 부동산을 선택 입력하거나, 사진으로 부동산을 촬영 입력하여, 생성된 사용자 요청 데이터를 서버(100)의 사용자 입력 데이터 획득부(1311A)로 전송할 수 있다. 여기서, 사용자가 사용자 단말(200)에서 입력할 데이터의 종류와 입력 형식은 자유로울 수 있으나, 부동산을 특정하기에 충분한 정도의 필요 데이터가 입력되어야 한다.

사용자 입력 데이터 보정부(1311B)는 사용자 입력 데이터가 수신되면, 특성 데이터 획득부(1312A)에서의 처리를 용이하게 하기 위한 데이터 보정 처리를 수행할 수 있다.

여기서, 보정 처리는, 사용자의 데이터 입력 이후, 즉 사후적으로 진행될 수도 있으나, 사용자가 데이터를 입력하는 동시에 진행되도록 처리하는 방식도 가능하다. 입력 데이터 보정을 마친 이후 사용자 입력 데이터 보정부(1311B)는, 특성 데이터 전송부(1312)의 특성 데이터 획득부(1312A)로 입력 데이터를 전송한다.

도 7은 사용자 입력 데이터 수용부(1311)에서 처리되는 사용자 입력 데이터 및 데이터 보정 실시예이다. 통상적으로 사용자는 기억의 불완전성, 편의 추구, 일시적인 나태 등으로 인해 도 7에 도시된 '산곡동 510 103동 1102호'와 같이 온전한 주소는 아니지만 부동산을 특정하는 데에 핵심적인 데이터만을 입력하게 할 수 있다.

이에 따라, 도 7에 도시된 바와 같이, 사용자 입력 데이터 획득부(1311A)에서 '산곡동 510 103동 1102호'가 획득되면, 사용자 입력 데이터 보정부(1311B)는, 등기부 등본의 주소 형식에 맞게 사용자 입력 데이터를 보정 처리할 수 있다.

이는 특성 데이터 전송부(1312)가 등기부등본 데이터베이스를 검색하여 특성 데이터를 획득하는 경우에 한정된 것이며, 보정 처리는 특성 데이터 전송부(1312)에서 처리되는 특성 데이터의 종류에 따라 결정될 수 있다.

또한 본 발명의 실시 예에 따르면, 사용자 입력 데이터 보정부(1311B)는, 사용자 입력 데이터 획득부(1311A)에 입력된 정보를 실시간으로 반영하여 보정할 수 있으며, 보정 결과를 즉각적으로 사용자 단말(200)로 출력하여 사용자가 보정된 데이터를 입력 데이터로 전달할지 선택하도록 할 수도 있다. 다만, 입력 데이터 보정의 원리와 그 내용은 특성 데이터 획득부(1312A)에서 요구하는 데이터 형식 혹은 내용에 따라 달라질 수 있다.

한편, 다시 도 6을 참조하면, 특성 데이터 획득부(1312A)는, 사용자 입력 데이터 수용부(1311)로부터 선택적으로 보정된 사용자 입력 데이터를 전달받아, 사용자 입력 데이터로부터 특정되는 부동산의 특성 값을 예측부(122)로 전송할 수 있는 형태로 추출할 수 있다. 부동산 특성값 추출에는 주로 등기부등본/건축물대장 등의 공부 데이터베이스(미도시)를 활용할 수 있다.

공부(公簿) 데이터베이스는 부동산 등기사항전부증명서(이하 등기부등본), 건축물대장, 토지대장 등 부동산과 관련하여 행정부 혹은 사법부에서 관리하는 문서를 저장하는 데이터베이스를 포함하며, 각 문서 유형별 복수의 데이터베이스로 구성될 수 있다. 공부 작성 과정상 문제로 인해 공부상 기재된 정보는 실체적인 정보와 일치하지 않을 수 있지만, 실제 관측을 통해 정보를 수집하는 경우를 제외하면 가장 높은 신뢰성을 갖는다. 따라서 데이터베이스에 포함된 데이터 특성값 보정, 학습시 특성값 추가, 예측시 입력값 보완 등에 적극적으로 활용할 수 있어 구축 완성도가 높아질수록 예측의 정확도 또한 높아진다. 그러나 국내의 모든 부동산에 대해 실시간으로 공부 데이터베이스를 구축하는 것은 어려울 수 있으므로, 기간이나 지역을 한정하여 데이터를 수집하거나 요청이 들어올 때마다 데이터를 수집하는 방법 등을 채택할 수 있다.

그리고, 특성 데이터 보정부(1312B)는 특성 데이터를 데이터베이스 검색에 용이한 형태로 보정하는 처리를 수행한다. 특성 데이터 보정부(1312B)에서 보정된 특성 데이터는 예측부(122)의 입력부 전달 데이터 획득부(1221)(1221)로 전달될 수 있다.

도 8 및 도 9는 특성 데이터 획득 및 보정예시도이다. 도 8을 참조하면, 특성 데이터 획득부(1312A)는 사용자가 입력한 데이터를 보정한 값인 '인천광역시 부평구 산곡동 510외 1필지 푸**오 제103동 제11층 제1102호'를 전달받아, 공부 데이터베이스로부터 등기부등본을 발급 후 이용하여 특성 값을 추출할 수 있다.

예를 들어, 특성 데이터 획득부(1312A)는 등기부등본의 제목으로부터 주소 정보를 추출하고, 표제부 전유부분 표시 부분으로부터 전용면적과 층수를 획득하여, 특성 값을 보정할 수 있다. 다만 본 실시예는 특성 데이터 획득 과정의 일례에 불과하며, 전달받은 사용자 입력 데이터로 발급받는 공부의 종류, 부동산 시세 분류 모델 생성부(1214)에서 생성한 모델이 요구하는 특성값의 종류 등에 따라 추출 항목은 달라질 수 있다.

그리고, 도 9를 참조하면, 도 9에서 추출된 주소는 등기부등본에서 획득한 값이기 때문에 등기부등본을 검색할 때에는 유용하게 사용될 수 있으나, 도 9 하단 도면과 같이 실거래가 데이터베이스가 구성되어 있을 경우 내용의 형식이 일치하지 않아 데이터베이스 검색, 모델 적용 등의 과정에서 본 발명이 정상적으로 기능하는 데에 어려움이 있을 수 있다.

따라서, 본 발명의 실시 예에 따르면 특성 데이터 보정부(1312B)는 도 9에 도시된 바와 같이, 획득한 특성 데이터의 {주소} 항목을 {시군구, 번지, 본번, 부번, 단지명}으로 세분화하고, {주소} 항목의 내용을 각 항목에 맞게 보정 처리할 수 있다. 단 본 발명의 실시 과정에서 실제 보정 원리와 그 내용은 실거래가 데이터베이스를 구성하는 특성값 항목과 그 내용에 따라 달라질 수 있으며, 경우에 따라 지도 등의 외부 상용 서비스를 활용하여 특성 데이터를 보정할 수 있다.

도 10은 본 발명의 실시 예에 따른 예측부(122)를 보다 구체적으로 도시한 블록도이다.

도 10을 참조하면, 본 발명의 실시 예에 따른 예측부(122)는, 입력부 전달 데이터 획득부(1221), 부동산 실거래 데이터 획득부(1222), 부동산 시세 분류 모델 적용부(1223), 산출 데이터 전송부(1225)를 포함하며, 산출 데이터 보정부(1224)를 선택적으로 포함할 수 있다.

입력부 전달 데이터 획득부(1221)는 입력부(131)로부터 사용자가 조회하고자 하는 부동산의 특성 데이터를 수신하여, 부동산 실거래 데이터 획득부(1222) 및 부동산 시세 분류 모델 적용부(1223)로 전달한다.

부동산 실거래 데이터 획득부(1222)는 부동산의 특성 데이터로 실거래가 데이터베이스(110)를 검색하고, 부동산의 특성 데이터와 일치하는 실거래가 데이터가 존재하는 경우 상기 일치하는 실거래가 데이터를 획득하며, 존재하지 않는 경우 사전 설정 기준에 따라 상기 특성 데이터와 유사한 특성 데이터를 상기 실거래가 데이터로서 획득한다.

부동산 시세 분류 모델 적용부(1223)는 입력부로부터 전송받은 특성 데이터를 학습부(121)에서 사전 생성된 부동산 시세 분류 모델에 적용하여, 실거래가 예측 데이터를 산출한다.

그리고, 산출 데이터 보정부(1224)는, 부동산 시세 분류 모델 적용부(1223)에서 산출한 실거래가 예측 데이터를 부동산 실거래 데이터 획득부(1222)에서 획득한 실거래가 데이터에 기반하여 보정한다.

이에 따라, 산출 데이터 전송부(1225)는 최종적으로 산출된 실거래가 예측 데이터를 출력부(132)로 전송하며, 출력부(132)는 사용자 단말(200)로 실거래가 예측 데이터 기반의 서비스 인터페이스 정보를 가공하여 전송 처리할 수 있다.

도 11 내지 도 13은 상술한 본 발명의 실시 예에 따른 서버(100)의 동작 방법을 순차적으로 도시한 흐름도이다.

먼저, 도 11을 참조하면, 서버(100)의 입력부(131)는 사용자 단말(200)로부터 사용자 입력 데이터를 수신하며(S101), 입력된 사용자 입력 데이터를 보정 처리한다(S103).

그리고, 서버(100)의 입력부(131)는 부동산 공부 데이터베이스에 접속하며(S105), 보정된 사용자 입력 데이터와 연관된 부동산 공부 데이터를 검색한다(S107).

이후, 서버(100)의 입력부(131)는 부동산 공부 데이터 및 보정된 사용자 입력 데이터를 이용하여, 특성 데이터를 추출하고(S109), 추출된 특성 데이터를 보정하며(S111), 보정된 특성 데이터는 예측부(122)로 전달한다(S113).

한편, 도 12를 참조하면, 서버(100)의 학습부(121)는, 실거래가 데이터베이스(110)를 사전 구축하고(S201), 실거래가 데이터로부터 일부 데이터가 분리된 가상 데이터 학습 모델용 데이터를 획득한다(S203).

그리고, 학습부(121)는 가상 데이터 학습 모델용 데이터를 이용하여, 기계학습 프로세스에 따른 예측 구간의 가상 데이터를 생성하며(S205), 가상 데이터 기반의 데이터 학습 트리를 생성하고(S207), 생성된 트리를 현재 학습 모델에 결합한다(S209).

이후, 학습부(121)는 앞서 S203 단계에서 분리된 데이터로 현재 학습 모델 기반 트리의 테스트를 수행할 수 있으며(S211), 검증 단계를 통해 목표 정확도 도달여부를 판단한다(S213).

만약 목표 정확도에 도달하지 못한 경우, S207 단계부터 다시 수행할 수 있으며, 만약 목표 정확도에 도달한 경우에는 현재 결합된 트리 기반의 학습 모델을 최종 모델로 고정 처리한다(S215).

그리고, 도 13을 참조하면, 서버(100)의 예측부(122)는, 입력부(131)에서 전달된 특성 데이터를 획득하고(S301), 특성 데이터를 이용한 실거래가 데이터베이스(110)의 검색을 수행한다(S303).

그리고, 서버(100)의 예측부(122)는, 특성 데이터와 일치하는 실거래가 데이터가, 상기 실거래가 데이터베이스(110)에서 존재하는지 여부를 판단하며(S305), 존재하는 경우에는 상기 일치한 주소 및 물건에 대응하는 실거래가 데이터를 추출하고(S307), 존재하지 않는 경우에는 일정 기준 이내의 유사 데이터로서, 예를 들어 주변 물건의 실거래가 데이터를 추출하여(S309), 학습부(121)에서 생성된 고정 모델 기반의 부동산 시세 분류 모델에 적용한다(S311).

이후, 서버(100)의 예측부(122)는 산출 데이터의 보정 처리를 수행하고(S313), 보정된 산출 데이터를 출력부(132)로 전달한다.

출력부(132)에서는 산출 데이터 기반의 실거래가 예측 정보를 사용자 단말(200)로 제공함으로써, 서비스 프로세스가 완료되게 된다.

한편, 도 14 내지 도 19는 본 발명의 실시 예에 따른 실거래가 데이터베이스(110) 구축 단계와, 이에 기초한 학습 모델을 구축하기 위한 특성 데이터 구성, 특징 정보 인스턴스 구성 및 이에 따른 프로세스를 설명하기 위한 도면들이다.

도 14를 참조하면, 본 발명의 실시 예에 따른 실거래가 데이터베이스(110)의 정보 저장부(121)는, 실거래가 데이터 가공 적재부(1121) 및 모델 기반 실거래가 데이터 병합부(1122)를 포함한다.

보다 구체적으로, 정보 저장부(121)는, 실거래가 데이터베이스(110)를 구축하기 위해 시계열 데이터를 주기적으로 수집 및 저장함에 있어서, 기계학습과 예측에 용이한 부동산 실거래가 데이터를 가공 및 저장하여 데이터베이스를 보다 효율적으로 구축할 수 있다.

이에 따라, 본 발명의 실시 예에 따른 정보 저장부(121)는, 시계열 데이터를 주기적으로 수집하여 최신화하는 경우 데이터 적재를 위한 데이터베이스를 효율적으로 구축하여 별도로 운용하게 할 수 있다. 특히, 기계학습에 활용하기 용이하도록 가공이 완료된 상태로 공개되는 시계열 데이터 세트가 부족한 상황이며, 서비스 운영의 측면에서 외부 의존성 확대는 곧 통제 불가능한 리스크의 증가로 이어진다. 따라서, 데이터 제공 주체의 내부 정책 변화나 서버 불안정 등의 상황으로 인해 해당 데이터 세트나 데이터베이스에 접근이 불가능할 경우 서비스 제공에 큰 차질을 빚을 수 있다.

이를 해결하기 위해 본 발명의 실시 예에 따른 정보 저장부(121)는, 실거래가 데이터 가공 적재부(1121) 및 모델 기반 실거래가 데이터 병합부(1122)를 포함하는 것으로, 먼저 실거래가 데이터 가공 적재부(1121)는, 공공 데이터를 수집 및 가공하여 데이터베이스상에 적재 처리한다.

도 15를 참조하면, 2020년 8월 28일을 기준으로, 국토교통부 서버에서는 건물 종류(아파트, 연립/다세대, 단독/다가구, 오피스텔 등)와 거래 유형(매매, 전세 등)에 따라 시군구, 번지, 본번, 부번, 단지명, 전용면적, 계약년월, 계약일, 거래금액, 층, 건축년도, 도로명 정보 등의 정보를 포함한 실거래가 데이터를 매일마다 전일 신고분까지 제공하고 있다. 웹페이지 뿐만 아니라 csv나 스프레드시트 파일 형태로도 데이터가 제공되고 있다.

그리고, 도 16에 도시된 바와 같이, 실거래가 데이터 가공 적재부(1121)는, 실거래가 데이터 크롤러 모듈을 이용하여, 매일 특정 시각에 국토교통부 실거래가 공개시스템에 업로드된 실거래가 데이터를 크롤링하여 수집할 수 있다.

그리고, 실거래가 데이터 가공 적재부(1121)는, 각각의 실거래가 데이터에 데이터 연번 정보(id), 건물 종류 정보와 거래 유형 정보를 결합하고, 이를 최종적으로 실거래가 데이터베이스(110)에 적재할 수 있다.

한편, 모델 기반 실거래가 데이터 병합부(1122)는, 차후 학습 및 예측 진행시 필요한 동일한 부동산 물건 별 데이터 로드를 용이하게 하기 위해, 동일 부동산에 대응한 실거래가 데이터를 하나의 모델로 병합하는 프로세스를 수행할 수 있다.

모델 기반 실거래가 데이터 병합부(1122)는, 동일 부동산 여부를 판단하기 위해, 실거래가 데이터 상에서 부동산마다 고유하게 생성되는 정보 내지는 정보 조합을 선별할 수 있다.

예를 들어, '우성' 이라는 단지명을 가진 아파트는 전국 각지에 존재할 수 있으므로, 단지명 정보만으로는 동일 부동산 여부를 판단하기에 불충분하다. 단지명 정보에 주소 정보, 즉 시군구 정보 및 번지 정보가 결합되더라도 해당 부동산 단지 내 아파트와 오피스텔이 혼재할 수 있으므로 역시 부동산의 분류 기준으로 설정하기에 어려움이 있다.

따라서 도 17에 도시된 바와 같이, 본 발명의 실시 예에 따른 모델 기반 실거래가 데이터 병합부(1122)는, (건물 종류, 시군구, 번지, 단지명)의 정보 조합으로 실거래가 데이터를 1차적으로 분류하며, 이후 각 (건물 종류, 시군구, 번지, 단지명) 조합마다 id가 가장 낮은 데이터를 기준으로 부동산 물건 모델을 생성하고, 분류된 데이터를 모델에 병합함으로써, 학습에 용이한 부동산 실거래가 데이터를 부동산 물건별로 구성, 분류 및 적재 처리할 수 있다.

한편, 도 18을 참조하면, 본 발명의 실시 예에 따른 모델 기반 실거래가 데이터 병합부(1122)는, 각 실거래가 데이터마다 지오코딩(위도, 경도) 정보를 추가하는 프로세스를 더 수행할 수 있다.

텍스트 형태의 주소 정보는 행정구역 변동에 따라 변경될 가능성이 존재하고 그에 부수하는 관계 정보 구현이 까다로운 반면, 지오코딩 정보는 절대 위치 정보이자 일종의 좌표계로써 수치화 가능한 위치 정보에 해당되어 텍스트 형태의 주소 정보보다 학습에 활용하기 용이하기 때문이다.

이와 같이 데이터 가공 적재부(1121) 및 모델 기반 실거래가 데이터 병합부(1122)에 의해 구축된 실거래가 데이터베이스(110)를 이용하여 본 발명의 실시 예에 따른 학습부(121)는, 전술한 바와 같은 학습 프로세스를 수행하여 트리 기반의 부동산 실거래가 예측을 위한 학습 모델을 생성할 수 있다.

여기서, 트리 기반의 학습 프로세스에 대하여 보다 구체적으로 설명하고자 한다. 최근 시장에서는 기계학습을 활용하여 부동산 예상 실거래가를 산출하고자 하는 흐름이 전개되고는 있으나, 예측하고자 하는 데이터의 특성에 맞는 시도가 이루어지는지에 대해서는 회의적인 상황이다. 예를 들어 빅밸류의 관련 특허(10-2016-0123722 외 3건)에서는 다중회귀분석과 유사도 점수 등의 방법을 활용하여 부동산의 예상 실거래가를 산출할 수 있는 것으로 설명하고 있다. 그러나, 다중회귀분석의 경우 정교한 모델링이 어려울 뿐만 아니라 투입하는 특징 정보의 설명력에 그 정확도가 크게 좌우되므로 부동산 예상 실거래가 산출에 활용하기에는 부적합하다. 유사도 점수의 경우에도 각 부동산 물건마다 유사도를 계산할 부동산 물건을 다수 매칭하여야 하는데, 사용자의 예측 요청 이전 모든 부동산에 대해 유사도 점수를 계산해놓지 않는 이상 계산에 많은 시간이 소모되므로 실시간 서비스 제공시 애로사항이 다수 발생할 것으로 예상된다.

한편, 부동산 실거래가 데이터는 특징 간 구분을 명확히 할 수 있어 표로 정리 가능한 데이터, 즉 태뷸러(tabular) 데이터에 해당되는데, 이와 같은 유형의 데이터는 특정 값을 기준으로 학습 세트를 나누어 학습하는 결정 트리 기반 학습 모델이 효과적인 것으로 알려져 있다. 그러나 동시에 학습 세트보다 미래 시점의 시계열 데이터를 예측하게 하는 경우에는 성능이 급락한다는 단점이 존재한다.

따라서 부동산 예상 실거래가를 산출하기 위해 기계학습을 활용하는 경우, 위에 나열된 기계학습 방식을 보완하거나 이외의 기계학습 방식을 채택하여야 하는 것으로, 앞서 설명된 데이터 분리 기반 학습 처리가 수행되는 것이다. 바람직하게는 현재 예상 실거래가 산출 프로세스를 위해, 결정 트리 기반 앙상블 학습방식을 이용한 그래디언트 부스팅(Gradient Boosting) 방식이 예시될 수 있으며, 앞서 설명된 기존기술의 약점을 보완하기, 위해 실거래가 데이터베이스를 활용하여 선형 회귀 등 보다 가벼운 기계학습 처리를 통해 특징 트리를 추가 생성하여 학습을 추가 진행하게 할 수 있다.

이하에서는 도 19를 참조하여, 이러한 본 발명의 실시 예를 보다 효율적으로 실시할 수 있는 학습을 위한 세부 프로세스와, 학습 모델의 특징 인스턴스 구성 프로세스를 설명하고자 한다.

도 19를 참조하면, 먼저 실거래가 데이터베이스(110)는, 외부 부동산 정보 데이터베이스(300)로부터 실거래가 데이터를 수집하여, 식별 정보, 건물 유형 및 거래 유형에 따라, 부동산 물건별 개별 데이터 모델을 생성한다(S1101).

그리고, 실거래가 데이터베이스(110)는 부동산 물건별 개별 데이터 모델을 이용하여 실거래가 데이터를 병합하고, 실거래가 데이터에 지오코딩 정보를 매핑 및 부가하여 실거래가 데이터베이스를 구축한다(S1103).

이후, 학습부(121)는, 실거래가 데이터베이스로부터 학습 모델 생성을 위한 트레이닝 세트로서 산출된 복수의 특징 정보 인스턴스를 구성한다(S1105).

학습부(121)는 먼저 부동산 실거래 데이터 처리부(1211)를 통해, 데이터 로드 및 분리 처리를 수행하는 바, 앞서 지오코딩 정보까지 추가가 완료된 실거래가 데이터베이스를 로드하고, 로드된 데이터 세트를 특정 시점 구간을 기준으로 분리하여, 해당 시점 구간 이전의 데이터를 트레이닝 데이터 세트, 해당 시점 이후의 데이터를 테스트 세트로 분리 처리할 수 있다. 여기서 시점 구간은 예를 들어, 현재 시점으로부터 3개월 이전 일정 구간과 3개월 이후 일정 구간 또는 현재까지의 구간일 수 있으나 이는 설정에 따라 가변될 수 있다.

그리고, 학습부(121)는 학습에 따른 트리 모델 생성을 위해, 트레이닝 데이터 세트로부터 특징 인스턴스를 구성할 수 있다. 이를 위해, 부동산 실거래 데이터 처리부(1211)는, 트레이닝 세트의 각 데이터마다 그래디언트 부스팅을 처리하기 위한 특징 정보를 추출하거나 추가 처리하여 특징 정보 인스턴스를 구성할 수 있다.

여기서, 특징 정보 인스턴스는 아래와 같이 다양하게 예시될 수 있다.

제1 실시 예에서, 특징 정보 인스턴스는 실거래가 데이터베이스의 단일 실거래가 모델 데이터를 그대로 추출하는 제1 특징 정보 인스턴스를 포함할 수 있다.

이 경우, 제1 특징 정보 인스턴스는, 건물 종류 정보, 전용 면적 정보, 층 정보, 건축년도 정보, 위도 및 경도 정보를 포함할 수 있다. 특히 동일 물건의 실거래가 데이터는 건물 종류 및 건축년도가 모두 동일한 값을 가질 수 있다.

제2 실시 예에서, 특징 정보 인스턴스는 실거래가 데이터베이스의 단일 실거래가 모델 데이터로부터 변환된 제2 특징 정보 인스턴스를 포함할 수 있다.

예를 들어, 제2 특징 정보 인스턴스는 날짜 특징 정보를 포함할 수 있는 바, 이는 계약일이 1년 중 몇 번째 날짜인지를 학습에 활용하기 위한 것으로, 계약년월 및 계약일의 날짜 정보를 코사인 또는 사인 처리한 날짜 특징 정보 값을 포함할 수 있다.

그리고 제3 실시 예에서, 특징 정보 인스턴스는 실거래가 데이터베이스의 단일 실거래가 모델 데이터에 대응하여, 참조된 외부 데이터를 부가한 제3 특징 정보 인스턴스를 포함할 수 있다.

예를 들어, 제3 특징 정보 인스턴스는 건물의 최고층 정보를 포함할 수 있으며, 이는 실거래가 모델 내 데이터 중 가장 높은 층으로 참조될 수 있으나, 외부 부동산 정보 데이터베이스(300)로부터 건축물대장 데이터가 수집된 경우에는 상기 건출물대장 데이터로부터 획득되어 제3 특징 정보 인스턴스에 부가될 수 있다.

또한, 예를 들어, 제3 특징 정보 인스턴스는 실거래가 데이터가 소속된 광역지방자치단체(특별시, 광역시, 도, 특별자치시, 특별자치도) 실거래가 평균 정보, 실거래가 데이터가 소속된 기초지방자치단체(시, 군, 구) 실거래가 평균 정보를 더 포함할 수 있다.

한편, 제4 특징 정보 인스턴스는 외부의 다른 기계학습 방식으로 생성된 예상 실거래가 데이터를 더 포함할 수 있다. 예를 들어, 학습부(121)에서 리지 회귀 방식으로 학습 모델을 생성하는 경우, 회귀에 이용할 트레이닝 세트의 시간 및 공간 범위를 상이하게 설정한 복수의 특징 정보 인스턴스를 상기 제4 특징 정보 인스턴스로 구성할 수도 있다.

제4 특징 정보 인스턴스를 예를 들면, 특정 기간 이내(1년, 2년, 3년) 같은 건물 동일 평형의 실거래가 최소값 정보, 최대값 정보, 평균 정보를 포함하는 트레이닝 세트가 예시될 수 있다.

또한, 제4 특징 정보 인스턴스는, 특정 기간 이내(1년, 2년, 3년) 같은 건물 동일 평형 동일 층의 실거래가 최소값 정보, 최대값 정보, 평균 정보, 하위 5% 정보, 상위 5% 정보를 포함하는 트레이닝 세트가 예시될 수 있다.

그리고, 제4 특징 정보 인스턴스는, 특정 기간 이내(6개월, 1년, 2년) 같은 건물 실거래 데이터를 대상으로 한 릿지 회귀(ridge regression) 예측값(feature : 전용면적, timestamp, target : 실거래가), 결정계수(r squared 값) 및 거래 횟수 정보를 포함하는 트레이닝 세트가 예시될 수 있다.

또한, 제4 특징 정보 인스턴스는, 특정 기간 이내(6개월, 1년, 2년) 같은 건물 동일 평형 실거래 데이터를 대상으로 한 릿지 회귀(ridge regression) 예측값(feature : timestamp, target : 실거래가), 결정계수(r squared 값), 거래 횟수 정보를 포함하는 트레이닝 세트가 예시될 수 있다.

그리고, 제4 특징 정보 인스턴스는, 특정 기간 이내(3개월, 6개월) 같은 행정동 혹은 행정리 내 건물 실거래 데이터를 대상으로 한 릿지 회귀(ridge regression) 예측값(feature : 전용면적, timestamp, target : 실거래가), 결정계수(r squared 값), 거래 횟수 정보를 포함하는 트레이닝 세트가 예시될 수 있다.

이후, 학습부(121)는, 시계열 추세 예측 학습 모델 생성부(1212)를 통해, 사전 설정된 하이퍼 파라미터를 이용한 특징 정보 인스턴스의 그래디언트 부스팅 기반 기계학습을 수행하여, 시계열 추세 예측 학습 모델을 생성한다(S1107).

보다 구체적으로, 학습부(121)는, 예를 들어 리프 중심 트리 분할(Leaf Wise) 방식을 사용한 라이트 GBM(LightGBM) 알고리즘 등을 이용하여, 트리 기반의 학습 모델을 생성할 수 있다. 라이트 GBM 알고리즘은 최대한 균형이 잡힌 트리를 유지하면서 분할하기 때문에 트리의 깊이가 최소화 되는 장점이 있다.

그리고, 학습부(121)는 적절한 하이퍼파라미터(hyperparameter)를 사전 설정할 수 있는 바, 만약 설정되지 않은 상태에서는 유효 세트(valid set)을 활용할 수 있다.

이러한 유효 세트(valid set)는 상기 트레이닝 세트의 마지막 일정 기간(예를 들어, 3개월) 데이터를 분리하여 임의의 하이퍼파라미터를 이용한 그래디언트 부스팅을 처리하여 생성된 모델부터, 테스트를 수행하여 산출될 수 있다.

다만, 과적합(overfitting)이 발생되는 것을 방지하기 위해, 결정 트리(decision tree의 depth)가 지나치게 크거나 말단 노드(node)가 지나치게 많아지는 것을 사전에 방지하기 위한 방안으로 일부 노드에 대해서 특정 깊이에 도달하기 이전이라도 하위 노드의 생성을 차단하는, 얼리 스토핑(early stopping) 프로세스가 부가될 수 있다.

한편, 시계열 추세 예측 학습 모델이 생성되면, 학습부(121)는 부동산 예측 데이터 생성부(1213)를 통해, 실거래가 데이터베이스(110)에서 분리된 테스트 데이터 세트의 특징 정보 인스턴스를 동일하게 구성하고, 상기 시계열 추세 예측 학습 모델에 적용하여, 학습 모델의 예측 오차 보정을 처리한다(S1109).

학습부(121)는 검증부(1215)를 통해, 학습 모델의 예측 오차 보정 데이터로부터 모델의 트리 추가 또는 고정을 처리하고, 실거래가 신뢰구간을 산출할 수 있다(S1111).

즉, 학습부(121)는, 분리 구성된 테스트 데이터 세트에 대응하여, 트레이닝 세트와 같은 방식을 특징 정보 인스턴스를 구성할 수 있으며, 이를 현재의 트리 기반 시계열 추세 예측 학습 모델에 적용하여, 예측된 값과 테스트 데이터의실제 실거래가 사이의 오차를 검증할 수 있다.

그리고, 학습부(121)는, 목표 성능 미달시 시계열 추세 예측 학습 모델 생성부(1212)에 전달하여, 학습 트리를 더 부가시키도록 할 수 있으며, 목표 만족시에는 모델을 고정 처리하게 한다. 고정된 모델은 부동산 시세 분류 모델 생성부(1214)로 전달되어, 이후 예측부(122)에서 이용할 수 있게 된다.

즉, 예측부(122)에서는 사용자 단말(200)의 예측 요청에 따라, 주소 정보 및 공부 정보로부터 산출 가능한 부동산 물건 정보를 매칭하고(S1113), 매칭된 부동산 물건 정보로부터 특징 정보 인스턴스를 구성하며, 이를 고정된 학습 모델에 적용하여 예상 실거래가를 산출할 수 있다(S1115).

이에 따라, 서버(100)는 출력부(132)를 통해, 예상 실거래가 및 상기 신뢰구간 기반의 정확도 정보를 포함하는 부동산 실거래가 예측 정보를 제공할 수 있다(S1117).

보다 구체적으로, 모델 고정 이후 예측부(122)의 예측 진행시에 산출되는 예측값, 즉 예상 실거래가는 예측을 위한 특징 정보 인스턴스를 포함하는 노드들에 포함된 데이터의 타겟(target) 값, 즉 예측 실거래가의 평균 값으로 산출될 수 있다. 각 노드 별 타겟 값은 다양할 수 있으나, 그 분포는 일정한 확률분포를 형성한다고 전제함에 따라, 노드들 간 평균과 표준편차를 활용하여 실거래가의 신뢰구간을 산출할 수 있다.

반대로, 부동산 물건 정보가 아니라, 특정 가격을 지정하여 예측하는 경우, 노드들의 타겟 분포 정보는 그 가격이 어느 위치에 분포하고 있는지를 확인할 수 있게 하는 바, 본 발명의 실시 예에 따른 출력부(132)는, 이를 이용하여 가격대별 거래 가능성 정보를 사용자 단말(200)로 제공할 수 있다.

예를 들어, 출력부(132)는, 예상 실거래가가 1억 6,000만 원으로 산출된 부동산 물건이 있고, 해당 부동산 물건이 분류된 노드 내 실거래가 데이터상 실거래가가 정규분포를 이루며, 그 표준편차가 1,000만 원이라 하면, 이 때 해당 부동산 물건이 1억 9,000만원 이상에 거래될 확률은, P(x>19000) = P(z>(19000-16000)/1000) = P(z>3) = 0.00135 = 0.135% 으로 계산할 수 있다. 이러한 확률 정보에 따라, 출력부(132)는 사용자 단말(200)로 해당 부동산 물건에 대해 요청된 1억 9천만원 이상으로 거래될 확률은 0.135%로 낮을 것임을 시계열 모델 분석 기반 예측 정보로서 제공할 수 있다.

따라서, 본 발명의 실시 예에 따른 서버(100)는, 예상 실거래가 뿐만 아니라, 신뢰구간 기반의 정확도 정보를 포함하는 부동산 실거래가의 예측 정보를 보다 구체적이고 정확하게 제공할 수 있는 것이다.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 프로그램으로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 각 서버 또는 기기들에 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

부동산 예상 실거래가 산출 장치의 동작 방법에 있어서,
외부 부동산 정보 데이터베이스로부터 수집된 부동산 관련 데이터를 부동산 물건 모델별로 병합 가공하여, 실거래가 데이터베이스를 구축하는 단계;
상기 실거래가 데이터베이스로부터 사전 설정된 시간 또는 공간 범위에 대응하는 트레이닝 세트를 구성하여, 실거래가 예측을 위한 시계열 추세 예측 학습 모델을 생성하는 단계;
상기 실거래가 데이터베이스로부터 상기 트레이닝 세트와는 분리된 실거래 데이터 기반의 테스트 세트를 구성하여, 상기 시계열 추세 예측 학습 모델의 정확도를 검증하는 단계;
상기 시계열 추세 예측 학습 모델의 정확도 검증 결과에 따라 상기 시계열 추세 예측 학습 모델의 재구성 또는 고정 처리를 수행하는 단계; 및
상기 고정 처리된 시계열 추세 예측 학습 모델을 고정 예측 모델로 설정하고, 사용자 단말의 요청에 대응하는 특징 인스턴스 데이터를 상기 고정 예측 모델에 적용하여 획득되는 부동산 실거래가 예측 정보를 상기 사용자 단말로 제공하는 단계를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제1항에 있어서,
상기 실거래가 데이터베이스를 구축하는 단계는,
상기 외부 부동산 정보 데이터베이스로부터, 동일 부동산 물건에 대응한 실거래가 데이터를 하나의 부동산 물건 모델로 병합하는 프로세스를 수행하는 단계를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제2항에 있어서,
상기 병합된 실거래가 데이터에 지오코딩 정보를 추가하는 단계를 더 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제1항에 있어서,
상기 시계열 추세 예측 학습 모델을 생성하는 단계는,
상기 시계열 추세 예측 학습 모델을 결정 트리(decision tree) 기반의 그래디언트 부스팅(gradient boosting)을 처리하기 위해, 상기 트레이닝 데이터 세트로부터 실거래가 데이터의 특징 정보 인스턴스를 구성하는 단계를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제4항에 있어서,
상기 특징 정보 인스턴스는, 날짜 특징 정보를 포함하고,
상기 날짜 특징 정보는, 상기 실거래가 데이터의 계약년월 또는 계약일의 날짜 정보를 코사인 또는 사인 처리한 날짜 특징 정보 값을 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제4항에 있어서,
상기 특징 정보 인스턴스는, 상기 실거래가 데이터베이스의 단일 실거래가 모델 데이터에 대응하여, 참조된 외부 데이터를 부가한 특징 정보 인스턴스를 포함하고,
상기 외부 데이터를 부가한 특징 정보 인스턴스는 상기 단일 실거래가 모델 데이터에 대응하는 건물의 최고층 정보, 상기 단일 실거래가 모델 데이터에 대응하는 광역지방자치단체 실거래가 평균 정보, 상기 단일 실거래가 모델 데이터에 대응하는된 기초지방자치단체 실거래가 평균 정보 중 적어도 하나를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제4항에 있어서,
상기 특징 정보 인스턴스는,
상기 시계열 추세 예측 학습 모델의 회귀 분석에 이용되도록, 상기 트레이닝 세트와는 시간 또는 공간 범위가 상이하게 설정되는 복수의 특징 정보 인스턴스를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제4항에 있어서,
부동산 실거래가 예측 정보에 포함되는 정확도 정보를 산출하는 단계를 더 포함하고,
상기 정확도 정보는, 예측 대상 부동산 물건의 예상 실거래가에 대응하는 특징 정보 인스턴스를 포함하는 노드들에 포함된 데이터별로 타겟(target) 값으로 설정된, 실거래가 예측 값들의 평균 및 표준편차로부터 산출되는, 신뢰구간 정보를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
제8항에 있어서,
상기 부동산 실거래가 예측 정보는, 상기 신뢰구간 정보에 기초한 예측 대상 부동산 물건의 가격대별 거래 가능성 정보를 포함하는
부동산 예상 실거래가 산출 장치의 동작 방법.
부동산 예상 실거래가 산출 장치에 있어서,
외부 부동산 정보 데이터베이스로부터 수집된 부동산 관련 데이터를 부동산 물건 모델별로 병합 가공하여, 데이터베이스를 구축하는 실거래가 데이터베이스;
상기 실거래가 데이터베이스로부터 사전 설정된 시간 또는 공간 범위에 대응하는 트레이닝 세트를 구성하여, 실거래가 예측을 위한 시계열 추세 예측 학습 모델을 생성하는 시계열 추세 예측 학습 모델 생성부;
상기 실거래가 데이터베이스로부터 상기 트레이닝 세트와는 분리된 실거래 데이터 기반의 테스트 세트를 구성하여, 상기 시계열 추세 예측 학습 모델의 정확도를 검증하는 검증부;
상기 시계열 추세 예측 학습 모델의 정확도 검증 결과에 따라 상기 시계열 추세 예측 학습 모델의 재구성 또는 고정 처리를 수행하는 모델 생성부;
상기 고정 처리된 시계열 추세 예측 학습 모델을 고정 예측 모델로 설정하고, 사용자 단말의 요청에 대응하는 특징 인스턴스 데이터를 상기 고정 예측 모델에 적용하여 부동산 실거래가 예측 정보를 획득하는 예측부; 및
상기 획득된 부동산 실거래가 예측 정보를 상기 사용자 단말로 제공하는 출력부를 포함하는
부동산 예상 실거래가 산출 장치.
제10항에 있어서,
상기 실거래가 데이터베이스는,
상기 외부 부동산 정보 데이터베이스로부터, 동일 부동산 물건에 대응한 실거래가 데이터를 하나의 부동산 물건 모델로 병합하는 모델 기반 실거래가 데이터 병합부를 포함하는
부동산 예상 실거래가 산출 장치.
제11항에 있어서,
상기 모델 기반 실거래가 데이터 병합부는, 상기 병합된 실거래가 데이터에 지오코딩 정보를 추가하는
부동산 예상 실거래가 산출 장치.
제10항에 있어서,
상기 시계열 추세 예측 학습 모델 생성부는,
상기 시계열 추세 예측 학습 모델을 결정 트리(decision tree) 기반의 그래디언트 부스팅(gradient boosting)을 처리하기 위해, 상기 트레이닝 데이터 세트로부터 실거래가 데이터의 특징 정보 인스턴스를 구성하는
부동산 예상 실거래가 산출 장치.
제13항에 있어서,
상기 특징 정보 인스턴스는, 날짜 특징 정보를 포함하고,
상기 날짜 특징 정보는, 상기 실거래가 데이터의 계약년월 또는 계약일의 날짜 정보를 코사인 또는 사인 처리한 날짜 특징 정보 값을 포함하는
부동산 예상 실거래가 산출 장치.
제13항에 있어서,
상기 특징 정보 인스턴스는, 상기 실거래가 데이터베이스의 단일 실거래가 모델 데이터에 대응하여, 참조된 외부 데이터를 부가한 특징 정보 인스턴스를 포함하고,
상기 외부 데이터를 부가한 특징 정보 인스턴스는 상기 단일 실거래가 모델 데이터에 대응하는 건물의 최고층 정보, 상기 단일 실거래가 모델 데이터에 대응하는 광역지방자치단체 실거래가 평균 정보, 상기 단일 실거래가 모델 데이터에 대응하는된 기초지방자치단체 실거래가 평균 정보 중 적어도 하나를 포함하는
부동산 예상 실거래가 산출 장치.
제13항에 있어서,
상기 특징 정보 인스턴스는,
상기 시계열 추세 예측 학습 모델의 회귀 분석에 이용되도록, 상기 트레이닝 세트와는 시간 또는 공간 범위가 상이하게 설정되는 복수의 특징 정보 인스턴스를 포함하는
부동산 예상 실거래가 산출 장치.
제13항에 있어서,
상기 출력부는 부동산 실거래가 예측 정보에 포함되는 정확도 정보를 산출하고,
상기 정확도 정보는, 예측 대상 부동산 물건의 예상 실거래가에 대응하는 특징 정보 인스턴스를 포함하는 노드들에 포함된 데이터별로 타겟(target) 값으로 설정된, 실거래가 예측 값들의 평균 및 표준편차로부터 산출되는, 신뢰구간 정보를 포함하는
부동산 예상 실거래가 산출 장치.
제17항에 있어서,
상기 부동산 실거래가 예측 정보는, 상기 신뢰구간 정보에 기초한 예측 대상 부동산 물건의 가격대별 거래 가능성 정보를 포함하는
부동산 예상 실거래가 산출 장치.
제1항 내지 제9항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 기록 매체.