KR20150137771A - 데이터 분석 방법 및 이를 이용하는 장치 - Google Patents

데이터 분석 방법 및 이를 이용하는 장치 Download PDF

Info

Publication number
KR20150137771A
KR20150137771A KR1020140066236A KR20140066236A KR20150137771A KR 20150137771 A KR20150137771 A KR 20150137771A KR 1020140066236 A KR1020140066236 A KR 1020140066236A KR 20140066236 A KR20140066236 A KR 20140066236A KR 20150137771 A KR20150137771 A KR 20150137771A
Authority
KR
South Korea
Prior art keywords
real estate
data
analysis
information
theme
Prior art date
Application number
KR1020140066236A
Other languages
English (en)
Other versions
KR101636953B1 (ko
Inventor
조성환
Original Assignee
조성환
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조성환 filed Critical 조성환
Priority to KR1020140066236A priority Critical patent/KR101636953B1/ko
Publication of KR20150137771A publication Critical patent/KR20150137771A/ko
Application granted granted Critical
Publication of KR101636953B1 publication Critical patent/KR101636953B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터 분석 방법 및 이를 이용하는 장치가 개시된다. 본 발명의 일 측면에 따른 데이터 분석 장치는, 부동산정보검색 데이터를 저장하는 부동산 정보조회 데이터베이스, 상기 부동산정보검색 데이터를 테마별 분석 및 시계열적 분석에 따라 유기적으로 검토하고, 부동산 검색 정보와 부동산 실거래 정보 간의 연관관계를 도출하는 데이터 분석부, 및 상기 데이터 분석부에 의해 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 가시화 관리부를 포함한다.

Description

데이터 분석 방법 및 이를 이용하는 장치{METHOD FOR ANALYZING DATA AND APPARATUS USING THE METHOD}
본 발명은 데이터 분석에 관한 것으로, 더욱 상세하게는 부동산 관련 빅데이터를 분석하는 방법 및 이를 이용하는 장치에 관한 것이다.
최근 인터넷의 보급과 트래픽 증가에 따른 부산물로서 빅데이터는 수많은 행위 패턴을 생성하고 있다. 빅데이터는 데이터의 생성 양ㆍ주기ㆍ형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집ㆍ저장ㆍ검색ㆍ분석이 어려운 방대한 데이터를 말한다. 빅데이터는 각종 센서와 인터넷의 발달로 데이터가 늘어나면서 나타났다. 컴퓨터 및 처리기술이 발달함에 따라 디지털 환경에서 생성되는 빅데이터와 이 데이터를 기반으로 분석할 경우 질병이나 사회현상의 변화에 관한 새로운 시각이나 법칙을 발견할 가능성이 커졌다.
빅데이터는 초대용량의 데이터 양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻에서 3V라고도 불리며, 여기에 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 한다. 빅데이터에서 가치(value)가 중요 특징으로 등장한 것은 엄청난 규모뿐만 아니라 빅데이터의 대부분은 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변함에 따라 그 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서 가치(value) 창출의 중요성이 강조되었기 때문이다.
실제로, 데이터의 패턴 분석을 통하여 미래를 예측하고자 하는 노력들이 하나씩 결실을 맺고 있는데, 구글의 독감예측 시스템이 가장 대표적인 경우이다.
구글의 독감예측 시스템은 검색어 트렌드를 심도 있게 분석해 실생활에서 일어나는 현상을 정확히 파악할 수 있는 모델을 개발하고자 시작된 프로젝트로서, 구글은 시스템의 정확도를 높이기 위해 개별 검색어 수천억 개를 분석해 '감기'와 관련된 45개의 단어들을 찾아내어 이를 분석함으로써 독감의 유행 수준을 예측하는 시스템을 개발하였다. 구글은 실제 분석 결과, 구글의 검색어를 통한 예측은 미 질병관리본부(CDC)의 통계보다 2주 정도 먼저 발생 징후를 포착할 수 있다는 결과를 발표하였다.
이렇듯 빅데이터의 패턴 분석을 통하여 미래를 예측하는 것은 그 분석 분야에 제한이 없으며 다양한 개발 가능성을 가지고 있어 이에 대한 보다 적극적인 관심이 필요하다 할 것이다.
상술한 문제점을 극복하기 위한 본 발명의 목적은 부동산 관련 데이터를 분석하는 방법을 제공하는 데 있다.
본 발명의 다른 목적은 상기 방법을 이용하는 데이터 분석 장치를 제공하는 데 있다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 데이터 분석 장치는, 부동산정보검색 데이터를 저장하는 부동산 정보조회 데이터베이스, 상기 부동산정보검색 데이터에 대한 테마별 분석 및 시계열적 분석에 기반하여 부동산 시장의 파동을 파악하고, 부동산 검색 정보와 부동산 실거래 정보 간의 연관관계를 도출하는 데이터 분석부, 및 상기 데이터 분석부에 의해 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 가시화 관리부를 포함한다.
상기 부동산 정보조회 데이터베이스는, 부동산 매매 계약 및 부동산 임대 계약을 포함하는 부동산 실거래 정보를 추가로 저장한다.
상기 테마별 분석은, 지역별 동향 분석, 사용자별 동향 분석, 및 부동산간 네트워크 분석 중 적어도 하나를 포함한다.
상기 데이터 분석부는, 생존 기간 예측 알고리즘을 사용해 상기 부동산 검색 정보와 부동산 실거래 정보 간의 시간적 연관관계를 도출하는 것을 특징으로 한다.
상기 데이터 분석부는, 부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출하는 것을 특징으로 한다.
상기 데이터 분석부는, 지역별 동향 분석을 통해 부동산 데이터 검색이 집중되는 핫-스팟 지역을 도출하여 제공할 수 있다.
상기 부동산 시장의 파동은, 사용자의 부동산 정보 조회에 따른 펄스 주기 및 해당 지역에 집중되는 조회량에 따른 펄스 세기를 포함한다.
또한, 상기 부동산정보검색 데이터는 주기적으로 업데이트되어 저장되는 것을 특징으로 한다.
상기 가시화 관리부는, 지역별 시계열 동향을 나타내는 스타 플롯, 사용자 열람, 매매, 계약, 임대 계약 간의 관계를 나타내는 평행좌표계 플롯, 사용자별 접속조회 패턴을 반영하는 이분 그래프 중 적어도 하나를 활용해 분석된 데이터를 가시화한다.
본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 데이터 분석 방법은, 적어도 하나의 부동산 조회 사이트로부터 부동산정보검색 데이터를 수집하는 단계, 수집된 부동산정보검색 데이터를 테마별 및 시계열적으로 분석하는 단계, 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 단계, 및 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계를 포함한다.
상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는, 부동산 검색 정보와 부동산 실거래 정보 간의 연관관계를 도출하는 단계를 포함한다.
상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는, 부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출하는 단계를 포함한다.
상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는, 부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출하는 단계를 포함한다.
상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는, 지역별 동향 분석을 통해 부동산 데이터 검색이 집중되는 핫-스팟 지역을 도출하여 제공하는 단계를 포함한다.
상기 데이터 분석 방법은, 상기 부동산정보검색 데이터는 주기적으로 업데이트하여 저장하는 단계를 더 포함할 수 있다.
상기 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 단계는, 사용자 열람, 매매 계약, 임대 계약 간의 관계를 나타내는 평행좌표계 플롯, 지역별 시계열 동향을 나타내는 스타 플롯, 및 사용자별 접속조회 패턴을 반영하는 이분 그래프 중 적어도 하나를 활용해 분석 결과를 가시화하는 단계를 포함한다.
본 발명에 따른 데이터 분석 장치 및 방법에 따르면, 정부의 부동산 이슈에 대처할 수 있는 시간 확보 및 부동산 정책 마련에 필요한 분석 결과를 제공할 수 있다.
또한, 비정상적인 패턴을 보이는 이상 거래 상황이 예상되는 지역을 탐색하여, 기획 부동산 등 비정상적인 거래로 인한 피해를 방지할 수 있다.
뿐만 아니라, 지역별 클러스터링을 통하여 국민에게 비정상적인 부동산 거래 관련 위험 지수를 제공할 수 있다.
도 1은 본 발명에 따른 데이터 분석 장치의 블록도이다.
도 2는 본 발명에 따른 데이터 분석 방법을 활용한 빈도 분석의 일 실시예를 나타낸 도면이다.
도 3a 및 도 3b는 본 발명에 따른 데이터 분석 방법을 활용한 생존 분석의 일 실시예를 나타낸 도면이다.
도 4는 본 발명에 따른 생존 기간 예측 알고리즘을 사용한 생존 확률 그래프를 나타낸 도면이다.
도 5는 본 발명에 따른 데이터 분석을 통해 표현되는 지역별 동향의 일 실시예를 나타낸 도면이다.
도 6는 본 발명에 따른 데이터 분석을 통해 표현되는 사용자별 동향의 일 실시예를 나타낸 도면이다.
도 7은 본 발명에 따른 데이터 분석을 통해 표현되는 부동산간 네트워크 생성의 일 실시예를 나타낸 도면이다.
도 8는 본 발명에 따른 데이터 분석을 통해 표현되는 핫-스팟의 일 실시예를 나타낸 도면이다.
도 9은 본 발명에 따른 데이터 분석을 통해 표현되는 거리 대비 부동산의 공간자기상관 그래프를 나타낸 도면이다.
도 10은 본 발명에 따른 데이터 분석 방법의 동작 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명은, 부동산 정보제공 사이트로부터 부동산 열람데이터를 수집하여 사용자 조회의 간격(시간)과 세기(공간) 변화, 즉, 펄스(파동 및 맥박)을 분석한다. 이를 통해, 부동산 관련 위기 시점에 대비한 대책 마련을 위한 시간을 확보하고 앞서가는 부동산 정책을 마련할 수 있다.
부동산 시장의 펄스 주기는 사용자의 부동산 정보 클릭 주기로 나타나며, 부동산 시장의 펄스 세기는 단기간 동안 특정 지역에 집중된 조회량과 매칭되는 특성을 보인다. 부동산 정보제공 사이트 상의 조회 패턴은 부동산 시장의 상태를 반영하는 징후이며, 부동산 조회 빅데이터는 부동산 시장을 예측할 수 있는 확실한 지표가 될 수 있다.
본 발명에서는 비모수 분석 방법을 사용해 트렌드와 트렌드가 아닌 데이터를 구분한다. 비모수 분석이란 자료의 분포가 정규분포와 많이 다르게 나타나면서 자료의 수가 적은 경우에 사용되는 기법으로, 통계 분석에 많이 사용되는 기법들 중 하나이다.
도 1은 본 발명에 따른 데이터 분석 장치의 블록도이다.
이하 설명하는 본 발명에 따른 구성요소들은 물리적인 구분이 아니라 기능적인 구분에 의해서 정의되는 구성요소들로서 각각이 수행하는 기능들에 의해서 정의될 수 있다. 각각의 구성요소들은 하드웨어 및/또는 각각의 기능을 수행하는 프로그램 코드 및 프로세싱 유닛으로 구현될 수 있을 것이며, 두 개 이상의 구성요소의 기능이 하나의 구성요소에 포함되어 구현될 수도 있을 것이다. 따라서, 이하의 실시예에서 구성요소에 부여되는 명칭은 각각의 구성요소를 물리적으로 구분하기 위한 것이 아니라 각각의 구성요소가 수행하는 대표적인 기능을 암시하기 위해서 부여된 것이며, 구성요소의 명칭에 의해서 본 발명의 기술적 사상이 한정되지 않는 것임에 유의하여야 한다.
본 발명에 따른 데이터 분석 장치는 부동산 정보조회 데이터베이스(100), 데이터 분석부(200), 가시화 관리부(300), 사용자 인터페이스부(400)를 포함하여 구성될 수 있다.
부동산 정보조회 데이터베이스(100)는 다양한 경로를 통해 수집한 방대한 양의 부동산 정보검색 데이터를 저장한다. 부동산 정보조회 데이터베이스(100)는 추가로 부동산 실거래 정보를 저장할 수 있다. 하지만, 부동산 실거래 정보는 별도의 데이터베이스로 구축되어 부동산 정보조회 데이터베이스(100)와는 별개의 데이터베이스로 구축될 수도 있다.
본 발명에 따른 부동산 정보검색 데이터는 부동산 정보제공 사이트를 통해 수집 가능한데, 여기서 부동산 정보제공 사이트는 공공 부동산 정보제공 사이트 및 민간 부동산 정보제공 사이트를 포함할 수 있다.
또한, 본 발명에 따른 부동산 실거래 정보는 국토교통부가 제공하는 실거래 조회 사이트, 각 지방자치단체 등에서 제공하는 부동산 포털 사이트 등을 통해 수집할 수 있다.
부동산 정보는 부동산 고유번호, 해당 부동산의 위도 및 경도, 용도지구, 용도지역, 토지이용, 지목, 지가 등을 포함한다.
부동산 실거래 정보는 매매계약 정보 및 임대계약 정보를 포함하는데, 매매계약 정보는 매매의 고유번호, 거래일자, 면적, 매매가격을 포함하고, 임대계약 정보는 임대계약의 고유번호, 계약일자, 면적, 보증금, 월세 등의 정보를 포함할 수 있다.
본 발명에 따른 부동산정보 데이터베이스(100)에 저장되는 부동산 조회 정보 및 부동산 실거래 정보는 일정한 주기로 업데이트된다. 본 발명에서는 이를 위해 설정된 시간에 주기적으로 네트워크를 통해 각 사이트에 접속하여 데이터를 수집하는 데이터 수집부(미도시)를 추가로 포함할 수 있다.
본 발명에 따른 데이터 분석부(200)는, 부동산정보검색 데이터에 대한 테마별 분석 및 시계열적 분석에 기반하여 부동산 시장의 파동을 파악하고, 부동산 검색 정보와 부동산 실거래 정보 간의 연관관계를 도출한다. 본 발명에 따른 테마별 분석은, 지역별 동향 분석, 사용자별 동향 분석, 및 부동산간 네트워크 분석 중 적어도 하나를 포함할 수 있다.
여기서, 부동산 시장의 파동은, 사용자의 부동산 정보 조회에 따른 펄스 주기 및 해당 지역에 집중되는 조회량에 따른 펄스 세기를 포함한다.
본 발명에 따른 데이터 분석부(200)는 또한, 생존 기간 예측 알고리즘을 사용해 상기 부동산 검색 정보와 부동산 실거래 정보 간의 시간적 연관관계를 도출하고, 부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출한다.
또한 데이터 분석부(200)는, 지역별 동향 분석을 통해 부동산 데이터 검색이 집중되는 핫-스팟 지역을 도출하여 제공한다.
본 발명에 따른 가시화 관리부(300)는 데이터 분석부(200)에 의해 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 역할을 담당한다.
구체적으로 가시화 관리부(300)는, 지역별 시계열 동향을 나타내는 스타 플롯, 사용자 열람, 매매, 계약, 임대 계약 간의 관계를 나타내는 평행좌표계 플롯, 사용자별 접속조회 패턴을 반영하는 이분 그래프 중 적어도 하나를 활용해 분석된 데이터를 가시화한다.
사용자 인터페이스부(400)는 본 발명에 따른 데이터 분석 장치가 제공하는 다양한 데이터를 보고 사용자가 선택하는 명령 또는 입력을 수신하여 데이터 분석부(200)로 제공한다.
도 2는 본 발명에 따른 데이터 분석 방법을 활용한 빈도 분석의 일 실시예이다.
본 발명에 따른 데이터 분석 방법은 테마별 다양한 분석 방법을 제안하는데, 지역별 동향 분석, 사용자별 동향 분석, 부동산간 네트워크 분석 등이 그것이며, 본 발명에 따른 각 테마별 분석은 시계열적인 분석을 포함하거나 상호 연계된다. 도 2에 나타낸 빈도 분석은 지역별 동향 분석의 일 실시예로 볼 수 있다.
다시 말해, 본 실시예에서의 빈도 분석은 부동산 정보 조회 빈도, 매매 계약 빈도, 임대 계약 빈도를 분석하여 다양한 형태의 가시화 방법을 통해 사용자에게 유용한 데이터를 제공한다.
도 2에 도시된 가시화 방법의 경우, X 축은 부동산의 필지 고유번호를, Y 축은 주 단위의 시간을 나타내며, 이러한 기준 축을 중심으로 각 섹터는 해당 부동산의 조회 빈도, 매매 계약이 발생한 빈도, 임대 계약이 발생한 빈도를 각기 다른 색생의 원으로 나타내고 있다. 도 2의 실시예에서는 해당 이벤트의 빈도가 높을수록 원의 지름이 커지도록 표현한다.
이러한 빈도 분석에 따른 표현의 다른 예로서, 달력 형태에 각 날짜 혹은 각 주차에 각 이벤트의 빈도 수를 색상의 농도 등을 활용하여 표시하는 방법이 사용될 수도 있다.
도 3a 및 도 3b는 본 발명에 따른 데이터 분석 방법을 활용한 생존 분석의 일 실시예로서, 도 3a는 매매 계약의 생존 그래프이고 도 3b는 임대 계약의 생존 그래프이다.
도 3a 및 도 3b에 나타낸 본 발명에 따른 생존 그래프는, 특정 부동산에 대한 정보 조회 빈도가 최고에 달한 시점을 기점으로 하여 매매 혹은 임대(전월세) 계약이 이루어지기까지 생존한 그래프를 나타낸다.
생존 분석 기법에서, 어떤 시점부터 정의된 특정 사건의 발생시점까지 관측된 시간을 생존시간이라 칭하는데, 본 명세서에서는 공공 및 민간 사이트에서의 부동산 정보 검색이 피크에 도달한 시점으로부터 이벤트(실질적 매매 계약 또는, 전월세 임대 계약) 발생까지의 기간이 생존 기간으로 정의될 수 있다.
도 3a 및 도 3b의 그래프에서 가로 축은 주 단위로 시간을 나타내며, 세로 축의 각 선은 다수의 부동산에 번호를 부과하여 열거식으로 나타내고 있다.
도 3a 및 도 3b에 도시된 생존 그래프는 대상 부동산 그룹별로 최고점 이후 대부분 10째주 이내에 이벤트가 발생함을 보여준다.
도 4는 본 발명에 따른 생존 기간 예측 알고리즘을 사용한 생존 확률 그래프를 나타낸다.
본 발명에서는 생존 기간 예측을 위해 카플란 마이어(Kaplan-Meier) 예측 알고리즘을 사용하며, Kaplan-Meier 예측 알고리즘은 아래 수학식 1과 같이 표현될 수 있다.
Figure pat00001
여기서,
Figure pat00002
는 생존 확률의 예측치이고,
Figure pat00003
는 시간 바로 이전까지의 거래 건수를 나타내고,
Figure pat00005
는 손실 개수를 나타낸다.
도 4에서 KM-예측치로 표시된 생존 확률 예측치는 실선으로 나타나 있으며, 실선의 아래, 위로 존재하는 두 개의 점선은 각각 상위 0.95 및 하위 0.95에 대한 예측치를 나타낸다.
도 4의 그래프와 같은 부동산 정보조회 빅데이터를 분석을 통해, 부동산 파동의 최고점은 지역 별로 차이는 있으나 실제 시장에 반영되기 3 ~ 4개월 이전에 해당 지역에 대한 조회 피크가 발생하는 것으로 나타났다. 즉, 본 발명에 다르면 3개월 내지 4개월 이후 발생할 부동산 시장의 징후를 포착할 수 있다.
도 5는 본 발명에 따른 데이터 분석을 통해 표현되는 지역별 동향의 일 실시예를 나타낸다.
도 5를 통해 설명하는 지역별 동향의 일 실시예는 지도 및 스타 플롯(star plot)을 활용해 이벤트 발생을 표현하는 방식을 보여준다.
도 5의 좌측 화면(5a)에서는 부동산 정보 조회를 지역 별로 구분하여 각 주차의 조회 수 크기 변화에 대한 스타 플롯을 생성하여 제공한다. 5a에 도시된 표의 각 칸은 700 여 개의 동을 나타내며, 각 칸에는 각 동에 대한 스타 플롯이 도시되어 있다. 사용자가 특정 동을 선택하는 경우, 도 5a의 하단에 표시된 것과 같이 해당 동에 대한 스타 플롯을 확대하여 디스플레이한다.
도 5의 스타 플롯에서 0 도에서 시작하여 360 도까지 증가하는 각도의 변화는 시간의 흐름, 즉 증가하는 주차를 나타내고 각 주차에서 발생하는 이벤트의 크기가 큰 경우는 스타의 형태가 원주를 향해 더 뻗어나간 형태를 띠도록 표현함으로써 주차별 이벤트의 흐름을 한 눈에 파악할 수 있도록 한다.
도 5의 우측 화면(5b)에서는 기 생성한 스타 플롯을 지도와 매칭하여 표현하고, 사용자의 선택에 따라 해당 동의 스타 플롯을 확대한 모습을 도시한다.
관련하여, 도 5에서 도시하지는 않았으나, 지역별 분석에서는 사용자 열람, 매매 계약, 임대 계약의 상관 관계를 그래프 형태로 나타낼 수 있는데, 예를 들어, 두 관찰 값(정보 조회, 매매 계약)의 클러스터를 생성하여 지도에 표현할 수 있다.
구체적으로, 사용자 선택한 두 관찰 값(정보 조회, 실제 매매 계약)에 의한 클러스터링 및 추세선을 두 관찰 값을 축으로 하는 그래프 상에 나타낼 수 있다. 또한, 이렇게 생성된 생성된 클러스터를 지도와 매핑하여 표현할 수도 있고, 이를 각 주차의 이벤트로 표현할 수도 있다.
뿐만 아니라 본 발명에서는, 사용자 열람, 매매 계약, 임대 계약 간의 관계를 평행좌표계 플롯(PCP)을 활용해 나타낼 수도 있다. 실제 사용자 열람, 매매 계약, 임대 계약 간의 관계를 평행좌표계 플롯(PCP)을 구성해 살펴보면, 사용자 열람 및 매매 계약, 그리고 사용자 열람 및 전월세 계약 간에는 비례 관계가 나타남을 알 수 있다.
도 6는 본 발명에 따른 데이터 분석을 통해 표현되는 사용자별 동향의 일 실시예를 보여준다.
도 6의 실시예에서는 지도와 시간 축에 사용자들의 부동산 조회 경로를 표현하고 있다.
도 6의 지도 상에는 사용자들이 접속하는 IP 주소 분석을 통해 파악한 지역에 위치하는 사용자들을 각기 다른 색깔로 표현하여 나타내고 있으며, 지도와 평형인 면에 대해 수직인 축은 시간 축을 나타낸다.
즉, 도 6에서는 지도와 시간 축에 대해 사용자들의 부동산 조회 경로를 표현하고 있으며, 이를 통해 통해 지역별 펄스의 주기 변화를 감지할 수 있고, 특정 지역에 관심있는 사용자 층과 전역에 걸쳐 관심을 두고 있는 사용자 층을 구분할 수 있다. 또한, 시간 경과에 따른 각 지역의 관심도 흐름을 관찰함으로써 지역별 펄스의 세기 변화를 감지할 수 있다.
도 7은 본 발명에 따른 데이터 분석을 통해 표현되는 부동산간 네트워크 생성의 일 실시예를 보여준다.
도 7은 사용자의 접속조회 패턴을 분석하여 부동산 간의 네트워크를 파악하고, 파악된 부동산 네트워크 분석 결과 허브가 되는 부동산을 강조하여 표시해 주고 있다.
사용자의 정보조회 패턴을 분석하여 이분(BiPartite) 그래프를 생성하고 조회 패턴에 의한 가중치를 각 노드(부동산)에 투영하여 부동산 간의 가중치를 가지는 네트워크를 생성한다. 여기서, 이분 그래프는 그래프의 구성 정점들을 두 부분으로 나누었을 때 각 부분에 속하는 정점들이 모두 인접하지 않는 그래프를 의미한다. 예를 들어, 본 실시예에서는 사용자 A가 조회한 적어도 하나의 부동산 노드, 사용자 B가 조회한 적어도 하나의 부동산 노드를 확정하고, 두 사용자가 조회한 노드들간의 상관관계를 부동산 노드 간의 링크로 표현한다.
도 7에서 링크의 가중치는 링크의 두께로 표현되어 있으며, 노드의 가중치는 노드를 표현하는 점의 크기 및 고유번호의 글자 크기로 표현되어 있다. 본 발명에서는 이에 그치지 않고, 정도(Degree) 분석을 통하여 부동산 허브(Hub)를 도출한다. 본 발명에서 부동산 허브는 사용자 조회의 시작이 되는 부동산으로 다양한 목적의 다수의 사용자들로부터 조회의 중심을 차지하고 있는 부동산을 의미한다.
도 8는 본 발명에 따른 데이터 분석을 통해 표현되는 핫-스팟의 일 실시예를 보여준다.
도 8에 도시된 실시예는 지도 상에 지역별 조회 정도를 색깔로 구분하여 지도 상에 나타내고 있다. 도 8에 도시된 패턴 일견 등고선과도 유사해 보이는데 짙은 색깔로 표시된 지역이 관심이 집중되는 지역을 나타낸다.
도 8에 도시된 바와 같은 핫-스팟 분석을 통해 사용자들은 주기별로 급격하게 관심이 집중되는 지역을 탐색 가능하다.
도 9은 본 발명에 따른 데이터 분석을 통해 표현되는 거리 대비 부동산의 공간자기상관 그래프를 나타낸다.
도 9에 도시된 바와 같은 부동산의 공간 자기상관(AutoCorrelation) 분석을 통해 3km 범위에서 자기상관이 가장 높게 나타남을 알 수 있다. 실제로, 실거래 발생 지역에 해당 거리를 적용하여 Hot-Spot을 분석한 결과 부동산 정보 조회 패턴과 매우 유사하게 나타남을 확인할 수 있었다.
도 10은 본 발명에 따른 데이터 분석 방법의 동작 순서도이다.
도 10에서 설명하는 데이터 분석 방법의 각 단계들이 도 1을 통하여 설명된 본 발명의 데이터 분석 장치의 대응되는 구성요소에서 수행되는 동작으로 이해될 수 있으나, 방법을 구성하는 각 단계들은 각 단계를 정의하는 기능 자체로서 한정되어야 한다. 즉, 각 단계를 수행하는 것으로 예시된 구성요소의 명칭에 의해서 각 단계의 수행주체가 한정되지 않음에 유의하여야 한다.
본 발명에 따른 데이터 분석을 위해서는 우선, 부동산 조회 사이트로부터 부동산 정보 검색 데이터를 수집한다(S1010). 수집된 부동산 정보 검색 데이터는 테마별 분석, 예를 들어, 지역별 동향 분석, 사용자별 동향 분석, 부동산간 네트워크 분석에 제공되는데, 도 10에 도시된 분석 테마는 예시에 지나지 않으며 본 발명에 따른 테마가 본 실시예에서 열거하는 테마로만 한정되지는 않는다.
본 발명에 따른 데이터 분석에서는, 테마별 분석을 통해 1차로 분석된 데이터를 시계열적으로 분석한다(S1030). 도 10의 실시예에서는 테마별 분석과 시계열적 분석이 도시의 편의상 순차적으로 이루어지는 것으로 도시되어 있으나, 두 가지 분석의 순서가 바뀌어도 무방하며 경우에 따라서는 두 가지 분석이 유기적으로 결합되어 사용될 수도 있다.
분석된 데이터는 선택된 테마에 따라 가시화하여 제공되는데, 이때 사용자 열람, 매매 계약, 임대 계약 간의 관계를 나타내는 평행좌표계 플롯, 지역별 시계열 동향을 나타내는 스타 플롯, 및 사용자별 접속조회 패턴을 반영하는 이분 그래프 등이 활용될 수 있다.
이처럼, 테마별 분석과 시계열적 분석을 통해 부동산 시장의 파동을 분석할 수 있으며, 이를 통해 핫-스팟 지역 및 특정 지역 또는 전반적인 부동산 시장의 이상 징후를 도출할 수 있으며(S1050), 부동산 시장의 예측 데이터를 이끌어낼 수 있다(S1060).
상술한 실시예들을 통해 설명한 본 발명에 따르면, 정부의 부동산 이슈에 대처할 수 있는 시간 확보 및 부동산 정책 마련에 필요한 분석 결과를 제공할 수 있다.
또한, 비정상적인 패턴을 보이는 이상 거래 상황이 예상되는 지역을 탐색하여, 기획 부동산 등 비정상적인 거래로 인한 피해를 방지할 수 있다.
뿐만 아니라, 지역별 클러스터링을 통하여 국민에게 비정상적인 부동산 거래 관련 위험 지수를 제공할 수 있다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 부동산 정보조회 데이터베이스 200: 데이터 분석부
300: 가시화 관리부 400: 사용자 인터페이스부

Claims (15)

  1. 부동산정보검색 데이터를 저장하는 부동산 정보조회 데이터베이스;
    상기 부동산정보검색 데이터에 대한 테마별 분석 및 시계열적 분석에 기반하여 부동산 시장의 파동을 파악하고, 부동산 검색 정보와 부동산 실거래 정보 간의 연관관계를 도출하는 데이터 분석부; 및
    상기 데이터 분석부에 의해 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 가시화 관리부를 포함하는, 데이터 분석 장치.
  2. 청구항 1에 있어서,
    상기 부동산 정보조회 데이터베이스는,
    부동산 매매 계약 및 부동산 임대 계약을 포함하는 부동산 실거래 정보를 추가로 저장하는, 데이터 분석 장치.
  3. 청구항 2에 있어서,
    상기 테마별 분석은,
    지역별 동향 분석, 사용자별 동향 분석, 및 부동산간 네트워크 분석 중 적어도 하나를 포함하는, 데이터 분석 장치.
  4. 청구항 1에 있어서,
    상기 데이터 분석부는,
    생존 기간 예측 알고리즘을 사용해 상기 부동산 검색 정보와 부동산 실거래 정보 간의 시간적 연관관계를 도출하는 것을 특징으로 하는, 데이터 분석 장치.
  5. 청구항 3에 있어서,
    상기 데이터 분석부는,
    부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출하는 것을 특징으로 하는, 데이터 분석 장치.
  6. 청구항 3에 있어서,
    상기 데이터 분석부는,
    지역별 동향 분석을 통해 부동산 데이터 검색이 집중되는 핫-스팟 지역을 도출하여 제공하는, 데이터 분석 장치.
  7. 청구항 1에 있어서,
    상기 부동산 시장의 파동은, 사용자의 부동산 정보 조회에 따른 펄스 주기 및 해당 지역에 집중되는 조회량에 따른 펄스 세기를 포함하는, 데이터 분석 장치.
  8. 청구항 7에 있어서,
    상기 가시화 관리부는,
    지역별 시계열 동향을 나타내는 스타 플롯, 사용자 열람, 매매, 계약, 임대 계약 간의 관계를 나타내는 평행좌표계 플롯, 사용자별 접속조회 패턴을 반영하는 이분 그래프 중 적어도 하나를 활용해 분석된 데이터를 가시화하는, 데이터 분석 장치.
  9. 적어도 하나의 부동산 조회 사이트로부터 부동산정보검색 데이터를 수집하는 단계;
    수집된 부동산정보검색 데이터를 테마별 및 시계열적으로 분석하는 단계;
    분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 단계; 및
    테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계를 포함하는, 데이터 분석 방법.
  10. 청구항 9에 있어서,
    상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는,
    부동산 검색 정보와 부동산 실거래 정보 간의 연관관계를 도출하는 단계를 포함하는, 데이터 분석 방법.
  11. 청구항 9에 있어서,
    상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는,
    부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출하는 단계를 포함하는, 데이터 분석 방법.
  12. 청구항 9에 있어서,
    상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는,
    부동산간 네트워크 분석을 통해 복수의 사용자가 조회한 부동산 노드들 간의 연관관계를 분석하여, 사용자 조회의 시작이 되는 부동산 허브를 도출하는 단계를 포함하는, 데이터 분석 방법.
  13. 청구항 9에 있어서,
    상기 테마별 및 시계열적으로 분석된 데이터를 통해 부동산 시장의 파동을 파악하는 단계는,
    지역별 동향 분석을 통해 부동산 데이터 검색이 집중되는 핫-스팟 지역을 도출하여 제공하는 단계를 포함하는, 데이터 분석 방법.
  14. 청구항 9에 있어서,
    상기 부동산정보검색 데이터는 주기적으로 업데이트하여 저장하는 단계를 더 포함하는, 데이터 분석 방법.
  15. 청구항 9에 있어서,
    상기 분석된 데이터를 선택된 테마에 따라 가시화하여 제공하는 단계는,
    사용자 열람, 매매 계약, 임대 계약 간의 관계를 나타내는 평행좌표계 플롯, 지역별 시계열 동향을 나타내는 스타 플롯, 및 사용자별 접속조회 패턴을 반영하는 이분 그래프 중 적어도 하나를 활용해 분석 결과를 가시화하는 단계를 포함하는, 데이터 분석 방법.
KR1020140066236A 2014-05-30 2014-05-30 데이터 분석 방법 및 이를 이용하는 장치 KR101636953B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140066236A KR101636953B1 (ko) 2014-05-30 2014-05-30 데이터 분석 방법 및 이를 이용하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140066236A KR101636953B1 (ko) 2014-05-30 2014-05-30 데이터 분석 방법 및 이를 이용하는 장치

Publications (2)

Publication Number Publication Date
KR20150137771A true KR20150137771A (ko) 2015-12-09
KR101636953B1 KR101636953B1 (ko) 2016-07-07

Family

ID=54873663

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140066236A KR101636953B1 (ko) 2014-05-30 2014-05-30 데이터 분석 방법 및 이를 이용하는 장치

Country Status (1)

Country Link
KR (1) KR101636953B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888010B1 (ko) * 2017-05-26 2018-09-06 (주)씨에이씨컴퍼니 부동산 트렌드 통계 서비스 시스템 및 방법
KR20180101283A (ko) * 2018-07-27 2018-09-12 주식회사 호갱노노 가격 변동량 디스플레이 방법 및 그 장치
KR20190053825A (ko) * 2019-05-10 2019-05-20 주식회사 공감랩 공간 정보를 이용한 주택 가격 추정을 위한 빅데이터 구축 시스템 및 방법
KR20210001167A (ko) * 2019-06-27 2021-01-06 주식회사 호갱노노 데이터 변동량 디스플레이 방법 및 그 장치
KR102375668B1 (ko) * 2021-06-11 2022-03-18 주식회사 사이람 그래프 표현 학습 모델의 생성 방법
CN117539920A (zh) * 2024-01-04 2024-02-09 上海途里信息科技有限公司 基于房产交易多维度数据的数据查询方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102437184B1 (ko) 2020-12-15 2022-08-26 (주)아이소프트 대용량 분석 데이터의 다차원 시각화 시스템 및 이를 이용한 대용량 분석 데이터의 다차원 시각화 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100114676A (ko) * 2009-04-16 2010-10-26 엔에이치엔(주) 주파수 변환 기법을 이용한 시계열 클러스터링 시스템 및 방법
KR20140053444A (ko) * 2012-10-25 2014-05-08 한국과학기술정보연구원 시장규모예측장치, 시장규모예측방법 및 시장규모를 예측하는 프로그램을 저장하는 저장매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100114676A (ko) * 2009-04-16 2010-10-26 엔에이치엔(주) 주파수 변환 기법을 이용한 시계열 클러스터링 시스템 및 방법
KR20140053444A (ko) * 2012-10-25 2014-05-08 한국과학기술정보연구원 시장규모예측장치, 시장규모예측방법 및 시장규모를 예측하는 프로그램을 저장하는 저장매체

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101888010B1 (ko) * 2017-05-26 2018-09-06 (주)씨에이씨컴퍼니 부동산 트렌드 통계 서비스 시스템 및 방법
KR20180101283A (ko) * 2018-07-27 2018-09-12 주식회사 호갱노노 가격 변동량 디스플레이 방법 및 그 장치
KR20190053825A (ko) * 2019-05-10 2019-05-20 주식회사 공감랩 공간 정보를 이용한 주택 가격 추정을 위한 빅데이터 구축 시스템 및 방법
KR20210001167A (ko) * 2019-06-27 2021-01-06 주식회사 호갱노노 데이터 변동량 디스플레이 방법 및 그 장치
KR20220081954A (ko) * 2019-06-27 2022-06-16 주식회사 호갱노노 데이터 변동량 디스플레이 방법 및 그 장치
KR102375668B1 (ko) * 2021-06-11 2022-03-18 주식회사 사이람 그래프 표현 학습 모델의 생성 방법
CN117539920A (zh) * 2024-01-04 2024-02-09 上海途里信息科技有限公司 基于房产交易多维度数据的数据查询方法及系统
CN117539920B (zh) * 2024-01-04 2024-04-05 上海途里信息科技有限公司 基于房产交易多维度数据的数据查询方法及系统

Also Published As

Publication number Publication date
KR101636953B1 (ko) 2016-07-07

Similar Documents

Publication Publication Date Title
KR101636953B1 (ko) 데이터 분석 방법 및 이를 이용하는 장치
Hu et al. Understanding the topic evolution of scientific literatures like an evolving city: Using Google Word2Vec model and spatial autocorrelation analysis
Maciejewski et al. A visual analytics approach to understanding spatiotemporal hotspots
Byrd et al. Mining Twitter data for influenza detection and surveillance
Bornmann et al. The detection of “hot regions” in the geography of science—A visualization approach by using density maps
Wang et al. Modeling spatially non-stationary land use/cover change in the lower Connecticut River Basin by combining geographically weighted logistic regression and the CA-Markov model
McArdle et al. Classifying pedestrian movement behaviour from GPS trajectories using visualization and clustering
JP6911603B2 (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
US20110289077A1 (en) Preference stack
JP2021174560A (ja) 経済状態の予測方法、経済状態予測モデルの構築方法及び対応装置
He et al. Analyzing the structure of earthquake network by k-core decomposition
US20140222538A1 (en) Customer experience management for an organization
Chen et al. User behavior map: Visual exploration for cyber security session data
EP3005076A2 (en) Location awareness using local semantic scoring
Mahmud et al. A human mobility data driven hybrid GNN+ RNN based model for epidemic prediction
McArdle et al. Interpreting map usage patterns using geovisual analytics and spatio-temporal clustering
Souza et al. Exploratory spatial analysis of housing prices obtained from web scraping technique
CN107801418B (zh) 利用地图检索记录的流动人口推算装置及方法
CN115036040A (zh) 融合发热人数和人口背景数据的流行病疫情时空预警方法
Gómez-Sanz et al. Landscape assessment and monitoring
US20170345085A1 (en) Item location management using distributed sensors
Atzmueller et al. Exploratory subgroup analytics on ubiquitous data
Giurgola et al. Mapping urban socioeconomic inequalities in developing countries through Facebook advertising data
Hu et al. Framework for prioritizing geospatial data processing tasks during extreme weather events
Williams et al. SitaVis—Interactive situation awareness visualization of large datasets

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right