KR101623739B1 - 관심지점 데이터베이스 구축 방법 및 그 시스템 - Google Patents

관심지점 데이터베이스 구축 방법 및 그 시스템 Download PDF

Info

Publication number
KR101623739B1
KR101623739B1 KR1020150025964A KR20150025964A KR101623739B1 KR 101623739 B1 KR101623739 B1 KR 101623739B1 KR 1020150025964 A KR1020150025964 A KR 1020150025964A KR 20150025964 A KR20150025964 A KR 20150025964A KR 101623739 B1 KR101623739 B1 KR 101623739B1
Authority
KR
South Korea
Prior art keywords
interest
point
candidate
data
database
Prior art date
Application number
KR1020150025964A
Other languages
English (en)
Inventor
신상림
Original Assignee
키위플 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 키위플 주식회사 filed Critical 키위플 주식회사
Priority to KR1020150025964A priority Critical patent/KR101623739B1/ko
Application granted granted Critical
Publication of KR101623739B1 publication Critical patent/KR101623739B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • G06F17/3087
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • G06F17/2755
    • G06F17/30896

Abstract

웹 분석을 통해 관심지점을 생성 및 검증하여 관심지점 데이터베이스를 구축할 수 있는 관심지점 데이터베이스 구축 방법 및 그 시스템이 개시된다. 관심지점 데이터베이스 구축 시스템은 관심지점 후보 추출 장치 및 관심지점 검증 장치를 포함한다. 관심지점 후보 추출 장치는 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터를 추출하여 관심지점 후보 데이터베이스에 등록한다. 관심지점 검증 장치는 일반 웹 문서에 포함된 관심지점 데이터를 근거로 관심지점 후보 데이터베이스에 등록된 관심지점 후보 데이터를 검증하여 관심지점 데이터베이스를 업데이트한다. 이에 따라, 특정 종류의 웹 문서는 항상 관심지점을 포함한다는 사실을 이용하여 웹 분석을 통해 새로운 관심지점 후보 데이터를 자동 추출하여 검증하고 관심지점 데이터를 업데이트할 수 있다.

Description

관심지점 데이터베이스 구축 방법 및 그 시스템{METHOD FOR GENERATING A POINT OF INTEREST DATABASE AND SYSTEM FOR PERFORMING THE METHOD}
본 발명은 관심지점 데이터베이스 구축 방법 및 그 시스템에 관한 것으로, 보다 상세하게는 웹 분석을 통해 관심지점을 생성 및 검증하여 관심지점 데이터베이스를 구축할 수 있는 관심지점 데이터베이스 구축 방법 및 그 시스템에 관한 것이다.
일반적으로 위치기반 서비스는 관심지점(Point of Interest; POI)을 기반으로 지도상의 각 지역의 정보를 수집하여 위치기반 서비스와 연계하여 다양한 정보를 제공하고 있다. 사용자 단말에 제공되는 POI 정보는 위치정보, 전화번호, 주소정보, 사진이미지 등을 포함한다.
이러한 관심지점은 주요 시설물을 좌표로서 전자 수치 지도에 표시하는 데이터이다. 예를 들어, 주요 시설물은 역, 공항, 터미널 및 호텔 등일 수 있다. 표시되는 데이터는 목적지 검색에 사용되는 검색 데이터 및 바탕 화면에 표시만 되는 바탕 데이터로 구분될 수 있다. 목적지를 검색할 때, 사용자가 목적지에 대한 정보, 예를 들어 목적지의 주소, 전화번호 또는 정확한 명칭을 알고 있는 경우, 사용자는 자신이 알고 있는 데이터를 함으로써 목적지를 검색할 수 있다. 그러나 목적지에 대한 정확한 정보를 갖고 있지 않을 때에는 단계에 따라 단계적으로 최종 목적지를 검색할 수 있다.
최근 인터넷의 발달에 따라 블로그 및 인터넷 게시판 등의 서비스가 활성화되면서, 일상의 신변잡기에 관한 가벼운 대화에서부터 정치 및 사회적 이슈에 관한 진지한 토론에 이르기까지, 다양한 계층의 사람들에 의해 다양한 평가와 의견, 아이디어가 시시각각으로 새롭게 생성 및 제공되고 있다. 또한 인터넷의 발달로 블로그와 카페 그리고 다양한 게시판의 이야기들이 기존 언론매체와 대등하게 공유되고 있다.
이러한 인터넷 매체의 특성으로 인해 많은 사용자가 음식점, 호텔, 여행지 등의 정보를 인터넷을 통해 획득하고 있고, 서비스를 제공하는 업체들도 인터넷을 통한 홍보를 강화하고 있는 추세이다. 그러나 인터넷 매체는 시간에 제한 받지 않고 제작되어 유통되며 누구나 정보를 생산 및 배포할 수 있기 때문에, 특정 서비스를 제공하는 업체와 관련된 정보를 대량으로 수집하고 분석하기에는 시간과 노력 등의 비용이 많이 발생하는 문제가 있다.
더욱이 데이터 수집 및 분석 서비스가 제공되어야 할 상점의 수가 많아질 경우에는 해당 작업을 사람이 직접 수행하기는 불가능에 가깝고, 처리속도 또한 매우 느린 단점이 있다. 특히 데이터 분석 및 필터링에 따른 실효적인 데이터 제공을 위해서는 사람이 직접 수행하는 부분에서 통일성을 가지기 어렵고 그에 따라 수집 및 분석된 정보가 일관성을 가지기 어려운 문제도 있다.
즉, 관심지점 데이터베이스를 관리하는 데 있어서 새로운 관심지점을 조사하고 검증하기 위해 상당한 비용이 소요된다.
한국공개특허 제2003-0042135호(명칭: 온라인 게시물 수집 시스템 및 그 방법)(2003. 05. 28.자 공개) 한국공개특허 제2004-0068767호(명칭: 유무선망을 통한 POI 정보 및 지도정보의 업데이트 시스템 및 방법)(2004. 08. 02. 자 공개) 한국등록특허 제10-1138751호(명칭: 지역정보 추출을 활용한 웹 정보 가공 장치 및 방법)(2012. 04. 16. 자 등록)
이에 본 발명의 기술적 과제는 이러한 점에 착안한 것으로, 본 발명의 목적은 웹 분석을 통해 새로운 관심지점을 자동으로 추출하고 검증하여 관심지점 데이터베이스를 구축할 수 있는 관심지점 데이터베이스 구축 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기한 관심지점 데이터베이스 구축 방법을 수행하는 시스템을 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위하여 일실시예에 따른 관심지점 데이터베이스 구축 방법은, (i) 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터를 추출하여 관심지점 후보 데이터베이스에 등록하는 단계; 및 (ii) 일반 웹 문서에 포함된 관심지점 데이터를 근거로 상기 관심지점 후보 데이터베이스에 등록된 관심지점 후보 데이터를 검증하여 관심지점 데이터베이스를 업데이트하는 단계를 포함한다.
일실시예에서, (i-1) 특정 종류의 웹 문서를 수집하는 단계; (i-2) 수집된 웹 문서에서 형태소를 분석하는 단계; (i-3) 분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하는 단계; 및 (i-4) 추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하는 단계를 포함할 수 있다.
일실시예에서, 상기 추출된 관심지점 후보 데이터를 상기 관심지점 후보 데이터베이스에 업데이트하는 단계에서, 날짜는 현재 날짜로 갱신하고, 기준치는 0으로 초기화할 수 있다.
일실시예에서, 상기 특정 종류의 웹 문서는 소셜커머스, 공연정보 및 구인 사이트 중 어느 하나를 포함할 수 있다.
일실시예에서, 단계(ii)는, (ii-1) 일반 웹 문서를 수집하는 단계; (ii-2) 수집된 웹 문서에서 형태소를 분석하는 단계; (ii-3) 분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하는 단계; (ii-4) 추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하는 단계; (ii-5) 상기 관심지점 후보 데이터베이스에 존재하는 POI가 문서에 존재하는지의 여부를 체크하는 단계; (ii-6) 상기 관심지점 후보 데이터베이스에 존재하는 POI가 문서에 존재하는 것으로 체크되면, 날짜를 해당 날짜로 업데이트하고 기준치를 1 증가하는 단계; (ii-7) 기준치가 설정치보다 큰지의 여부를 체크하는 단계; 및 (ii-8) 상기 기준치가 상기 설정치보다 큰 것으로 체크되면 관심지점 후보 데이터를 관심지점 데이터베이스에 추가하는 단계를 포함할 수 있다.
일실시예에서, 상기 추출된 관심지점 후보 데이터를 상기 관심지점 후보 데이터베이스에 업데이트하는 단계에서, 날짜는 현재 날짜로 갱신하고, 기준치는 0으로 초기화할 수 있다.
일실시예에서, 상기 일반 웹 문서는 뉴스, 블로그 및 SNS 중 어느 하나를 포함할 수 있다.
일실시예에서, 상기 일반 웹 문서는 소셜커머스, 공연정보 및 구인 사이트 중 어느 하나를 더 포함할 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위하여 일실시예에 따른 관심지점 데이터베이스 구축 시스템은, 관심지점 후보 추출 장치 및 관심지점 검증 장치를 포함한다. 상기 관심지점 후보 추출 장치는 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터를 추출하여 관심지점 후보 데이터베이스에 등록한다. 상기 관심지점 검증 장치는 일반 웹 문서에 포함된 관심지점 데이터를 근거로 상기 관심지점 후보 데이터베이스에 등록된 관심지점 후보 데이터를 검증하여 관심지점 데이터베이스를 업데이트한다.
일실시예에서, 관심지점 데이터베이스 구축 시스템은 관심지점 데이터가 포함된 특정 종류의 웹 문서 및 일반 웹 문서를 수집하는 웹 문서 수집부를 더 포함할 수 있다.
일실시예에서, 상기 관심지점 후보 추출 장치는, 수집된 특정 종류의 웹 문서에서 형태소를 분석하고, 분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하고, 추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트할 수 있다.
일실시예에서, 상기 관심지점 검증 장치는, 수집된 일반 웹 문서에서 형태소를 분석하고, 분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하고, 추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하고, 상기 관심지점 후보 데이터베이스에 존재하는 POI가 문서에 존재하는지의 여부를 체크하고, 상기 관심지점 후보 데이터베이스에 존재하는 POI가 문서에 존재하는 것으로 체크되면, 날짜를 해당 날짜로 업데이트하고 기준치를 1 증가시키고, 상기 기준치가 설정치보다 크면 관심지점 후보 데이터를 관심지점 데이터베이스에 추가할 수 있다.
이러한 관심지점 데이터베이스 구축 방법 및 그 시스템에 의하면, 특정 종류의 웹 문서는 항상 관심지점 데이터를 포함한다는 사실을 이용하여 웹 분석을 통해 새로운 관심지점 후보 데이터를 자동 추출하여 검증하고 관심지점 데이터를 업데이트할 수 있다.
도 1은 본 발명의 일실시예에 따른 관심지점 데이터베이스 구축 시스템을 설명하기 위한 블럭도이다.
도 2는 본 발명의 일실시예에 따른 관심지점 데이터베이스 구축 방법을 설명하기 위한 흐름도이다.
도 3은 도 2에 도시된 단계 S100을 설명하기 위한 흐름도이다.
도 4는 도 2에 도시된 단계 S200을 설명하기 위한 흐름도이다.
이하, 첨부한 도면들을 참조하여, 본 발명을 보다 상세하게 설명하고자 한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 일실시예에 따른 관심지점 데이터베이스 구축 시스템(300)을 설명하기 위한 블럭도이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 관심지점 데이터베이스(이하, DB) 구축 시스템(300)은 웹 문서 수집부(310), 웹 문서 DB(320), 관심지점 후보 추출 장치(330) 및 관심지점 검증 장치(340)를 포함하고, 관심지점 후보 DB(400)에 관심지점 후보 데이터를 저장하고, 관심지점 후보 데이터 중 신뢰성이 놓은 관심지점 후보 데이터로 체크되면 해당 관심지점 후보 데이터를 관심지점 DB(500)에 관심지점 데이터로서 저장한다. 본 실시예에서, 웹 문서 수집부(310), 웹 문서 DB(320), 관심지점 후보 추출 장치(330) 및 관심지점 검증 장치(340)가 관심지점 DB 구축 시스템(300)을 정의하는 것을 설명하였으나 이는 설명의 편의를 위해 논리적으로 구분하였을 뿐 하드웨어적으로 구분한 것은 아니다. 또한, 웹 문서 DB(320)는 관심지점 DB 구축 시스템(300)에 포함되는 것을 설명하였으나, 외부에 별도로 구비될 수도 있다. 또한, 관심지점 후보 DB(400) 및 관심지점 DB(500)는 관심지점 DB 구축 시스템(300) 외부에 구비된 것을 설명하였으나, 관심지점 DB 구축 시스템(300) 내부에 구비될 수도 있다.
복수의 웹 사이트(100)는, 예를들어, 네티즌들에 의해 웹 문서가 발생될 수 있는 웹 사이트(신문 사이트, 방송 사이트, 전문 매장 사이트), 게시판, 블로그, 카페, 소셜 네트워크 서비스를 지원하는 사이트 등 다른 사용자간 커뮤니티(community)가 가능한 온라인 채널일 수 있다.
통신망(200)은 유선 인터넷망일 수 있으며, 이동 통신망(CDMA, W-CDMA 등)을 통해 연결되는 무선 데이터망(인터넷망, IMS 등), 위성통신망, 또는 Wi-Fi를 통해 연결되는 인터넷망 등을 포함할 수 있다. 구체적으로, CDMA 망의 경우 PDSN(Packet Data Serving Node)을 통해 데이터망에 접속될 수 있고, W-CDMA 망의 경우 GGSN(Gateway GPRS Support Node)을 통해 데이터망에 접속될 수 있다. 또한 핫 스팟(Hot-Spot) 등의 지역에서는 Wi-Fi 등의 근거리 통신을 통해 인터넷망에 접속될 수 있다.
웹 문서 수집부(310)는 관심지점 데이터가 포함된 특정 종류의 웹 문서 및 일반 웹 문서를 수집하여 웹 문서 DB(320)에 저장한다. 상기 특정 종류의 웹 문서는 소셜커머스, 공연, 구인 사이트 등과 같이 관심지점 데이터를 포함하는 컨텐츠일 수 있다. 상기 일반 웹 문서는 뉴스, 블로그 및 SNS 등과 같이 관심지점 데이터를 포함하는 콘텐츠일 수 있다.
웹 문서 DB(320)는 각 웹 사이트(100)에 게재되는 웹 문서를 저장하여 관리한다. 웹 문서는 뉴스 사이트에 게재된 기사이거나, 카페 및 블로그 등에 개인들이 올린 문서일 수 있다. 이러한 웹 문서들에는 지명이나 매장명과 같은 관심지점, 날짜 등에 대한 의견들이 포함될 수 있다. 또한, 뉴스 기사 또는 게시물의 경우 참가자들 또는 일반인들의 기사에 대한 사실 내용 및 그에 대한 개인적인 평가 내용들이 댓글로 부가되기도 한다.
관심지점 후보 추출 장치(330)는 웹 문서 DB(320)에 저장된 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터를 추출하여 관심지점 후보 DB(400)에 등록한다.
관심지점 검증 장치(340)는 웹 문서 DB(320)에 저장된 일반 웹 문서에 포함된 관심지점 데이터를 근거로 관심지점 후보 DB(400)에 등록된 관심지점 후보 데이터를 검증하여 관심지점 DB(500)를 업데이트한다. 또는, 관심지점 검증 장치(340)는 관심지점 후보 DB(400)에 등록된 관심지점 후보 데이터의 수가 일정 수를 초과하는 것으로 체크되면 해당 관심지점 후보 데이터를 관심지점 데이터로서 관심지점 DB(500)에 업데이트할 수도 있다.
관심지점 DB 구축 시스템(300)는 복수의 웹 문서 DB(320)에 게재된 웹 문서, 예를들어, 신문기사 정보, 소셜커머스 정보, 쿠폰 정보, 카드할인 정보, 공공 정보, 공연 정보, 전시 정보, 블로그 정보 등과 같은 컨텐츠로부터 관심지점 정보를 추출하여 위치정보를 결합하여 관심지점 데이터로서 관심지점 DB(500)에 저장한다.
이상에서 설명된 바와 같이, 본 발명은, 관심지점 DB(500)를 관리하는데 새로운 관심지점을 조사하고 검증하기 위해 상당한 비용이 소요되는 점을 해결하기 위해, 새로운 관심지점 데이터를 자동 추출하고 검증하여 관심지점 DB(500)에 추가함으로써 자동으로 관심지점 DB(500)를 구축할 수 있다. 즉, 특정 종류의 웹 문서들은 항상 관심지점을 포함한다는 점에 착안하여, 소셜커머스, 공연, 구인 사이트 등과 같은 웹 문서들에서 관심지점 데이터를 추출하여 관심지점 후보 DB에 관심지점 후보 데이터로서 등록하고, 뉴스, 블로그 등과 같은 웹 문서들에서 추출되는 관심지점 데이터를 근거로 관심지점 후보 DB에 저장된 관심지점 후보 데이터의 신뢰도를 체크하여 높은 신뢰도를 갖는 관심지점 후보 데이터는 관심지점 DB(500)에 업데이트하므로써 관심지점 DB(500)를 자동적으로 구축할 수 있다.
도 2는 본 발명의 일실시예에 따른 관심지점 DB 구축 방법을 설명하기 위한 흐름도이다.
도 2를 참조하면, 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터가 추출되어 관심지점 후보 DB에 등록된다(단계 S100). 예를들어, 웹 문서 수집부(310, 도 1에 도시됨)에 의해 수집된 웹 문서들은 웹 문서 DB(320, 도 1에 도시됨)에 저장되고, 웹 문서 DB(320)에 저장된 웹 문서에서 관심지점 후보 데이터는 관심지점 후보 추출 장치(330, 도 1에 도시됨)에 의해 추출되어 관심지점 후보 DB(400, 도 1에 도시됨)에 등록될 수 있다.
예를들어, 크롤링하여 만든 관심지점 후보 데이터의 일례는 아래의 표 1과 같이 정리될 수 있다.
[표 1]
Figure 112015018342266-pat00001
표 1을 참조하면, 관심지점은 [강동홈플러스]이고, 위도좌표는 [37.982732]이고, 경도좌표는 [127.3928371]이고, 주소는 [서울 강동구 천호동 42번지]이고, 전화번호는 [02-0193-3333]이고, 출처는 [coupang]이고, 생성일자는 [2015-01-20]이고, 가장 최근 조회된 날짜는 [2015-01-20]이고, 조회 횟수는 [0]이다. 여기서, 조회회수는 관심지점이 생성되어 관심지점 후보 DB에 저장될 때 0으로 초기화된다. 상기한 정보들 중 몇 가지 정보는 수집되지 못할 수도 있다. 그런 경우 여러 소스를 활용하여 보완할 수 있다.
이어, 일반 웹 문서에 포함된 관심지점 데이터를 근거로 상기 관심지점 후보 DB에 등록된 관심지점 후보 데이터가 검증되어 관심지점 DB가 업데이트된다(단계 S200). 예를들어, 웹 문서 DB(320, 도 1에 도시됨)에 저장된 일반 웹 문서에 포함된 관심지점 데이터를 근거로 관심지점 후보 DB(400, 도 1에 도시됨)에 등록된 관심지점 후보 데이터는 관심지점 검증 장치(340, 도 1에 도시됨)에 의해 검증되어 관심지점 DB(500, 도 1에 도시됨)에 업데이트될 수 있다.
예를들어, 관심지점 DB(500)에 저장될 수 있는 관심지점 데이터의 일례는 아래의 표 2과 같이 정리될 수 있다.
[표 2]
Figure 112015018342266-pat00002
표 2를 참조하면, 관심지점은 [강동홈플러스]이고, 위도좌표는 [37.982732]이고, 경도좌표는 [127.3928371]이고, 주소는 [서울 강동구 천호동 42번지]이고, 전화번호는 [02-0193-3333]이고, 출처는 [coupang]이고, 공식 관심지점 테이블로 옮겨진 날짜는 [2015-01-30]이고, 가장 최근 조회된 날짜는 [2015-01-22]이고, 조회 횟수는 [20]이다.
도 3은 도 2에 도시된 단계 S100을 설명하기 위한 흐름도이다. 특히, 관심지점 후보 데이터를 추출하는 과정이 설명된다.
도 2를 참조하면, 특정 종류의 웹 문서가 수집된다(단계 S102). 본 실시예에서, 상기 특정 종류의 웹 문서는 소셜커머스, 공연정보, 구인 사이트 등일 수 있다.
이어, 수집된 특정 종류의 웹 문서에서 형태소가 분석된다(단계 S104).
이어, 단계 S104에서 분석된 형태소에서 관심지점 데이터가 존재하는지의 여부가 체크된다(단계 S106).
단계 S106에서 관심지점 데이터가 존재하는 것으로 체크되면 해당 관심지점 데이터가 추출되어 관심지점 후보 데이터로 정의된다(단계 S108).
이어, 관심지점 후보 데이터가 관심지점 후보 DB에 업데이트된다(단계 S110). 여기서, 날짜는 현재 날짜로 갱신되고, 기준치는 0으로 초기화된다.
도 4는 도 2에 도시된 단계 S200을 설명하기 위한 흐름도이다. 특히, 관심지점 후보 데이터를 검증하고 이를 관심지점 DB에 추가하는 과정이 설명된다.
도 3을 참조하면, 일반 웹 문서가 수집된다(단계 S202). 본 실시예에서, 일반 웹 문서는 뉴스, 블로그, SNS 등일 수 있다.
이어, 수집된 일반 웹 문서에서 형태소가 분석된다(단계 S204).
이어, 단계 S204에서 분석된 형태소에서 관심지점 데이터가 존재하는지의 여부가 체크된다(단계 S206).
단계 S206에서 관심지점 데이터가 존재하는 것으로 체크되면 해당 관심지점 데이터가 추출되어 관심지점 후보 DB가 업데이트된다(단계 S208).
이어, 관심지점 후보 DB에 존재하는 관심지점 데이터가 형태소 분석된 웹 문서에 존재하는지의 여부가 체크된다(단계 S210).
단계 S210에서 관심지점 후보 DB에 존재하는 관심지점이 문서에 존재하는 것으로 체크되지 않으면 단계 S202로 피드백된다.
단계 S210에서 관심지점 후보 DB에 존재하는 관심지점이 문서에 존재하는 것으로 체크되면 날짜가 해당 날짜로 업데이트되고 기준치가 1 증가된다(단계 S212).
이어, 단계 S212에서 증가된 기준치가 설정치보다 큰지의 여부가 체크된다(단계 S214).
단계 S214에서 기준치가 설정치보다 작거나 같은 것으로 체크되면 단계 S202로 피드백한다.
한편, 단계 S214에서 기준치가 설정치보다 큰 것으로 체크되면 관심지점 후보 데이터가 관심지점 DB에 추가된다(단계 S216).
이상에서 설명된 바와 같이, 새로운 관심지점을 자동으로 추출 및 검증하여 관심지점 DB에 추가함으로써 자동으로 관심지점 DB 구축하기 위해, 특정 종류의 웹 문서는 항상 관심지점을 포함한다는 사실을 이용한다. 즉, 특정 종류의 웹 문서를 수집한다. 상기 특정 종류의 웹 문서는 소셜커머스, 공연, 구인 사이트 등과 같이 관심지점을 포함하는 사이트일 수 있다. 이어, 수집된 특정 종류의 웹 문서에서 관심지점 DB에 등록되지 않은 관심지점 데이터를 추출하여 관심지점 후보 DB에 등록한다. 한편, 뉴스나, 블로그 등과 같은 일반 웹 문서를 수집한다. 이어, 수집된 일반 웹 문서에서 관심지점 후보 DB에 있는 관심지점이 추출될 때마다 후보 DB를 업데이트한다. 관심지점 후보 DB에 등록된 데이터가 충분히 신뢰할만하다고 판단되는 경우 관심지점 후보 DB에 등록된 관심지점 후보 데이터를 관심지점 DB에 관심지점 데이터로서 추가하는 방식으로 관심지점 DB를 구축한다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100 : 웹 사이트 200 : 통신망
300 : 관심지점 DB 구축 시스템 310 : 웹 문서 수집부
320 : 웹 문서 DB 330 : 관심지점 후보 추출 장치
340 : 관심지점 검증 장치 500 : 관심지점 DB
400 : 관심지점 후보 DB

Claims (12)

  1. (i) 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터를 추출하여 관심지점 후보 데이터베이스에 등록하는 단계; 및
    (ii) 일반 웹 문서에 포함된 관심지점 데이터를 근거로 상기 관심지점 후보 데이터베이스에 등록된 관심지점 후보 데이터를 검증하여 관심지점 데이터베이스를 업데이트하는 단계를 포함하되, 단계(ii)는,
    (ii-1) 일반 웹 문서를 수집하는 단계;
    (ii-2) 수집된 웹 문서에서 형태소를 분석하는 단계;
    (ii-3) 분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하는 단계;
    (ii-4) 추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하는 단계;
    (ii-5) 상기 관심지점 후보 데이터베이스에 존재하는 관심지점이 문서에 존재하는지의 여부를 체크하는 단계;
    (ii-6) 상기 관심지점 후보 데이터베이스에 존재하는 관심지점이 문서에 존재하는 것으로 체크되면, 날짜를 해당 날짜로 업데이트하고 기준치를 1 증가하는 단계;
    (ii-7) 기준치가 설정치보다 큰지의 여부를 체크하는 단계; 및
    (ii-8) 상기 기준치가 상기 설정치보다 큰 것으로 체크되면 관심지점 후보 데이터를 관심지점 데이터베이스에 추가하는 단계를 포함하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  2. 제1항에 있어서, 단계(i)는,
    (i-1) 특정 종류의 웹 문서를 수집하는 단계;
    (i-2) 수집된 웹 문서에서 형태소를 분석하는 단계;
    (i-3) 분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하는 단계; 및
    (i-4) 추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하는 단계를 포함하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  3. 제2항에 있어서, 상기 추출된 관심지점 후보 데이터를 상기 관심지점 후보 데이터베이스에 업데이트하는 단계에서, 날짜는 현재 날짜로 갱신하고, 기준치는 0으로 초기화하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  4. 제1항에 있어서, 상기 특정 종류의 웹 문서는 소셜커머스, 공연정보 및 구인 사이트 중 어느 하나를 포함하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  5. 삭제
  6. 제1항에 있어서, 상기 추출된 관심지점 후보 데이터를 상기 관심지점 후보 데이터베이스에 업데이트하는 단계에서, 날짜는 현재 날짜로 갱신하고, 기준치는 0으로 초기화하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  7. 제1항에 있어서, 상기 일반 웹 문서는 뉴스, 블로그 및 SNS 중 어느 하나를 포함하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  8. 제7항에 있어서, 상기 일반 웹 문서는 소셜커머스, 공연정보 및 구인 사이트 중 어느 하나를 더 포함하는 것을 특징으로 하는 관심지점 데이터베이스 구축 방법.
  9. 특정 종류의 웹 문서에 포함된 관심지점 후보 데이터를 추출하여 관심지점 후보 데이터베이스에 등록하는 관심지점 후보 추출 장치; 및
    일반 웹 문서에 포함된 관심지점 데이터를 근거로 상기 관심지점 후보 데이터베이스에 등록된 관심지점 후보 데이터를 검증하여 관심지점 데이터베이스를 업데이트하는 관심지점 검증 장치를 포함하되, 상기 관심지점 검증 장치는,
    수집된 일반 웹 문서에서 형태소를 분석하고,
    분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하고,
    추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하고,
    상기 관심지점 후보 데이터베이스에 존재하는 관심지점이 문서에 존재하는지의 여부를 체크하고,
    상기 관심지점 후보 데이터베이스에 존재하는 관심지점이 문서에 존재하는 것으로 체크되면, 날짜를 해당 날짜로 업데이트하고 기준치를 1 증가시키고,
    상기 기준치가 설정치보다 크면 관심지점 후보 데이터를 관심지점 데이터베이스에 추가하는 것을 특징으로 하는 관심지점 데이터베이스 구축 시스템.
  10. 제9항에 있어서, 관심지점 데이터가 포함된 특정 종류의 웹 문서 및 일반 웹 문서를 수집하는 웹 문서 수집부를 더 포함하는 것을 특징으로 하는 관심지점 데이터베이스 구축 시스템.
  11. 제9항에 있어서, 상기 관심지점 후보 추출 장치는,
    수집된 특정 종류의 웹 문서에서 형태소를 분석하고,
    분석된 형태소에서 관심지점 데이터가 존재하는 경우 해당 관심지점 데이터를 관심지점 후보 데이터로서 추출하고,
    추출된 관심지점 후보 데이터를 관심지점 후보 데이터베이스에 업데이트하는 것을 특징으로 하는 관심지점 데이터베이스 구축 시스템.

  12. 삭제
KR1020150025964A 2015-02-24 2015-02-24 관심지점 데이터베이스 구축 방법 및 그 시스템 KR101623739B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150025964A KR101623739B1 (ko) 2015-02-24 2015-02-24 관심지점 데이터베이스 구축 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150025964A KR101623739B1 (ko) 2015-02-24 2015-02-24 관심지점 데이터베이스 구축 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR101623739B1 true KR101623739B1 (ko) 2016-05-24

Family

ID=56114106

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150025964A KR101623739B1 (ko) 2015-02-24 2015-02-24 관심지점 데이터베이스 구축 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR101623739B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190033884A (ko) 2017-09-22 2019-04-01 고려대학교 산학협력단 Sns의 사용자 정보를 이용한 딥러닝 기반의 관심지점 예측 방법
KR102423943B1 (ko) * 2022-02-09 2022-07-27 최정식 서브젝트 별로 검색 결과를 제공하는 전자 장치의 제어 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190033884A (ko) 2017-09-22 2019-04-01 고려대학교 산학협력단 Sns의 사용자 정보를 이용한 딥러닝 기반의 관심지점 예측 방법
KR102423943B1 (ko) * 2022-02-09 2022-07-27 최정식 서브젝트 별로 검색 결과를 제공하는 전자 장치의 제어 방법
WO2023153536A1 (ko) * 2022-02-09 2023-08-17 최정식 서브젝트 별로 검색 결과를 제공하는 전자 장치의 제어 방법

Similar Documents

Publication Publication Date Title
CN102591867B (zh) 一种基于移动设备位置的搜索服务方法
US10234305B2 (en) Method and apparatus for providing a targeted map display from a plurality of data sources
KR101143968B1 (ko) 오픈형 poi에 대한 실시간 검색을 지원하는 시스템 및 방법
US20110256853A1 (en) Wifi and gsm landmarks and neighborhoods for location based services
US20050004903A1 (en) Regional information retrieving method and regional information retrieval apparatus
CN110651288A (zh) 事件提取系统和方法
JP6440650B2 (ja) ユーザレビュー提供方法、その装置及びそのコンピュータプログラム
US20150205879A1 (en) Information processing apparatus, browsing history classification method, and browsing history classification program
CN101410815A (zh) 检测web资源的服务区域
AU2010200169B2 (en) Method and system for managing relationships between location identifiers
US20090276398A1 (en) Search server
CN106060785A (zh) 判断WiFi Mac属性并进行定向信息推送的方法
KR101134883B1 (ko) 오픈형 poi를 등록하는 시스템 및 방법
KR101623739B1 (ko) 관심지점 데이터베이스 구축 방법 및 그 시스템
CN104462257B (zh) 一种校验中间页信息的方法和装置
KR20130033520A (ko) 온라인 상에 게재된 웹 문서 기반 행사 이력 분석 시스템 및 방법
KR101447122B1 (ko) 피오아이 데이터베이스 구축 방법 및 이를 수행하기 위한 장치
JP2014078246A (ja) 情報検索装置、及び情報検索プログラム
CN101883341A (zh) 一种基于短信终端的信息查询系统及查询方法
KR102343815B1 (ko) 네트워크 데이터를 이용한 광고 효과 측정 방법, 광고 효과 측정 장치, 광고 효과 측정 시스템
JP2008242526A (ja) 情報受送信装置及び情報受送信システム
KR20180126429A (ko) 사용자 위치 기반의 검색 정보 제공 방법 및 그 시스템
Iijima et al. A mobility service based on Japanese linked data
KR101932797B1 (ko) 사용자 위치 기반의 검색 정보 제공 방법 및 그 시스템
US9330185B2 (en) POI related information processing system and method, and apparatus for supporting the same

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190325

Year of fee payment: 4