KR20200052786A

KR20200052786A - 소셜웨어 데이터를 이용한 사용자 별 라이프스타일 판별 및 관광지 추천 방법 및 시스템

Info

Publication number: KR20200052786A
Application number: KR1020180136207A
Authority: KR
Inventors: 이건하; 최종두; 정한수; 최종석
Original assignee: 주식회사 화성
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2020-05-15

Abstract

본 발명은 라이프 스타일 별 관광지 추천 시스템에 관한 것이다. 그러한 시스템은 서버(S)와 단말기가 네트워크를 통하여 구성되어 라이프 스타일 별로 관광지를 추천하는 방법에 있어서, 관광지 추천방법은, 소셜상에서 글 데이터 및 계정을 수집하는 데이터 수집 단계(S100)와; 글 데이터를 NLP처리를 통하여 품사분류 및 복합색인어를 추출하는 데이터 처리단계(S110)와; NLP 처리된 결과를 계정별 혹은 키워드별로 DB에 업로드하는 데이터 업로드단계(S120)와; 사용자-키워드 데이터를 입력 데이터로 하여 LDA(Latent Dirichlet Allocation;LDA) 분석을 통해 이용자-토픽, 토픽-키워드 데이터로 분석하는 사용자 관심성향 분석단계(S130)와; 토픽의 내재된 군집적 특성을 라이프스타일과 매칭시키는 라이프 스타일 매칭단계(S140)와; 그리고 매칭된 라이프 스타일에 따라 관광지를 추천하는 관광지 추천단계(S150)를 포함한다.

Description

소셜웨어 데이터를 이용한 사용자 별 라이프스타일 판별 및 관광지 추천 방법 및 시스템 {Method for determining user's opinion in social network service and system thereof}

본 발명은 소셜웨어 서비스를 이용하는 각 유저의 성향을 분석하여 라이프 스타일을 판별하고 그 결과에 따른 관광지를 추천하는 방법 및 시스템에 관한 것으로, 보다 상세하게는 소셜웨어 서비스를 이용하는 각 유저의 글 데이터를 이용하여 토픽모델링을 수행하고 선정된 유저의 프로파일링 (User Profiling) 정보와 워드의 클러스터링 (Word Clustering) 모델을 바탕으로 각 유저의 라이프스타일을 매칭시켜 라이프스타일-관광지 매칭 데이터 내에서 관광지를 추천하는 방법 및 시스템에 관한 것이다.

근래에는 소득수준의 증가 및 주 5일제의 실시에 따라 관광산업이 발전하고 있는 바, 여름 휴가나 주말 여행 등을 통해 해외나 국내의 유명 관광지의 방문이 증가하고 있다.

이러한 추세에 따라 관광산업의 중요성 및 그 시장성은 점차 증가하고 있으나, 여행 상품의 개발이나 여행 정보 제공 등에 있어서는 미흡한 실정이다.

현재 개발된 관광 관련한 앱 혹은 서비스들은 다양한 정보를 효과적으로 제공하지 못하고 있다.

즉, 여행정보 제공서비스를 사용자의 프로세스적인 관점에서 이해하지 않고, 단편적인 요구에 대응하는 방식으로 진행되고 있다.

향후 국내외의 많은 관광객이 방문을 할 것으로 예측되는 바, 이 관광객을 위한 서비스는 단순한 여행이 아닌 많은 부수적인 활동들이 연결된 하나의 프로세스 관점에서 접근하여야 함에도 현실은 부족한 것으로 판단된다.

이러한 올림픽과 같은 대형 스포츠 이벤트를 관람하기 위해 방문하는 관광객의 여행 일정은 주로 아래 순서와 같이 이루어지는 것으로 예측된다.

즉, 정보수집 단계, 계획수립 단계, 예약단계, 관광단계, 쇼핑단계의 5가지 단계로 진행된다.

먼저, 정보 수집 단계에서는, 올림픽 및 대형 스포츠 이벤트 경기일정, 경기장 위치, 주변관광지, 비용, 여행일정, 교통편, 음식점, 쇼핑센터 등에 관한 정보들을 수집한다.

계획수립 단계에서는, 올림픽 및 대형 스포츠 이벤트 관람 기간과 비용에 따라 올림픽 경기 관람 입장권, 주변 관광지, 숙박, 교통편, 음식 및 기타 활동들에 대한 구체적인 일정을 수립하게 된다.

예약단계에서는, 올림픽 및 대형 스포츠 이벤트 관람 계획에 따라 패키지 여행상품을 구매하거나, 자유 여행의 경우 항공권과 숙박상품 등을 예약하고 구매하게 된다.

관광단계에서는, 올림픽 및 대형 스포츠 이벤트 개최지 현지의 주변 관광지를 여행한다.

그리고, 쇼핑 단계에서는, 올림픽 및 대형 스포츠 이벤트 관련 상품 및 현지 토산품 등 원하는 상품과 서비스를 구매하게 된다.

그러나, 종래의 관광 관련 서비스는 이러한 단계 중 주로 어느 한 단계에 한정되어 서비스를 제공하는 방식인 바, 대형 스포츠 이벤트와 지역 축제, 전시회 등을 참가하는 관광객에게 보다 유용한 서비스가 되기 위해서는 정보수집부터 계획수립, 예약, 쇼핑에 이르기까지 전체 프로세스를 효과적으로 지원해주어야 함에도 이러한 점에서는 상당한 제약이 있는 문제점이 있다.

또한, 종래의 관광지 추천 서비스를 살펴보면, 사용자가 입력한 여행 예정 시간과 방문 장소 정보를 바탕으로 여행지에서 소요될 예정 시간을 산출하고, 그로부터 소비 예정 시간을 조정하거나, 여행자가 원하는 시설과 방문 목적에 대해 그 시설에 도달하기 위한 추천 경로 및 방문 추천 시각을 제공하여 시간 플랜을 작성하도록 하거나, 또는 여행자가 방문을 원하는 시설에 대한 기본 체재 시간을 검색하여 여행 시간 플랜을 세울 수 있도록 하는 서비스 방식이 제공되고 있다.

그러나, 이러한 방식은 여행의 모든 방문일정을 사용자가 직접 수립하여야 하는 바, 해당 방문지의 위치, 유명 관광지, 소요 시간 등을 전부 고려하여 여행 플랜을 작성하는 것은 쉬운 것은 아니고 상당히 부담스러운 작업이다.

아울러, 올림픽 등 대형 스포츠 이벤트의 경우 많은 관광객이 방문하는 바, 이러한 스포츠 이벤트가 기존 여행 서비스가 서로 접목되지 못함으로써 해당 관광지에 대한 홍보 및 정보의 부족으로 인하여 관광객들이 충분한 관광을 하지 못하고 스포츠 이벤트에 관련된 스케쥴에만 한정되는 문제점이 있다.

그리고, 관광을 원하는 사용자의 라이프 사이클에 적합하지 않은 관광지를 선정함으로써 도움이 되지 않는 문제점이 있다.

(문헌 1) 한국등록특허 제10-1015203호 (명칭: 여행 스케쥴 서비스 제공방법)(2011. 02. 09. 자 등록) (문헌 2) 한국공개특허 제2002-0007790호 (명칭: 인터넷을 통한 최적화된 여행 계획 작성 서비스 제공 방법)(2002. 01. 29. 자 공개) (문헌 3) 한국등록특허 제10-0234598호 (명칭: 여행 계획 작성 시스템)(1999. 09. 17. 자 등록) (문헌 4) 한국공개특허 제2013-0035659호 (명칭: 해외 여행 가이드 장치 및 해외 여행 가이드 서비스 제공 방법)(2013. 04. 09. 자 공개)

이에 본 발명의 기술적 과제는 이러한 종래의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 단순한 테마 관광 서비스 차원을 넘어 사용자의 성향분석을 기반으로 한 투어 서비스를 제공하기 위해서 본 발명에서는 소셜 네트워크 서비스 상의 글 데이터를 이용하여 각 사용자의 성향을 분석하여 라이프스타일을 판별하고 그 결과에 따른 관광지를 추천하는 방법 및 시스템을 제공하는 것을 목적으로 한다.

상기한 본 발명의 목적을 실현하기 위하여 일 실시예는,

서버(S)와 단말기가 네트워크를 통하여 구성되어 라이프 스타일 별로 관광지를 추천하는 방법에 있어서,

관광지 추천방법은, 소셜상에서 글 데이터 및 계정을 수집하는 데이터 수집 단계(S100)와;

글 데이터를 NLP처리를 통하여 품사분류 및 복합색인어를 추출하는 데이터 처리단계(S110)와;

NLP 처리된 결과를 계정별 혹은 키워드별로 DB에 업로드하는 데이터 업로드단계(S120)와;

사용자-키워드 데이터를 입력 데이터로 하여 LDA(Latent Dirichlet Allocation;LDA) 분석을 통해 이용자-토픽, 토픽-키워드 데이터로 분석하는 사용자 관심성향 분석단계(S130)와;

토픽의 내재된 군집적 특성을 라이프스타일과 매칭시키는 라이프 스타일 매칭단계(S140)와; 그리고

매칭된 라이프 스타일에 따라 관광지를 추천하는 관광지 추천단계(S150)를 포함하는 관광지 추천 방법을 제공한다.

본 발명의 다른 실시예는,

서버(S)와 단말기가 네트워크를 통하여 구성된 관광지 추천 시스템에 있어서,

관광지 추천 시스템의 서버(S)는,

소셜상에서 글 데이터 및 계정을 수집하는 소셜웨어 데이터 수집부(1)와;

글 데이터를 NLP처리를 통하여 품사분류 및 복합색인어를 추출하는 데이터 처리부(2)와;

NLP 처리된 결과를 계정별 혹은 키워드별로 DB에 업로드하는 데이터 업로드부(3)와;

사용자-키워드 데이터를 입력 데이터로 하여 LDA(Latent Dirichlet Allocation;LDA) 분석을 통해 이용자-토픽, 토픽-키워드 데이터로 분석하는 사용자 관심성향 분석부(4)와;

토픽의 내재된 군집적 특성을 라이프스타일과 매칭시키는 라이프 스타일 매칭부(5)와;

매칭된 라이프 스타일에 따라 관광지를 추천하는 관광지 추천부(6)와;

여행지 정보, 회원 정보, 라이프 스타일 정보, 관광지 정보를 저장하는 데이터베이스를 포함하는 관광지 추천 시스템을 제공한다.

이러한 라이프 스타일 별 관광지 추천 시스템은 다음과 같은 장점이 있다.

사용자의 성향과 라이프스타일을 매칭, 또한 매칭된 라이프스타일 내 유사성향을 지닌 사용자들의 추천관광지를 추천함으로써 보다 정밀한 분석이 가능 또한 단순 자연어 처리를 통한 키워드 매칭 기법의 한계에서 벗어나 기존 방식의 결합하여 응용할 경우 정확한 결과 산출을 기대할 수 있다.

도 1은 본 발명의 일 실시예에 따른 관광지 추천 시스템의 구성을 보여주는 블록도이다.
도 2는 도 1에 도시된 관광지 추천 시스템을 보다 상세하게 보여주는 흐름도이다.
도 3은 도 1에 도시된 관광지 추천 시스템에 있어서 트위터로부터 글 데이터를 수집하는 과정을 개략적으로 보여주는 도면이다.
도 4은 도 3에 도시된 글 데이터 수집과정을 보다 상세하게 보여주는 순서도이다.
도 5는 도 4에 도시된 글 데이터 수집과정에서 글 수집 프로세스를 보여주는 순서도이다.
도 6은 도 1에 도시된 관광지 추천 시스템에 있어서 형태소를 분석하는 프로세스를 보여주는 블록도이다.
도 7은 도 6에 도시된 형태소를 분석하는 과정을 보여주는 도면이다.
도 8은 도 6에 도시된 LDA 분석에 의하여 데이터를 처리하는 과정을 보여주는 도면이다.
도 9(a) 및 (b)는 LDA 분석에 의하여 글과 토픽 연관성 데이터와, 토픽과 단어 연관성 데이터 분석과정을 보여주는 도면이다.
도 10(a) 및 (b)는 토픽 클러스터링 과정을 보여주는 도면이고, 도 10(c)는 토픽 네이밍 과정을 보여주는 도면이며, 도 10(d)는 토픽 링크 과정을 보여주는 도면이다.
도 11은 글 데이터의 트랜드 예측과정을 보여주는 도면이다.
도 12는 도 1에 도시된 관광지 추천 시스템의 초기 화면양식을 보여주는 도면이다.
도 13은 도 12에 도시된 관광지 추천 시스템의 화면양식중 여행정보를 입력하기 위한 양식을 보여주는 도면이다.
도 14는 도 12에 도시된 관광지 추천 시스템의 화면 양식중 라이프 스타일 별 이미지 선택양식을 보여주는 도면이다.
도 15는 도 12에 도시된 관광지 추천 시스템의 화면 양식중 여행 추천 코스를 선택할 수 있는 양식을 보여주는 도면이다.
도 16은 도 15의 양식에 따라 추천된 코스를 보여주는 화면 양식이다.
도 17은 본 발명의 다른 실시예에 따른 관광지 추천 방법을 보여주는 순서도이다.

이하, 본 발명의 일 실시예에 따른 소셜웨어 데이터를 이용한 사용자 별 라이프 스타일 판별 및 관광지 추천 방법 및 시스템에 대하여 첨부된 도면을 참조하여 상세하게 설명한다.

도 1 내지 도 17을 참조하면,라이프 스타일 별 관광지 추천 시스템(10)은 서버(S)와 제1 단말기 및 제2 단말기(도시안됨)이 네트워크를 통하여 무선 연결되도록 구성된다.

이때, 제1 및 제 2단말기는 여행자와 같은 클라이언트를 의미한다.

상기 서버(S)와, 제1 및 제 2단말기에는 관광지 추천 서비스를 제공하기 위한 어플리케이션 프로그램(또는 앱이라 칭함)이 탑재될 수 있다.

상기 서버(S)는 단말기의 요청에 따라 여행 정보를 제공하고, 회원 인증 처리한다. 상기한 여행 정보는 상기 단말기가 회원으로 인증되지 않은 상태에서도 제공될 수 있다.

상기 라이프 스타일 별 관광지 추천 시스템(10)은 인증된 단말기와의 데이터 송수신을 통해 상기 단말기에 대응하여 글 데이터를 수집하고, 사용자 관심 성향을 분석하고, 라이프 스타일과 매칭함으로써 관광지를 추천하는 일련의 서비스를 제공한다.

이러한 라이프 스타일 별 관광지 추천 시스템(10)을 도 2에 의하여 보다 상세하게 설명한다.

상기 관광지 추천 서비스 서버(S)는 소셜웨어 데이터 수집부(1)와, 데이터 처리부(2)와, 데이터 업로드부(3)와, 사용자 관심성향 분석부(4)와, 라이프 스타일 매칭부(5)와, 관광지 추천부(6)와, 데이터베이스(도시안됨)를 포함한다.

그리고, 상기 데이터베이스는 여행지 정보 DB, 회원 정보 DB, 라이프 스타일 정보 DB, 관광지 정보를 포함한다.

본 실시예에서, 상기 관광지 추천 서비스 서버(S)가 소셜웨어 데이터 수집부(1)와, 데이터 처리부(2)와, 데이터 업로드부(3)와, 사용자 관심성향 분석부(4)와, 라이프 스타일 매칭부(5)와, 관광지 추천부(6)와, 데이터베이스로 구성된 것을 설명하였으나, 이는 설명의 편의를 위해 논리적으로 구분하였을 뿐 하드웨어적으로 구분한 것은 아니다.

이러한 관광지 추천 서비스 서버(S)에 있어서,

상기 회원 인증부는 접속하는 회원의 아이디 및 패스워드와 상기 회원 정보 DB에 저장된 정보를 근거로 회원의 인증 여부를 체크한다.

이때, 회원 인증부는 기존의 아이디 및 패스워드 방식 뿐만 아니라, 페이스북(Face book)이나 트위터(Twitter)와 연계하여 로그인할 수도 있다.

데이터 수집부(1)는 다양한 소셜 네트워크상의 글 데이터를 크롤링(crawling) 등의 방식으로 수집함으로써 사용자의 성향을 파악할 수 있다.

크롤링 방식은 다수의 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술을 의미한다. 최근에는 웹 검색의 중요성에 따라 다양한 검색 방식이 개발되고 있다.

그리고, 소셜 네트워크는 트위터, 페이스북, 인스타그램, 네이버/다음과 같은 포털 사이트의 블로그 등을 포함한다. 그리고, 이러한 소셜 네트워크 상에서 정보 수집에 동의한 사용자의 계정, 팔로우 데이터 등을 수집한다.

이러한 소셜네트워크 상에서 글 데이터를 수집하는 방식은 도 3 및 도 4에 도시된다.

도시된 바와 같이, 글 데이터를 수집하는 방식에는 계정 수집 프로세스와 글 데이터 수집 프로세스가 가능하다.

먼저, 계정 수집 프로세스는 시드 계정들을 가져오는 단계가 진행된다. 이 단계에서는 이전 수집된 계정 정보들을 DB에서 가져오고, 그와 동시에 한국인 계정들을 메모리 저장소에도 계정 정보들을 저장한다.

이때, 계정 정보 수집과 동시에 팔로우 링크(follow link) 와 프랜즈 링크(fmriend link) 정보도 함께 수집한다.

그리고, 이웃 계정들을 수집하는 바, 남아있는 이웃계정들이 존재하는지 여부를 판단하고, 남아 있으면 이웃 계정들을 수집한다.

이웃 계정을 수집한 후, 한국인 계정들의 존재여부를 파악한다. 만약 한국인계정이 존재한다면 이웃 계정으로 판단한다.

한국인 계정이 존재하지 않는다면 비한국인 계정의 존재 여부를 검색한다. 비한국인 계정이 존재한다면 역시 이웃계정으로 판단한다. 비한국인 계정이 존재하지 않는다면 최근 트위 데이터중 한글의 존재여부를 파악한다.

한글 데이터가 존재하는 경우에는 한국인 수집 계정으로 저장하고, 존재하지 않는다면 비한국인 수집계정 혹은 비한국인 계정으로 저장한다.

도 5에는 한글 데이터 수집과정이 도시된다. 즉, 도시된 바와 같이, 한글이 한글자로 포함된 트윗글을 대상으로 수집한다. 먼저 시드계정들을 가져와서 시드계정에 저장한다. 이때, 시그계정들이 남아있는지 여부를 검색하여 남아있으면 시드계정에 추가로 저장하고, 남아 있지 않다면 종료한다.

그리고, 수집된 시드계정들로부터 트윗글 정보를 가져오며, 이전 수집된 계정들에 저장한다.

한편, 수집된 글 데이터는 데이터 처리부(2)에 의하여 처리됨으로써 품사분류 및 복합 색인어를 추출할 수 있다.

즉, 도 6에 도시된 바와 같이, 데이터 처리부(2)는 수집된 글 데이터를 NLP처리를 통하여 품사를 분류하고 복합 색인어를 추출한다.

도시된 바와 같이, 대상 글데이터로부터 형태소를 분석하고, 분석된 형태소에서 색인어 및 복합 색인어를 추출한다. 그리고, 연관어를 추출하는 순서로 진행된다. 이때, 추출된 연관어는 단어의 빈도, 단어쌍 빈도, 연관어 점수를 고려하여 분류하고 분석기를 통하여 형태소 분석으로 피드백 된다.

이러한 과정을 통하여 글 데이터가 품사 및 복합 색인어로 추출된다.

예를 들면, 도 7에 도시된 바와 같이, “RT @hwasung 감기는 자주 걸린다. http://www.hwasungnews.co.kr/1294”의 문장을 분석하기 위하여, 우선 URL을 제거하고, RT를 제거한 후 ID를 제거한다.

그리고, 각 어절로 분리하는 바, 감기는, 자주, 걸린다로 분리하게 된다.

이러한 과정이 도 8에 상세하게 도시되는 바, 먼저 글 데이터를 처리하는 과정에 있어서, 전처리 과정이 진행된다.

즉, 소셜웨어 원 문장에서 글 데이터를 추출한다. 이 과정은 원 문장에서 주요 글 데이터들을 선별하게 된다.

그리고, 키워드 관련한 원글을 형태소 단위로 분석한다. 이 과정은 단어를 형태소 단위로 분리해내는 과정이다. 예를 들면, "학생이다"라는 문장을 학생과 이다로 분리한다.

이러한 과정을 통하여 소셜웨어 글 데이터에서 단어를 추출함으로써 주요 글 데이터들을 선별해낼 수 있다.

그리고, 각 형태소를 글-단어의 2모드 네트워크를 통하여 클린징(Cleansing)을 실시함으로써 선별된 글-단어를 추출할 수 있다.

이 과정에서는 형태소 분석 데이터를 이용하여 글-단어의 2 모드 네트워크를 형성하게 된다. 그리고, 클린징은 필요없는 단어들을 제거하는 과정으로서, 특정 단어의 등장 횟수가 기준치 이하일 경우 소셜웨어 상에서 비중이 낮다고 판단하여 제거한다.

반대로 너무 많은 글에 등장하는 경우, 예를 들면 오늘, 나는 등의 단어도 제거한다.

이러한 과정을 예를 들면, "RT @LastSentence_: 추신: 다음에 언제 한번 나와 7번국도에 갈기회가생긴다면아침해가떠오르는하늘위로갈매기가날고기차가달리는, 정동진역의 그멋진풍경을같이보자꾸나."라는 문장을 처리하면 다음과 같다.

"RT/SL @/SS+LastSentence/SH+_/SS+:/SP 추/NNG+신/NNG+:/SP 다음/NNG+에/JKB 언제/MAG 한번/NNG 나오/VV+아/EC 7/SN+번/NNB+국도/NNG+에/JKB 가/VV+ㄹ/ETM 기회/NNG+가/JKS 생기/VV+ㄴ다면/EC 아침/NNG 해/NNG+가/JKS 떠오르/VV+는/ETM 하늘/NNG 위로/NNG 갈매기/NNG+가/JKS 날/VV+고/EC 기차/NNG+가/JKS 달리/VV+는/ETM+,/SP 정동진/NNP+역/NNG+의/JKG 그/MM 멋지/VA+ㄴ/ETM 풍경/NNG+을/JKO 같이/MAG 보/VV+자꾸나/EF+"

이와 같이 처리된 데이터는 데이터 업로드부(3)에 의하여 네트워크를 통하여 서버(S)로 업로드된다.

그리고, 사용자 관심성향 분석부(4)에 의하여 LDA 분석방식을 통하여 이용자, 토픽, 키워드 데이터로 분석된다.

즉, 사용자관심성향 분석부(4)는 사용자-키워드 데이터를 입력 데이터로 하여 LDA(Latent Dirichlet Allocation; LDA) 분석을 통해 이용자-토픽, 토픽-키워드 데이터로 분석하게 된다.

도 9(a)에 도시된 바와 같이, 글 데이터를 분석하여 토픽을 검출하는 과정은 LDA 방식으로 처리한다. 즉, LDA 방식은 2가지 종류의 아웃풋을 의미하는 바, 글과 토픽간의 연관성 데이터와, 토픽과 단어 간의 연관성 데이터로 구분된다.

먼저, 글과 토픽 연관성 데이터는 이 트윗은 어떠한 토픽에 대하여 이야기하고 있는지를 판단한다.

즉, 글 1의 분석결과 토픽 1이 64%, 토픽 2가 21%, 토픽 3이 13%, 토픽 4가 1%의 비율이고, 글 2의 분석결과 토픽 3이 52%, 토픽 2가 34%, 토픽 1이 11%, 토픽 4가 2%의 비율인 경우, 글 1 과 글 2는 주로 토픽 1과 3에 연관된 내용으로 판단하게 된다.

그리고, 토픽과 단어간의 연관성 데이터는 이 토픽에 연관된 단어에는 어떤 것이 있는지를 판단한다.

즉, 도 9(b)에 도시된 바와 같이, 토픽 1의 분석결과 산천어 축제 53%, 눈꽃축제 30%, 정동진 9%, 경포대 7%의 비율이고, 토픽 2의 분석결과 자연 휴양림 43%, 양떼목장 27%, 오죽헌 25%, 천연동굴 4%의 비율인 경우, 토픽 1 과 토픽 2는 각 단어들에 의하여 어떠한 토픽이 연관된 것인지를 판단할 수 있다.

그리고, 토픽 프로파일링(Topic profiling)을 실시하는 바, LDA 처리결과를 통해 토픽 당 글수, 언급한 사용자 수, 리플 수 등을 추출한다.

예를 들면, 토픽 1에 대하여 글수는 199개이고, 언급한 사람 수가 102명, 리플 수가 2013개이다.

그리고, 토픽 클러스터링(Topic clustering)은 도 10(a)에 도시된 바와 같이, 토픽 프로파일링을 통해 얻어낸 토픽들의 속성을 토대로 비슷한 속성의 토픽끼리 클러스터를 구성하는 과정이다.

그리고, 도 10(b)에 도시된 바와 같이, LDA를 통하여 추출된 각 토픽에 등장하는 단어의 비중을 토대로 비슷한 내용의 토픽끼리 클러스터를 구성한다.

그리고, 도 10(c)에 도시된 바와 같이, 토픽 네이밍(Topic namimg)을 실시하게 되는 바, 본 과정에서는 각 토픽마다 이름을 지정하게 된다.

이러한 네이밍 과정을 통하여 지정된 각 토픽간의 링크가 가능하다.

즉, 도 10(d)에 도시된 바와 같이, 토픽 링크(Topic link)가 진행되는 바, 각 달의 데이터 간에 링크를 형성하게 된다. 즉, 지난달과 같은 이름의 토픽이 산출된 경우, 같은 이름을 갖는 토픽간에 링크가 형성된다.

이와 같이 토픽 네이밍이 완료되면, 트랜드 예측이 진행되는 바, 이러한 트랜드 예측은 익스포져(Exposure) 추이 예측방식에 의하여 진행된다.

즉, 도 11에 도시된 바와 같이, 현재까지의 각 토픽별 시간당 익스포져 추이를 분석하고, 이를 이용하여 향후 익스포져 추이를 예측한다.

이러한 예측 방식은 과거 자료들 중 유사도가 높은 토픽의 익스포져 추이를 검출하여 미래 예측 자료로 활용한다.

한편, 라이프 스타일 매칭부(5)는 선정된 유저의 프로파일링 (User Profiling) 정보와 워드의 클러스터링 (Word Clustering) 모델을 바탕으로 각 유저의 라이프스타일을 매칭시킨다.

이러한 라이프 스타링 매칭부(5)는 토픽의 내재된 군집적 특성을 라이프스타일에 매칭하는 과정이다.

즉, 사용자의 프로파일링 정보와 워드의 클러스터링 모델을 연산하고, 그 결과를 사용자의 라이프 스타일과 매칭하는 방식이다.

이때, 라이프 스타일은 다수개로 분류될 수 있는 바, 예를 들면, 욜로, 휘게, 킨포크, 에코, 미니멀, 기타의 6가지로 분류될 수 있다.

예를 들면, 도 12에 도시된 바와 같이, 단말기의 초기화면을 팝업시키고, 도 13에 도시된 바와 같이, 여행제목, 여행기간, 시간, 목적지, 여행 타입 등의 정보를 입력한다.

그리고, 도 14에 도시된 바와 같이, 화면상에 표시된 각 라이프 스타일별 이미지를 선택함으로써 각 라이프 스타일을 선택하게 된다.

예를 들면, 욜로, 휘게, 킨포크, 에코, 미니멀, 기타의 6가지의 이미지를 선택할 수 있다.

따라서, 사용자가 관광지 추천을 의뢰한 경우, 사용자 정보와 라이프 스타일과 서로 매칭하게 된다.

그리고, 관광지 추천부(6)는 사용자의 라이프스타일에 따른 관광지 중 CF (Collaborative Filtering, CF) 분석을 통하여 관광지를 추천한다.

즉, 입력되는 관광지 데이터가 라이프 스타일에 매칭되는 데이터로 필터링되어 추천 셋트가 구성된다.

즉, 도 15에 도시된 바와 같이, 각 관광지와 기존에 방문한 결과간에 행렬을 구성한다.

그리고, TX결과*관광지의 행렬을 TX결과*1F간의 행렬과, 관광지*TX결과 행렬로 분해한다. 이 과정에서 데이터 규모의 축약이 일어나며 1F는 알고리즘에 의해 자동으로 연산될 수 있다.

TX결과*1F간의 행렬과, 관광지*1F간의 행렬곱을 구하여 각 개인이 각 관광지에 대해 방문할 확률을 연산한다.

따라서, 개인별로 방문확률이 높은 관광지 순으로 추천하게 된다.

Claims

서버(S)와 단말기가 네트워크를 통하여 구성되어 라이프 스타일 별로 관광지를 추천하는 방법에 있어서,
관광지 추천방법은, 소셜상에서 글 데이터 및 계정을 수집하는 데이터 수집 단계(S100)와;
글 데이터를 NLP처리를 통하여 품사분류 및 복합색인어를 추출하는 데이터 처리단계(S110)와;
NLP 처리된 결과를 계정별 혹은 키워드별로 DB에 업로드하는 데이터 업로드단계(S120)와;
사용자-키워드 데이터를 입력 데이터로 하여 LDA(Latent Dirichlet Allocation;LDA) 분석을 통해 이용자-토픽, 토픽-키워드 데이터로 분석하는 사용자 관심성향 분석단계(S130)와;
토픽의 내재된 군집적 특성을 라이프스타일과 매칭시키는 라이프 스타일 매칭단계(S140)와; 그리고
매칭된 라이프 스타일에 따라 관광지를 추천하는 관광지 추천단계(S150)를 포함하는 관광지 추천 방법.
제 1항에 있어서,
데이터 수집단계는 소셜 네트워크상의 글 데이터를 크롤링(crawling) 방식으로 수집함으로써 사용자의 성향을 파악할 수 있는 관광지 추천방법.
제 1항에 있어서,
데이터 수집단계에서는, 시드 계정들을 가져오고, 한국인 계정들을 메모리 저장소에도 저장하고, 이때, 계정 정보 수집과 동시에 팔로우 링크(follow link) 와 프랜즈 링크(fmriend link) 정보도 함께 수집하며, 이웃 계정들을 수집하고, 이웃 계정을 수집한 후, 한국인 계정들의 존재여부를 파악하고, 한국인계정이 존재한다면 이웃 계정으로 판단하며, 한국인 계정이 존재하지 않는다면 비한국인 계정의 존재 여부를 검색하고, 비한국인 계정이 존재하지 않는다면 최근 트위 데이터중 한글의 존재여부를 파악하며, 한글 데이터가 존재하는 경우에는 한국인 수집 계정으로 저장하고, 존재하지 않는다면 비한국인 수집계정 혹은 비한국인 계정으로 저장하는 관광지 추천방법.
제 3항에 있어서,
한글 데이터 수집과정은 한글이 포함된 트윗글을 대상으로 수집하는 바, 시드계정들을 가져와서 시드계정에 저장하고, 시그계정들이 남아있는지 여부를 검색하여 남아있으면 시드계정에 추가로 저장하고, 남아 있지 않다면 종료하고, 수집된 시드계정들로부터 트윗글 정보를 가져오며, 이전 수집된 계정들에 저장하는 관광지 추천방법.
제 1항에 있어서, 데이터 처리단계에서는 수집된 글 데이터를 NLP처리를 통하여 품사를 분류하고 복합 색인어를 추출하는 바,
대상 글데이터로부터 형태소를 분석하고, 분석된 형태소에서 색인어 및 복합 색인어를 추출하고, 연관어를 추출하는 순서로 진행되며, 추출된 연관어는 단어의 빈도, 단어쌍 빈도, 연관어 점수를 고려하여 분류하고 분석기를 통하여 형태소 분석으로 피드백 되는 관광지 추천방법.
제 1항에 있어서,
데이터 처리단계에서는, 소셜웨어 원 문장에서 글 데이터를 추출하고, 키워드 관련한 원글을 형태소 단위로 분석하며, 각 형태소를 글-단어의 2모드 네트워크를 통하여 클린징(Cleansing)을 실시함으로써 선별된 글-단어를 추출할 수 있는 관광지 추천방법.
제 1항에 있어서,
데이터 처리단계에서는, 글 데이터를 분석하여 토픽을 검출하는 과정은 LDA 방식으로 처리하는 바, 글과 토픽간의 연관성 데이터와, 토픽과 단어 간의 연관성 데이터로 구분되는 관광지 추천방법.
제 1항에 있어서,
관광지 추천단계는 사용자의 라이프스타일에 따른 관광지 중 CF (Collaborative Filtering, CF) 분석을 통하여 관광지를 추천하며, 입력되는 관광지 데이터가 라이프 스타일에 매칭되는 데이터로 필터링되어 추천 셋트가 구성되는 관광지 추천방법.
서버(S)와 단말기가 네트워크를 통하여 구성된 관광지 추천 시스템에 있어서,
관광지 추천 시스템의 서버(S)는,
소셜상에서 글 데이터 및 계정을 수집하는 소셜웨어 데이터 수집부(1)와;
글 데이터를 NLP처리를 통하여 품사분류 및 복합색인어를 추출하는 데이터 처리부(2)와;
NLP 처리된 결과를 계정별 혹은 키워드별로 DB에 업로드하는 데이터 업로드부(3)와;
사용자-키워드 데이터를 입력 데이터로 하여 LDA(Latent Dirichlet Allocation;LDA) 분석을 통해 이용자-토픽, 토픽-키워드 데이터로 분석하는 사용자 관심성향 분석부(4)와;
토픽의 내재된 군집적 특성을 라이프스타일과 매칭시키는 라이프 스타일 매칭부(5)와;
매칭된 라이프 스타일에 따라 관광지를 추천하는 관광지 추천부(6)와;
여행지 정보, 회원 정보, 라이프 스타일 정보, 관광지 정보를 저장하는 데이터베이스를 포함하는 관광지 추천 시스템.
제 1항에 있어서,
데이터 처리부(2)는 NLP 방식에 의하여 데이터를 처리하고,
사용자 관심성향 분석부(4)는 LDA 방식에 의하여 처리하는 관광지 추천 시스템.