KR101664941B1

KR101664941B1 - 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법

Info

Publication number: KR101664941B1
Application number: KR1020150070752A
Authority: KR
Inventors: 유기윤; 이영민
Original assignee: 서울대학교산학협력단
Priority date: 2015-05-21
Filing date: 2015-05-21
Publication date: 2016-10-12

Abstract

본 발명은 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법에 관한 것으로, (a) 트윗 추출 모듈이 수집을 원하는 지역을 대상으로 하여 일정 기간 동안의 지오태깅된 트윗을 수집 추출하여 트윗 데이터 DB에 저장하는 단계와; (b) 키워드 추출 모듈이 포털사에서 순위로 제공하는 랭킹뉴스를 대상으로 트윗 데이터 수집 기간 동안 화제가 된 핫이슈 키워드들을 범주별로 일정 개수 이상씩 추출하여 키워드 데이터 DB에 저장하는 단계와; (c) 매칭 모듈이 키워드 데이터 DB에 저장된 키워드들을 트윗 데이터 DB에 저장된 지오태깅된 트윗 데이터에 매칭시켜, 핫이슈 키워드를 포함하는 트윗의 개수가 일정 개수 이상인 트윗과 키워드만을 추출하는 단계와; (d) 노출도 산정 모듈이 상기 단계(c)에서 추출된 각각의 트윗을 대상으로 노출도를 계산하고, 상기 단계(c)에서 추출된 핫이슈 키워드 각각에 대한 행정동별 노출도를 산출하는 단계, 및 (e) 유력지수 산정 모듈이 상기 단계(d)에서 산출된 행정동별 노출도를 바탕으로 국지적 공간 의존성 지표인

를 이용하여 핫이슈 키워드 각각에 대한 행정동별 유력지수를 산출하는 단계로 이루어짐으로써, 특정 키워드에 대한 유력자들의 위치 정보를 파악하고, 해당 지역에서 관련 마케팅을 실시할 수 있다는 점에서 해당 키워드에 대한 유력지역 정보가 유용하게 사용될 수 있는 효과가 있다.

Description

국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법 {Detection Method for Influential Areas in Twitter using Local Indicators of Spatial Association}

본 발명은 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법에 관한 것으로, 보다 구체적으로, 지오태깅된 트위터 메시지 데이터를 대상으로 정치, 경제, IT 등 다양한 분야에서 이슈가 되고 있는 사안에 대한 발언에 영향력을 가지는 유력자를 공간적으로 탐색하여, 해당 키워드에 대한 유력지역을 탐색하는 방법을 제시하는 것에 관한 것이다.

최근 각종 스마트 기기의 대중화와 함께 소셜 미디어(social media)가 활성화되면서 소셜 네트워크(social network)를 바탕으로 개인들이 영향력을 행사할 수 있는 공간이 더욱 다양해지고 있다. 또한 다양한 소셜 미디어를 통해 즉각적이고 직접적인 교류가 가능해지면서 기존의 전통적 대중매체를 통해서는 평판과 명성을 획득하기 어려웠던 개인들도 온라인 공간에서 수많은 자발적 지지자들 또는 추종자들을 확보함으로써 새로운 형태의 유력자(influential)를 대두시키고 있다.

또한, GPS를 내장한 모바일 기기의 사용이 보편화되면서 다양한 소셜 미디어 중에서도 특히 LBSNS(Location Based Social Network Service, 이하 LBSNS)에 대한 이용이 증가하고 있으며, 기존의 SNS(Social Network Service, 이하 SNS)도 위치 정보를 포함하는 서비스를 추가하여 제공함으로써 LBSNS로 저변을 확장하고 있는 추세이다. 이렇게 기존 SNS가 확장된 형태의 LBSNS는 지오태깅(geotagging; 사진이나 동영상 등 디지털 매체 내에 최신 위치정보를 삽입시키는 것) 기능을 활용함으로써 사용자가 작성하는 개인의 일상, 사회적 이슈, 그리고 사건사고와 같은 내용과 함께 자신의 위치 정보를 선택적으로 포함시킬 수 있다. 이는 메시지가 생성된 지역에 대한 위치 정보에 대한 위치 정보를 포함한다는 특성을 가진다.

그 동안 소셜 네트워크상에서 유력자를 탐색하는 연구(유병국과 김순홍, 2013)가 진행되어 왔으나 이러한 연구들은 유력자 규명에 있어서 LBSNS가 가지고 있는 위치 정보에 대한 반영이 부족하다는 한계점을 보였다.

또한, LBSNS 관련 서비스 중 Trendsmap은 구글맵과 연동하여 지역별로 이용자들 사이에서 많이 언급되고 있는 키워드를 보여주는 기능을 제공하며, 이를 통해 어느 지역에 어떤 키워드와 사용자가 이슈가 되고 있는지를 파악할 수 있다. 그러나 Trendsmap 서비스는 소축척 레벨에서 넓은 지역에 대해서는 파악할 수 있지만 대축척 레벨에서 세부적인 지역에 대해서는 파악하기 어렵다는 단점을 가지고 있다. 또한 지도상에서 키워드에 대한 검색은 가능하지만 이에 대한 결과로서 지도를 기반으로 한 키워드 시각화 화면만을 제공할 뿐 정량적이고 수치적인 분석 기능을 제공하지는 못한다는 한계가 있었다.

소셜네트워크 분석을 통한 마케팅 전략 : 트위터의 검색네트워크 (유병국, 김순홍, 2013, 한국콘텐츠학회논문지, 제13권, 제5호, pp. 396-407.)

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 국지적 공간 의존성 지표인

를 이용하여 지오태깅된 트위터 메시지 데이터를 대상으로 정치, 경제, IT 등 다양한 분야에서 이슈가 되고 있는 사안에 대한 발언에 영향력을 가지는 유력자를 공간적으로 탐색하여, 해당 키워드에 대한 유력지역을 탐색하는 방법을 제시하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법을 제공하는 데 있다.

상기와 같은 목적을 달성하기 위하여, 본 발명은 (a) 트위터에서 제공하는 오픈 API(Open Application Programming Interface)를 이용하여 트윗 추출 모듈이 수집을 원하는 지역을 대상으로 하여 일정 기간 동안의 지오태깅된 트윗을 수집 추출하여 트윗 데이터 DB에 저장하는 단계와; (b) 포털사에서 제공하는 오픈 API(Open Application Programming Interface)를 이용하여 키워드 추출 모듈이 포털사에서 순위로 제공하는 랭킹뉴스를 대상으로 트윗 데이터 수집 기간 동안 화제가 된 핫이슈 키워드들을 범주별로 일정 개수 이상씩 추출하여 키워드 데이터 DB에 저장하는 단계와; (c) 매칭 모듈이 상기 단계(b)에서 범주별로 추출되어 키워드 데이터 DB에 저장된 키워드들을 상기 단계(a)에서 수집하여 트윗 데이터 DB에 저장된 지오태깅된 트윗 데이터에 매칭시켜, 핫이슈 키워드를 포함하는 트윗의 개수가 일정 개수 이상인 트윗과 키워드만을 추출하는 단계와; (d) 노출도 산정 모듈이 상기 단계(c)에서 추출된 각각의 트윗을 대상으로 노출도(Exposure Index, EI)를 계산하고, 노출도가 부여된 트윗에 대해 해당 지역의 행정동과 공간 결합(spatial join) 연산을 수행함으로써 상기 단계(c)에서 추출된 핫이슈 키워드 각각에 대한 행정동별 노출도를 산출하는 단계, 및 (e) 유력지수 산정 모듈이 상기 단계(d)에서 산출된 행정동별 노출도를 바탕으로 국지적 공간 의존성 지표인

를 이용하여 핫이슈 키워드 각각에 대한 행정동별 유력지수(Influenial Index, II)를 산출하는 단계로 이루어지는 것을 기본 특징으로 한다.

또한, 본 발명은 (f) 유력지역 도출 모듈이 상기 단계(e)에서 산출된 유력지수를 바탕으로, 상위 일정% 값을 가지는 행정동들을 각각의 범주별 핫이슈 키워드에 대한 유력지역으로 도출하는 단계가 추가로 포함되는 것을 특징으로 한다.

또한, 본 발명에서 트위터의 오픈 API에서 제공하는 트윗에 대한 속성 정보 중 사용하는 필드는 id, contributors(id), created_at, text, coordinates, favorite_count, retweet_count, followers_count 인 것을 특징으로 한다.

또한, 본 발명은 상기 단계(d)에서, 노출도(EI) = (작성자의 팔로어 수 + 리트윗 사용자들의 팔로어 수 + 해당 트윗이 리트윗된 횟수 + 해당 트윗이 즐겨찾기로 지정된 횟수) 인 것을 특징으로 한다.

또한, 본 발명은 상기 단계(d)에서, 상기 공간 결합 연산은 폴리곤인 행정동에 포인트인 트윗을 중첩시키는 것으로, 하나의 행정동에 노출도가 부여된 여러 개의 트윗이 포함되는 경우 해당되는 노출도 간의 단순 합을 속성으로 부여하는 것을 특징으로 한다.

또한, 본 발명은 상기 단계(e)에서, 국지적 공간 의존성 지표인

은 다음의 수학식,

(여기서, i와 j는 각 공간단위(예를 들어, 서울시 행정동 423개)를 의미하고,

는 공간단위i의 국지적 공간 의존성 지표값이며, w_ij는 공간 가중 행렬의 요소 값으로 i와 j가 인접하면 1, 그렇지 않으면 0의 값을 갖고 행표준화 (row-standardized)가 행해진 값이며, 자신 또한 이웃으로 간주하기 때문에 w_ii=1이고, n은 i와 j로 이루어진 모든 공간 단위의 개수(예를 들어, 서울시 행정동 423개), x_j는 j번째 변수(즉, 각각의 행정동에 대한 노출도의 단순 합),

는 x_j의 평균(

), s는 x_j의표준편차(

)임)으로 산출하는 것을 특징으로 한다.

또한, 본 발명은 상기 단계(e)에서, 특정 키워드 1개에 대한 유력지수는 다음의 수학식,

(여기서, II_i는특정 키워드 1개에 대한 공간단위i의 유력지수,

는 특정 키워드 1개에 대한 공간단위i의 국지적 공간 의존성 지표값, EI_i는 특정 키워드 1개에 대한 공간단위i의 노출도, i'는 각 공간단위를 의미하는 것으로 상기 수학식의 분모는 각 공간단위에 대한 값 중에서 최대값)으로 산출하고,

키워드가 2개 이상인 경우의 유력지수는 다음의 수학식,

(여기서, II_i는키워드가 2개 이상인 경우에 대한 공간단위i의 유력지수,

는 키워드 k에 대한 공간단위i의 국지적 공간 의존성 지표값, EI_i _,k는 키워드 k에 대한 공간단위i의 노출도, m은 키워드 갯수, i'는 각 공간단위를 의미하는 것으로 상기 수학식의 분모는 각 공간단위에 대한 값 중에서 최대값)으로 산출하는 것을 특징으로 한다.

이상에서 살펴본, 본 발명인 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법은 국지적 공간 의존성 지표인

를 이용하여 지오태깅된 트위터 메시지 데이터를 대상으로 정치, 경제, IT 등 다양한 분야에서 이슈가 되고 있는 사안에 대한 발언에 영향력을 가지는 유력자를 공간적으로 탐색하여, 해당 키워드에 대한 유력지역을 탐색하는 방법을 제시함으로써, 특정 키워드에 대한 유력자들의 위치 정보를 파악하고, 해당 지역에서 관련 마케팅을 실시할 수 있다는 점에서 해당 키워드에 대한 유력지역 정보가 유용하게 사용될 수 있는 효과가 있다.

도 1 은 본 발명에 따른 특정 키워드에 대한 트위터 상의 유력지역 탐색방법과 관련된 시스템을 나타낸 구성도.
도 2 는 본 발명에 따른 특정 키워드에 대한 트위터 상의 유력지역 탐색방법의 흐름도를 나타낸 도면.
도 3 은

와 관련하여 공간 가중 행렬의 예시를 나타낸 도면.
도 4 는 키워드별 유력지역 검색 서비스 화면의 예시를 나타낸 도면.

상기와 같이 구성된 본 발명의 바람직한 실시예를 첨부된 도면을 참조하면서 상세히 설명하면 다음과 같다. 첨부된 도면들 및 이를 참조한 설명은 본 발명에 관하여 당해 기술 분야에서 통상의 지식을 가진 자들이 쉽게 이해할 수 있도록 하기 위해 예시된 것이며, 본 발명의 사상 및 범위를 한정하려는 의도로 제시된 것은 아님에 유의하여야 할 것이다.

도 1 에서, 사용자단말기(1)는 트위터 서버(3) 및 포털사이트 서버(4)에 접속되어 각종 정보데이터를 송수신하는 스마트폰이나 태블릿PC 등의 모바일단말기 또는 노트북PC나 데스크톱PC 등이 적용된다. 사용자단말기(1)에는 유력지역 탐색용 애플리케이션(2)이 설치되어 있다.

유력지역 탐색용 애플리케이션(2)의 트윗 추출 모듈(10)은 접속된 트위터 서버(3)에서 트위터 오픈 API를 이용하여 지오태깅된 트윗(트위터 메세지)을 수집하고 추출한 후에 트윗 데이터 DB(11)에 저장한다. 또한, 키워드 추출 모듈(20)은 접속된 포털사이트 서버(4)에서 포털사이트의 오픈 API를 이용하여 포털사이트에서 제공하는 핫이슈 키워들을 범주별로 일정 개수 이상씩 추출한 후에 키워드 데이터 DB(21)에 저장한다.

유력지역 탐색용 애플리케이션(2)의 매칭모듈(30)은 키워드 추출 모듈(20)에서 추출되어 키워드 데이터 DB(21)에 각각 범주별로 저장된 키워드들을 트윗 추출 모듈(10)에서 추출되어 트윗 데이터 DB(11)에 수집 저장된 지오태깅된 트윗 데이터에 매칭시킨 후 핫이슈 키워드를 포함하는 트윗의 개수가 일정 개수 이상인 트윗과 키워드만을 추출한다.

그리고, 유력지역 탐색용 애플리케이션(2)의 노출도 산정모듈(40)은 매칭모듈(30)에서 추출된 각각의 트윗을 대상으로 노출도를 계산한 후 추출된 핫이슈 키워드 각각에 대한 행정동별 노출도를 산출한다. 또한, 유력지수 산정모듈(50)은 국지적 공간 의존성 지표를 이용하여 핫이슈 키워드 각각에 대한 행정동별 유력지수를 산출한다. 유력지역 도출 모듈(60)은 상위 일정 퍼센트(%) 값을 가지는 행정동들을 각각의 범주별로 핫이슈 키워드에 대한 유력지역으로 도출한다.

도 2 는 본 발명에 따른 특정 키워드에 대한 트위터 상의 유력지역 탐색방법의 흐름도를 나타낸 도면으로,

첫째, 트위터에서 제공하는 오픈 API(Open Application Programming Interface)를 이용하여 트윗 추출 모듈(10)은 수집을 원하는 지역을 대상으로 하여 일정 기간 동안의 지오태깅된 트위터 메시지(tweet, 이하 트윗; 트위터상에서 사용자가 게시한 메시지)를 수집 추출하여 트윗 데이터 DB(11)에 저장한다(S10). 여기서, 지오태깅된 트윗은 메시지가 생성된 지역에 대한 위치 정보를 포함하고 있다.

즉, 트위터의 오픈 API를 이용하여 수집을 원하는 지역 범위를 사용자가 직접 경위도 좌표로 지정하고, 수집을 원하는 기간 동안 지정된 해당 지역에서 발생하는 지오태깅된 트윗을 수집하게 되는 것이다. 경위도 좌표의 지정 후에는 분석 단위를 '행정동 또는 일정한 크기의 격자'(이하 행정동 이라 함)로 지정할 수 있다. 예를 들어, 서울시 전역을 대상으로 2013년 8월 5일부터 9월 5일까지 한 달(32일) 동안 168,040건의 지오태깅된 트윗을 수집하였으며, 분석 단위는 서울시의 423개 행정동이다. 여기서, 행정도 지도는 사용자단말기(1)에 이미 설치되어 있을 수도 있고, 인터넷을 통해 외부의 서버로부터 전송받을 수도 있다.

한편, 트위터의 오픈 API에서 제공하는 트윗에 대한 다양한 속성 정보 중 본 발명에서 사용한 필드는 id, contributors(id), created_at, text, coordinates, favorite_count, retweet_count, followers_count이다. id는 정수 타입으로, 해당 트윗에 대한 고유 식별자를 정수로 표현한 것이고, contributors(id)도 정수 타입으로, 트윗을 작성한 사용자의 정보를 나타낸다. created_at은 문자 타입으로, 트윗이 생성된 시간을 나타내고, text 역시 문자 타입으로, 사용자가 업데이트한 트윗 하나에 대한 전체 내용을 나타낸다. coordinates는 좌표 타입으로, 사용자나 클라이언트 애플리케이션으로부터 얻어진 트윗의 지리적 위치 정보를 나타내며, 경도, 위도의 순서로 되어 있되, 여기서 트윗의 지리적 위치 정보는 스마트 기기뿐만 아니라 일반 PC의 ip주소로부터 얻어질 수도 있다. favorite_count, retweet_count, followers_count는 모두 정수 타입으로, favorite_count는 해당 트윗이 즐겨찾기로 지정된 횟수, retweet_count는 해당 트윗이 리트윗(retweet, RT; 특정 사용자의 트윗을 자신의 구독자들이 볼 수 있도록 재전송하는 기능) 된 횟수, followers_count는 해당 사용자 계정의 현재 팔로어(follower; 어떤 사용자의 글을 구독하는 독자들) 수를 나타낸다.

둘째, 포털사에서 제공하는 오픈 API(Open Application Programming Interface)를 이용하여 키워드 추출 모듈(20)은 포털사에서 순위로 제공하는 랭킹뉴스를 대상으로 트윗 데이터 수집 기간 동안 화제가 된 핫이슈 키워드들을 범주별로 일정 개수 이상씩 추출하여 키워드 데이터 DB(21)에 저장한다(S20). 여기서, 상기 범주는 기존 언론사들이 뉴스 게재 시에 사용하고 있는 보편적인 분류 체계에 따라 복수 개의 범주(정치, 경제, IT 등)가 미리 설정되어 있고, 복수 개의 범주 중에서 몇 개를 미리 선정할 수도 있다.

예를 들어, 기존 언론사들이 뉴스 게재 시 사용하고 있는 보편적인 분류 체계(정치, 경제, 사회, 국제, 문화, 스포츠, IT 등)를 참고로 하여, 그 중에서‘정치’,‘경제’,‘IT’를 대상 범주로 설정하고, 선정한 범주별로, 국내 주요 포털사 중 네이버와 네이트를 대상으로 하여 데이터 수집 기간 동안 이슈가 되었던 뉴스를 살펴볼 수 있는데, 네이버는 기사의 조회 수, 댓글 수, 스크랩 수 등을 기준으로 분야별 상위 랭킹 뉴스를 제공하고 있으며, 네이트도 마찬가지로 관심 뉴스, 조회 순, 댓글 순 등에 따라서 범주별로 랭킹 뉴스를 검색할 수 있다. 이렇게 두 포털사에서 순위로 제공하는 뉴스 기사를 기준으로 트윗 데이터 수집 기간 동안 이슈가 된 키워드를 범주별로 각각 10개 이상씩 추출하는 식이다. 상기 범주의 내용과 개수, 상기 키워드들의 내용과 개수는 사용자의 판단과 수집 시기에 따라 다르게 지정할 수 있다.

셋째, 매칭 모듈(30)은 상기(S20)에서 범주별로 추출되어 키워드 데이터 DB(21)에 저장된 키워드들을 상기(S10)에서 수집하여 트윗 데이터 DB(11)에 저장된 지오태깅된 트윗 데이터에 매칭시켜, 핫이슈 키워드를 포함하는 트윗의 개수가 일정 개수 이상인 트윗과 키워드만을 추출한다(S30).

예를 들어, 수집한 트윗 데이터에 대입하여 추출된 키워드를 포함하는 트윗의 개수가 30개 이상인 것만을 추려내어, 결과적으로 정치 범주에서‘국정원’,‘민주당’,‘박근혜’, 경제 범주에서‘세금’,‘전월세’,‘4대강’IT 분야에서‘페이스북’,‘아이폰’,‘블로그’를 핫이슈 키워드로 선정하는 식이다.

넷째, 노출도 산정 모듈(40)은 상기(S30)에서 추출된 각각의 트윗을 대상으로 노출도(Exposure Index, EI)를 계산하고, 이에 대해 해당 지역의 행정동과 공간 결합(spatial join) 연산을 수행함으로써 상기(S30)에서 추출된 핫이슈 키워드 각각에 대한 행정동별 노출도를 산출한다(S40).

여기서, 노출도란 특정 단일 키워드를 포함하고 있는 트윗의 영향력을 나타내는 수치로, 작성자의 팔로어 수와 리트윗 사용자들의 팔로어 수, 해당 트윗이 리트윗된 횟수, 그리고 해당 트윗이 즐겨찾기로 지정된 횟수를 더함으로써 구할 수 있으며, 0 이상의 정수값을 가진다. 범주별로 선정된 키워드를 포함하는 트윗에 대해 각각의 노출도를 계산하여 이를 해당 트윗 객체의 속성으로 부여하게 되는 것이다.

즉, 노출도(EI) = (작성자의 팔로어 수 + 리트윗 사용자들의 팔로어 수 + 해당 트윗이 리트윗된 횟수 + 해당 트윗이 즐겨찾기로 지정된 횟수) 으로 상기 노출도 산정 모듈(40)은 이를 이용한다. 이러한 트윗의 노출도는 팔로어 유력자의 개념과 리트윗 유력자의 개념을 모두 고려한 것이고 영향력 있는 트윗의 노출도를 가중하는 효과와 함께 노출도의 장기적인 영향까지 고려한 것이다.

또한, 노출도가 부여된 트윗과 상기에서 설정한 범위의 행정동(예를 들어, 서울시의 423개 행정동)에 대해 공간 결합 연산(폴리곤인 행정동에 포인트인 트윗을 중첩시키는 것)을 실시하는데, 이때 하나의 행정동에 노출도가 부여된 여러 개의 트윗이 포함되는 경우, 해당되는 노출도 간의 단순 합을 통해 이를 속성으로 부여한다. 결과적으로 노출도의 값이 높게 산출된 행정동은 해당 키워드에 대한 발언에 영향력을 가지는 유력자가 다수 분포하고 있음을 의미한다.

다섯째, 유력지수 산정 모듈(50)은 상기(S40)에서 산출된 행정동별 노출도를 바탕으로 국지적 공간 의존성 지표인

를 이용하여 핫이슈 키워드 각각에 대한 행정동별 유력지수(Influenial Index, II)를 산출한다(S50). 다음의 수학식 1은

의 계산식으로 유력지수 산정 모듈(50)은 이를 이용한다.

여기서, i와 j는 각 공간단위(예를 들어, 서울시 행정동 423개)를 의미하고,

는 공간단위i의 국지적 공간 의존성 지표값이며, w_ij는 공간 가중 행렬의 요소 값으로 i와 j가 인접하면 1, 그렇지 않으면 0의 값을 갖고 행표준화 (row-standardized)가 행해진 값이며, 자신 또한 이웃으로 간주하기 때문에 w_ii=1이다. 또한 n은 i와 j로 이루어진 모든 공간 단위의 개수(예를 들어, 서울시 행정동 423개), x_j는 j번째 변수(즉, 각각의 행정동에 대한 노출도의 단순 합),

는 x_j의 평균(

), s는 x_j의표준편차(

)를 의미한다. 이 통계량의 기댓값은 0이고, 분산은 거의 1이다. 이처럼 국지적 차원에서 공간적 의존성을 정량화할 수 있다. 참고로, 도 3 은 공간 가중 행렬의 예시를 나타낸 도면이다.

상기

가 가지는 가장 큰 장점은 통계치로부터 직관적으로 핫 스팟(hot spots, 높은 속성 값을 가지는 분석 단위들이 집중되어 있는 지역)인지 콜드 스팟(cold spots, 낮은 속성 값을 가지는 분석 단위들이 집중되어 있는 지역)인지 확인할 수 있다는 점이다. 즉,

가 양수면 핫 스팟과 관련되고, 음수면 콜드 스팟과 관련된다. 이러한 특성은 다른 통계량에서는 찾아볼 수 없는

만의 장점이다.

또한, 상기 유력지수는 각 키워드에 대해 행정동별로 산출된 노출도와 해당 노출도의 공간적 의존성의 정도를 가중치로 하여 나타낸 값을 곱하여 구해지는 수치로, 키워드가 2개 이상일 경우 이들의 가중 합이 유력지수가 된다. 이때 노출도의 공간적 의존성을 고려하기 위해 국지적 공간 의존성 지수인 상기

를 사용한다. 유력지수는 표준화를 통해 0과 1사이의 실수 값을 가지며, 유력지수가 1에 가까울수록 해당 키워드에 대한 발언에 영향력을 가지는 유력자가 다수 분포하고 있음을 나타낸다. 다음의 수학식 2(각 키워드, 즉, 특정 키워드 1개에 대한 유력지수)와 수학식 3(키워드가 2개 이상인 경우의 유력지수)은 유력지수(II_i)에 대한 계산식으로 유력지수 산정 모듈(50)은 이를 이용한다.

여기서, II_i는특정 키워드 1개에 대한 공간단위i의 유력지수,

는 특정 키워드 1개에 대한 공간단위i의 국지적 공간 의존성 지표값, EI_i는 특정 키워드 1개에 대한 공간단위i의 노출도, i'는 각 공간단위를 의미하는 것으로 상기 수학식 2의 분모는 각 공간단위에 대한 값 중에서 최대값이다.

여기서, II_i는키워드가 2개 이상인 경우에 대한 공간단위i의 유력지수,

는 키워드 k에 대한 공간단위i의 국지적 공간 의존성 지표값, EI_i _,k는 키워드 k에 대한 공간단위i의 노출도, m은 키워드 갯수, i'는 각 공간단위를 의미하는 것으로 상기 수학식 3의 분모는 각 공간단위에 대한 값 중에서 최대값이다.

여섯째, 유력지역 도출 모듈(60)은 상기(S50)에서 산출된 유력지수를 바탕으로, 상위 일정% 값을 가지는 행정동들을 각각의 범주별 핫이슈 키워드에 대한 유력지역으로 도출한다(S60).

예를 들어, 도 4 는 키워드별 유력지역 검색 서비스 화면의 예시를 나타낸 도면으로, 산출된 유력지수가 상위 5% 값을 가지는 행정동들을 해당 키워드에 대한 유력지역으로 도출하는 것이다. 도 4의 서비스 화면은 ㉠ 검색 화면 ㉡ 결과 목록 및 그래픽 제공 화면 ㉢ 유력지역 지도 결과 화면으로 이루어져 있다. 서비스에 접속하여 사용자가 검색을 원하는 기간의 범위와 키워드를 자유롭게 입력할 수 있으며, 범주는 서비스상에서 지정된 범위 내에서 선택 가능한데, 상기 키워드와 범주는 상기 S20단계에서의 키워드 데이터 DB(21)에 저장된 데이터의 범위 내에서 선택 가능하다. 여기서 상기 유력지역 지도는 키워드를 포함하는 트윗 데이터 중에서 상위 5%의 유력지수를 가지는 지역들을 추출한 것으로, 해당 내용에 대한 세부 사항은 ㉡의 결과 표에서 확인할 수 있다. 또한, 표와 함께 유력지수가 가장 높게 산출된 행정동에 대한 정보를 하단에 그래픽화하여 표기함으로써 사용자의 보다 직관적인 이해를 돕고자 할 수도 있다. 또한, 상기 서비스 화면은 단일 키워드뿐 아니라 2개 이상의 다중 키워드에 대한 유력지수 및 유력지역 탐색 기능도 제공한다. 도 4의 ㉠에서 ‘더 많은 키워드 추가하기’를 클릭하여 검색을 원하는 키워드 및 범주를 차례로 선택하면 여러 키워드에 대한 통합적인 유력지수 산출과 유력지역 검색이 가능하다. 마찬가지로, 행정도 지도는 사용자단말기(1)에 이미 설치되어 있을 수도 있고, 인터넷을 통해 외부의 서버로부터 전송받을 수도 있다.

상기 일련의 과정은 이를 컴퓨터로 수행하기 위해 프로그램 언어를 통해 직접 알고리즘을 코딩한 프로그램에 의해 이루어지고, 상기에서는 트위터를 대상으로 하고 있지만 페이스북 등 다른 SNS에도 적용될 수 있을 것이다.

따라서, 본 발명은, 트위터상에서 발생하는 메시지를 대상으로 특정 키워드에 대한 유력지역를 파악함으로써 gCRM(geographic Customer Relationship Management) 등의 위치 정보를 활용하는 마케팅 분야에 도움이 될 수 있다. 예컨대, 플래그십 스토어(flagship store) 등의 물리적 장소가 필요한 마케팅을 실시하고자 할 때 위치 정보가 포함된 메시지에 대한 유력자의 공간정보를 파악하는 것이 도움이 될 수 있다. 좀 더 구체적으로, 통신사에서 새 스마트폰 출시를 앞두고 오프라인 홍보를 실시하고자 할 때, 해당 제품과 관련된 발언에 영향력을 가짐으로써 여러 사람들을 잠재적 고객으로 끌어올릴 수 있는 유력자가 어느 지역에 많이 분포하고 있는지가 중요한 정보일 것이며, 이때 해당 키워드에 대한 유력지역 정보가 유용하게 사용될 수 있다.

다시 말해, 본 발명은 위치 정보를 포함하는 소셜 데이터를 대상으로 특정한 키워드에 대해 영향력을 가지는 유력자가 다수 분포하고 있는 유력지역을 탐색하는 것으로, 기업 마케팅 분야에서 신제품 등의 시장 확산에 있어서 초기 채택자 혹은 초기 수용자의 역할이 매우 중요하기 때문에, 특정 키워드에 대한 유력자들의 위치 정보를 파악하고, 해당 지역에서 관련 마케팅을 실시할 수 있다는 점에서 도움이 될 수 있을 것이다.

1: 사용자단말기 2: 유력지역 탐색용 애플리케이션
3: 트위터 서버 4: 포털사이트 서버
10: 트윗 추출 모듈 20: 키워드 추출 모듈
30: 매칭 모듈 40: 노출도 산정 모듈
50: 유력지수 산정 모듈 60: 유력지역 도출 모듈
11: 트윗 데이터 DB 21: 키워드 데이터 DB

Claims

(a) 트위터에서 제공하는 오픈 API(Open Application Programming Interface)를 이용하여 트윗 추출 모듈(10)이 수집을 원하는 지역을 대상으로 하여 일정 기간 동안의 지오태깅된 트윗을 수집 추출하여 트윗 데이터 DB(11)에 저장하는 단계와;
(b) 포털사에서 제공하는 오픈 API(Open Application Programming Interface)를 이용하여 키워드 추출 모듈(20)이 포털사에서 순위로 제공하는 랭킹뉴스를 대상으로 트윗 데이터 수집 기간 동안 화제가 된 핫이슈 키워드들을 범주별로 일정 개수 이상씩 추출하여 키워드 데이터 DB(21)에 저장하는 단계와;
(c) 매칭 모듈(30)이 상기 단계(b)에서 범주별로 추출되어 키워드 데이터 DB(21)에 저장된 키워드들을 상기 단계(a)에서 수집하여 트윗 데이터 DB(11)에 저장된 지오태깅된 트윗 데이터에 매칭시켜, 핫이슈 키워드를 포함하는 트윗의 개수가 일정 개수 이상인 트윗과 키워드만을 추출하는 단계와;
(d) 노출도 산정 모듈(40)이 상기 단계(c)에서 추출된 각각의 트윗을 대상으로 노출도(Exposure Index, EI)를 계산하고, 노출도가 부여된 트윗에 대해 해당 지역의 행정동과 공간 결합(spatial join) 연산을 수행함으로써 상기 단계(c)에서 추출된 핫이슈 키워드 각각에 대한 행정동별 노출도를 산출하는 단계, 및
(e) 유력지수 산정 모듈(50)이 상기 단계(d)에서 산출된 행정동별 노출도를 바탕으로 국지적 공간 의존성 지표인
를 이용하여 핫이슈 키워드 각각에 대한 행정동별 유력지수(Influenial Index, II)를 산출하는 단계로 이루어지되,
상기 국지적 공간 의존성 지표인
은 다음의 수학식,
(여기서, i와 j는 각 공간단위(예를 들어, 서울시 행정동 423개)를 의미하고,
는 공간단위i의 국지적 공간 의존성 지표값이며, w_ij는 공간 가중 행렬의 요소 값으로 i와 j가 인접하면 1, 그렇지 않으면 0의 값을 갖고 행표준화 (row-standardized)가 행해진 값이며, 자신 또한 이웃으로 간주하기 때문에 w_ii=1이고, n은 i와 j로 이루어진 모든 공간 단위의 개수(예를 들어, 서울시 행정동 423개), x_j는 j번째 변수(즉, 각각의 행정동에 대한 노출도의 단순 합),
는 x_j의 평균(
), s는 x_j의표준편차(
)임)으로 산출하는 것을 특징으로 하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법.
제 1 항에 있어서,
(f) 유력지역 도출 모듈(60)이 상기 단계(e)에서 산출된 유력지수를 바탕으로, 상위 일정% 값을 가지는 행정동들을 각각의 범주별 핫이슈 키워드에 대한 유력지역으로 도출하는 단계가 추가로 포함되는 것을 특징으로 하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법.
제 1 항에 있어서,
트위터의 오픈 API에서 제공하는 트윗에 대한 속성 정보 중 사용하는 필드는 id, contributors(id), created_at, text, coordinates, favorite_count, retweet_count, followers_count 인 것을 특징으로 하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법.
제 1 항에 있어서,
상기 단계(d)에서, 노출도(EI) = (작성자의 팔로어 수 + 리트윗 사용자들의 팔로어 수 + 해당 트윗이 리트윗된 횟수 + 해당 트윗이 즐겨찾기로 지정된 횟수) 인 것을 특징으로 하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법.
제 1 항에 있어서,
상기 단계(d)에서, 상기 공간 결합 연산은 폴리곤인 행정동에 포인트인 트윗을 중첩시키는 것으로, 하나의 행정동에 노출도가 부여된 여러 개의 트윗이 포함되는 경우 해당되는 노출도 간의 단순 합을 속성으로 부여하는 것을 특징으로 하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법.
삭제
제 1 항에 있어서,
상기 단계(e)에서, 특정 키워드 1개에 대한 유력지수는 다음의 수학식,
(여기서, II_i는특정 키워드 1개에 대한 공간단위i의 유력지수,
는 특정 키워드 1개에 대한 공간단위i의 국지적 공간 의존성 지표값, EI_i는 특정 키워드 1개에 대한 공간단위i의 노출도, i'는 각 공간단위를 의미하는 것으로 상기 수학식의 분모는 각 공간단위에 대한 값 중에서 최대값)으로 산출하고,
키워드가 2개 이상인 경우의 유력지수는 다음의 수학식,
(여기서, II_i는키워드가 2개 이상인 경우에 대한 공간단위i의 유력지수,
는 키워드 k에 대한 공간단위i의 국지적 공간 의존성 지표값, EI_i _,k는 키워드 k에 대한 공간단위i의 노출도, m은 키워드 갯수, i'는 각 공간단위를 의미하는 것으로 상기 수학식의 분모는 각 공간단위에 대한 값 중에서 최대값)으로 산출하는 것을 특징으로 하는, 국지적 공간 의존성 지표를 이용하여 특정 키워드에 대한 트위터 상의 유력지역 탐색방법.