KR20190065661A

KR20190065661A - Sns 데이터를 이용하여 검색어에 따른 결과를 제공하는 장치 및 방법과, 이를 수행하기 위한 기록 매체

Info

Publication number: KR20190065661A
Application number: KR1020170165067A
Authority: KR
Inventors: 정재은; 박재홍; 이오준; 홍민성
Original assignee: 중앙대학교 산학협력단
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2019-06-12
Also published as: KR102006549B1

Abstract

SNS 데이터를 이용하여 검색어에 따른 결과를 제공하는 장치 및 방법과, 이를 수행하기 위한 기록 매체가 개시된다. 개시된 장치는, 컴퓨터에서 판독 가능한 명령을 저장하는 메모리; 및 상기 명령을 실행하도록 구현되는 프로세서;를 포함하되, 상기 프로세서는, SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하고, 검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하고, 상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공한다.

Description

SNS 데이터를 이용하여 검색어에 따른 결과를 제공하는 장치 및 방법과, 이를 수행하기 위한 기록 매체{Server and Method for providing search results using SNS date, Recording medium for performing the method}

본 발명의 실시예들은 SNS 데이터 및 이와 태깅된 시간 정보 및 공간 정보를 이용하여 검색어에 대한 정확한 결과를 제공하는 장치 및 방법과, 이를 수행하기 위한 기록 매체에 관한 것이다.

소셜 미디어는 트위터(Twitter), 페이스북(Facebook) 등과 같은 소셜 네트워킹 서비스(SNS: Social　Networking　Service)에 가입한 이용자들이 서로　정보와 의견을 공유하면서 대인관계망을 넓힐 수 있는 플랫폼을 가리킨다. 소셜 미디어의 확산으로 많은 양의 정보들이 유통되고 있으며 사용자들의 정보 습득 경로 또한 변화하고 있다. 이에 따라, 소셜 미디어 상의 텍스트에 대한 분석이 요구되고 있다.

소셜 미디어의 특성상 텍스트의 길이가 일반적인 웹 문서들에 비해 상대적으로 짧기 때문에, 기존의 정보 검색 기법들을 적용하기에는 무리가 있다. 특히, 소셜 미디어에서는 정보의 유통량이 크고 소모되는 속도가 빠르기 때문에 시간의 흐름과 위치의 이동에 따른 단어 간 의미적 연관성 또한 빠르게 변화한다.

또한, 데이터들이 실시간으로 급격히 변하며 방대한 양의 정보를 가지고 있기 때문에 빅데이터 관점에서 접근해야 한다. 이러한 이유로 기존의 정보 검색 기법들은 도메인 환경의 변화를 빠르게 받아들이고 그에 따라 모델을 갱신하는데 한계를 갖는다.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 SNS 데이터 및 이와 태깅된 시간 정보 및 공간 정보를 이용하여 검색어에 대한 정확한 결과를 제공하는 장치 및 방법과, 이를 수행하기 위한 기록 매체를 제안하고자 한다.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 컴퓨터에서 판독 가능한 명령을 저장하는 메모리; 및 상기 명령을 실행하도록 구현되는 프로세서;를 포함하되, 상기 프로세서는, SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하고, 검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하고, 상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공하는 것을 특징으로 하는 서가 제공된다. ]

상기 프로세서는, 상기 SNS 데이터에 등장한 복수의 단어에 대한 2 이상의 단어 쌍의 시간적 단어 연관값 및 공간적 단어 연관값을 산출하고, 상기 2 이상의 단어 쌍 각각 시간적 단어 연관값을 K-평균 군집화(K-means clustering) 알고리즘에 대입하여 상기 복수의 시간적 연관 단어 그룹을 산출하고, 상기 2 이상의 단어 쌍 각각의 공간적 단어 연관값을 K-평균 군집화 알고리즘에 대입하여 상기 복수의 공간적 연관 단어 그룹을 산출할 수 있다.

상기 SNS 데이터는 복수의 텍스트를 포함하고, 상기 복수의 텍스트 각각에는 상기 텍스트가 생성된 시간 구간 정보가 태깅되어 있으며, 상기 프로세서는, 상기 복수의 단어 각각의 시간적 동시 발생 빈도를 산출하고, 상기 복수의 단어 각각의 시간적 동시 발생 빈도에 기초하여 상기 2 이상의 단어 쌍의 시간적 단어 연관값을 산출하되, 상기 복수의 단어 각각의 시간적 동시 발생 빈도는, 상기 복수의 텍스트가 생성된 시간 구간 별로 상기 단어와 기준 단어가 상기 복수의 텍스트에서 동시에 발생하는 빈도를 의미할 수 있다.

상기 단어의 시간적 동시 발생 빈도는 아래의 수학식과 같이 표현될 수 있다.

여기서,

는 상기 단어

의 시간적 동시 발생 빈도,

는 상기 시간 구간 중 n번째 시간 구간,

는 상기 복수의 텍스트 중 l번째 텍스트,

는 상기 복수의 텍스트의 개수,

는 상기 n번째 시간 구간

동안 상기 l번째 텍스트에서 상기 기준 단어

와 상기 단어

가 동시에 등장하는 빈도,

는 상기 n번째 시간 구간

동안 상기 복수의 텍스트 모두에서 상기 기준 단어

와 상기 단어

가 동시에 등장하는 빈도를 각각 의미함.

상기 2 이상의 단어 쌍 각각의 시간적 단어 연관값은 아래의 수학식과 같이 표현될 수 있다.

여기서,

는 단어

와 단어

로 구성된 단어 쌍의 시간적 단어 연관값,

는 상기 단어

의 시간적 동시 발생 빈도,

는 상기 단어

의 시간적 동시 발생 빈도,

는 상기 시간적 동시 발생 빈도

와 상기 시간적 동시 발생 빈도

의 각 거리(angular distance),

는 상기 시간적 동시 발생 빈도

와 상기 시간적 동시 발생 빈도

의 유클리드 거리(Euclidean distance)를 각각 의미함.

상기 SNS 데이터는 복수의 텍스트를 포함하고, 상기 복수의 텍스트 각각에는 상기 텍스트가 생성된 공간 정보가 태깅되어 있으며, 상기 프로세서는, 상기 복수의 단어 각각의 공간적 동시 발생 빈도를 산출하고, 상기 복수의 단어 각각의 공간적 동시 발생 빈도에 기초하여 상기 2 이상의 단어 쌍의 공간적 단어 연관값을 산출하되, 상기 복수의 단어 중 어느 하나의 단어의 공간적 동시 발생 빈도는, 상기 복수의 텍스트가 생성된 공간 정보 별로 상기 어느 하나의 단어와 기준 단어가 상기 복수의 텍스트에서 동시에 발생하는 빈도를 의미할 수 있다.

상기 어느 하나의 단어의 공간적 동시 발생 빈도는 아래의 수학식과 같이 표현될 수 있다.

여기서,

는 상기 어느 하나의 단어

의 공간적 동시 발생 빈도,

는 상기 복수의 텍스트가 생성된 공간 정보 중 위도 정보,

는 상기 복수의 텍스트가 생성된 공간 정보 중 경도 정보,

는 위도가

이고 경도가

인 공간에서 생성된 텍스트에서 상기 기준 단어

와 상기 어느 하나의 단어

가 동시에 등장하는 빈도를 각각 의미함.

상기 2 이상의 단어 쌍의 공간적 단어 연관값은 아래의 수학식과 같이 표현될 수 있다.

여기서,

는 단어

와 단어

로 구성된 단어 쌍의 공간적 단어 연관값,

는 상기 단어

의 공간적 동시 발생 빈도,

는 상기 단어

의 공간적 동시 발생 빈도를 각각 의미함.

또한, 본 발명의 다른 실시예에 따르면, 프로세서가 포함된 장치에서 수행되는 검색 결과 제공 방법에 있어서, SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하는 단계; 검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하는 단계; 및 상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공하는 단계;를 포함하는 것을 특징으로 하는 검색 결과 제공 방법이 제공된다.

또한, 본 발명의 다른 실시예에 따르면, 검색어를 이용한 검색 결과 제공을 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 기록매체로서, SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하는 단계; 검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하는 단계; 및 상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공하는 단계;를 수행하는 프로그램이 기록된 기록매체가 제공된다.

본 발명에 따르면, SNS 데이터 및 이와 태깅된 시간 정보 및 공간 정보를 이용하여 검색어에 대한 정확한 검색 결과를 제공할 수 있는 장점이 있다.

또한, 본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 검색 결과 제공 시스템의 개략적인 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 관리 서버의 개략적인 구성을 도시한 도면이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 검색어에 따른 결과를 제공하는 방법의 흐름도를 도시한 도면이다.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

이하, 본 발명의 다양한 실시예들을 첨부된 도면을 참조하여 상술한다.

도 1은 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)의 개략적인 구성을 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)는 단말 장치(110) 및 관리 서버(120)를 포함한다.

단말 장치(110)는 데스크탑 컴퓨터, 스마트폰, 태블릿 PC 등 마이크로 프로세서 기반의 장치를 통칭하는 개념으로, 사용자로부터 검색어를 입력받고, 결과를 디스플레이에 출력하는 장치이다.

관리 서버(120)는 사용자로부터 입력된 검색어를 통해 결과를 도출하며, 그 결과를 단말 장치(110)로 전송한다. 이 때, 관리 서버(120)는 결과의 정확도를 높이기 위해 시간 정보 및 공간 정보가 태깅되어 있는 SNS 데이터인 복수의 마이크로 텍스트 내지 숏 텍스트를 이용하여 결과를 도출할 수 있다. 예를 들어, 검색어에 따른 결과는 검색어를 이용한 정보 검색, 검색어의 자동 완성 등이 있다.

즉, 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)을 이용한 검색 방법은 사용자로부터 입력된 검색어의 생성 시간 정보(어느 시점에 검색어가 입력) 또는 생성 공간 정보(어느 장소에서 검색어가 입력)를 이용하여 생성 시간 정보와 연관되는 결과 또는 생성 공간 정보와 대응되는 결과를 제공한다. 이 때, 정확한 결과를 제공하기 위해 시간 정보 및 공간 정보가 태깅된 SNS 데이터가 이용될 수 있다. 여기서, 시간 정보 및 공간 정보 역시 SNS 데이터가 생성된 시간 및 공간에 대한 정보이다.

일례로서, "football"이라는 단어는 "축구"(영국의 경우)과 "미식 축구"(미국의 경우)의 두 가지 의미를 가진다. 만약 사용자가 영국에서 "football"이라는 검색어를 단말 장치(110)에 입력하는 경우, 관리 서버(120)는 검색어의 생성 공간 정보(영국)를 파악하여 "축구"와 관련된 검색 결과를 단말 장치(110)로 제공한다. 반대로, 사용자가 미국에서 "football"이라는 검색어를 단말 장치(110)에 입력하는 경우, 관리 서버(120)는 검색어의 생성 공간 정보(미국)를 파악하여 "미식축구"와 관련된 검색 결과를 단말 장치(110)로 제공한다.

다른 일례로서, "택시"이라는 단어는 2017년 개봉된 영화인 "택시 운전사"와, 운송 수단인 "택시"과 관련된 의미를 가질 수 있다. 만약, 사용자가 번화가에서, 오후 5시 부근에 "택시"이라는 검색어를 단말 장치(110)에 입력하는 경우, 관리 서버(120)는 검색어의 생성 시간 정보를 파악하여 영화 "택시 운전사"와 관련된 검색 결과(일례로, 상영 시간표)를 단말 장치(110)로 제공한다. 반대로, 사용자가 번화가에서, 오후 11시 부근에 "택시"이라는 검색어를 단말 장치(110)에 입력하는 경우, 관리 서버(120)는 검색어의 생성 시간 정보를 파악하여 운송 수단인 "택시"와 관련된 검색 결과(일례로, 콜 택시 연락처)를 단말 장치(110)로 제공한다.

이하, 도 2 및 도 3을 참조하여, 본 발명의 일 실시예에 따른 관리 서버(120)의 동작을 보다 상세하게 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 관리 서버(120)의 개략적인 구성을 도시한 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 관리 서버(120)는 입력부(210), 메모리부(220) 및 프로세서부(230)를 포함한다. 이하, 각 구성 요소 별로 그 기능을 상세하게 설명하기로 한다.

입력부(210)는 단말 장치(110)와 통신 연결된다. 즉, 입력부(210)는 검색어를 단말 장치(110)로부터 수신하고 검색어에 따른 결과(일례로, 정보 검색 결과)를 단말 장치(110)로 전송한다.

메모리부(220)는 휘발성 및/또는 비휘발성 메모리일 수 있고, 관리 서버(120)의 적어도 하나의 다른 구성요소에 관계된 명령어 또는 데이터를 저장한다. 특히, 메모리부(220)는 검색어에 따른 결과를 제공하는 프로그램과 관련된 명령 또는 데이터를 저장할 수 있다.

프로세서부(230)는 중앙처리장치, 애플리케이션 프로세서, 또는 커뮤니케이션 프로세서 중 하나 또는 그 이상을 포함할 수 있다. 예를 들면, 프로세서부(230)는 관리 서버(120)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다. 특히, 프로세서부(130)는 프로그램의 실행에 관계된 명령을 실행할 수 있다.

도 3은 본 발명의 일 실시예에 따른 관리 서버(120)의 동작인 검색어에 따른 결과를 제공하는 방법의 흐름도를 도시한 도면이다. 이하, 각 단계 별로 수행되는 과정을 설명하기로 한다.

먼저, 단계(310)에서, 프로세서부(230)는 통신부(210)을 통해 다수의 SNS 데이터를 수집한다.

이 때, SNS 데이터는 적은 수의 단어를 포함하는 마이크로 텍스트를 복수 개 포함할 수 있다. 그리고, 각각의 마이크로 텍스트에는 텍스트가 생성된 시간 정보 및 공간 정보가 자동으로 태깅될 수 있다. 한편, 단계(310)에서, 프로세서부(230)는 복수의 마이크로 텍스트에서 단어를 추출 내지 정제하고, 태깅된 시간 정보 및 공간 정보를 추출하는 동작을 더 수행할 수 있다.

다음으로, 단계(320)에서, 프로세서부(230)는 검색어의 결과 생성에 이용되는 복수의 시간적 연관 단어 그룹을 산출한다. 이 때, 복수의 시간적 연관 단어 그룹 각각은 시간적 관점에서 서로 관련되어 있는 의미의 단어들이 분류된 그룹이다.

도 4는 본 발명에 따른 단계(320)의 세부적인 흐름도를 도시한 도면이다.

단계(321)에서, 프로세서부(230)는 SNS 데이터를 구성하는 복수의 마이크로 텍스트에 등장한 복수의 단어 각각의 시간적 동시 발생 빈도(co-occurrence frequency)를 산출한다.

이 때, 복수의 단어 각각의 시간적 동시 발생 빈도는, 복수의 텍스트가 생성된 시간 구간 별로 해당 단어와 기준 단어가 복수의 텍스트에서 동시에 발생하는 빈도, 즉 공통으로 등장하는 빈도를 의미한다. 이 때, 기준 단어는 복수의 마이크로 텍스트 모두에 포함되어 있는 단어일 수 있다.

본 발명의 일 실시예에 따르면, 복수의 단어 각각의 시간적 동시 발생 빈도는 아래의 수학식 1과 같이 표현될 수 있다.

여기서,

는 해당 단어

(

)의 시간적 동시 발생 빈도,

는 시간 구간 중 n번째 시간 구간,

는 복수의 텍스트 중 l번째 텍스트,

는 복수의 텍스트의 개수,

는 n번째 시간 구간

동안 l번째 텍스트에서 기준 단어

와 해당 단어

가 동시에 등장하는 빈도,

는 n번째 시간 구간

동안 복수의 텍스트 모두에서 기준 단어

와 해당 단어

가 동시에 등장하는 빈도를 각각 의미한다.

한편, 시간적 동시 발생 빈도

는 도 5와 같이 표현될 수 있다. 도 5를 참조하면, 벡터로 표현되는 동시 발생 빈도

는 각각의 시간에 따라 두 단어의 동시 발생 빈도가 변화하는 모양을 나타낸다. 따라서, 비슷한 특성을 가진 벡터들을 분류하여 연관성을 가지는 단어들을 군집화할 수 있다. .

그리고, 단계(322)에서, 프로세서부(230)는, 복수의 단어 각각의 시간적 동시 발생 빈도에 기초하여 2 이상의 단어 쌍 각각의 시간적 단어 연관값을 산출한다. 이 때, 2 이상의 단어 쌍 각각은 2개의 단어가 임의적으로 서로 쌍을 이룬 것으로써, 2개의 단어는 복수의 단어에 포함되는 단어이다.

본 발명의 일 실시예에 따르면, 2 이상의 단어 쌍 각각의 시간적 단어 연관값은 아래의 수학식 2과 같이 표현될 수 있다.

여기서,

는 단어

와 단어

로 구성된 단어 쌍의 시간적 단어 연관값,

는 단어

의 시간적 동시 발생 빈도,

는 단어

의 시간적 동시 발생 빈도를 의미한다.

그리고,

는 시간적 동시 발생 빈도

와 시간적 동시 발생 빈도

사이의 유사도(방향성)을 의미하며,

는 시간적 동시 발생 빈도

와 시간적 동시 발생 빈도

의 각 거리(angular distance)를 의미한다. 이 때, 벡터들

및

의 방향성이 비슷하면 시간에 따른 두 단어

및

의 동시 발생 빈도가 유사하게 변화한다는 것을 의미한다. 따라서,

에서 도출되는

에 따른 각 거리가 작을수록 두 단어

및

의 동시 발생 빈도가 유사하게 변화함을 알 수 있다.

또한,

는 시간적 동시 발생 빈도

와 시간적 동시 발생 빈도

의 유클리드 거리(Euclidean distance)를 의미한다. 두 단어

및

의 유클리드 거리가 작은 값을 갖는 경우, 두 단어 간의 동시 출현 빈도의 총합이 비슷하다는 것을 의미하고, 이는 단어의 사용 빈도가 유사성이 있다는 것을 의미한다.

마지막으로, 단계(323)에서, 프로세서부(230)는 2 이상의 단어 쌍 각각의 시간적 단어 연관값을 K-평균 군집화(K-means clustering) 알고리즘에 대입하여 복수의 시간적 연관 단어 그룹을 산출한다.

K-평균 군집화 알고리즘은 임의의 데이터 집단을 K개의 클러스터로 나누어주는 알고리즘을 의미한다. 여기서, K-평균 군집화 알고리즘은, i) 클러스터링을 하고자 하는 K를 결정하고, ii) 결정된 K에 기초하여 K개의 수만큼의 임의의 중심점 C(C1, C2, C3, … , Ck)를 결정하고, iii) 각 중심점에서의 각각의 데이터의 거리를 계산한 후 가장 가까운 것들을 그 데이터 그룹에 소속시키고, iv) 각 데이터 그룹에 대하여 다시 새로운 중심점을 산출하고, v) 새로운 중심점을 이용하여 데이터 그룹을 업데이트하며, vi) 데이터의 그룹이 변하지 않을 때까지 iii) ~ v) 과정을 반복한다.

즉, 단계(323)에서, 프로세서부(230)는 K-평균 군집화 알고리즘에 사용되는 데이터로 2 이상의 단어 쌍 각각의 시간적 단어 연관값을 사용한다. 이 때, K개의 시간적 연관 단어 그룹(클러스터)을 생성하기 위한 파라미터

는 아래의 수학식 3과 같이 표현될 수 있다.

여기서,

는 l번째 클러스터의 중심점인 단어,

는 클러스터,

는 각각의 클러스터에 포함된 단어 간의 intra-compactness,

는 클러스터 사이의 inter-adjacency를 각각 의미한다. 여기서,

값이 최소가 될 때 가장 적합한 클러스터링을 형성한다.

그리고, 적절한 시간적 연관 단어 그룹의 수(즉, K)를 구하기 위해 프르세서부(230)는 점진적인 기법을 이용한다. 즉, k=1에서 시작하여 하나씩 증가시키며, 증가된 k에서의 전체 거리의 합이 더 작은 경우 k=2로 수정하고 이를 반복하여 진행한다.

다시 도 3을 참조하면, 단계(330)에서, 프로세서부(230)는 검색어의 결과 생성에 이용되는 복수의 공간적 연관 단어 그룹을 산출한다. 이 때, 복수의 공간적 연관 단어 그룹 각각은 공간적 관점에서 서로 관련되어 있는 의미의 단어들이 분류된 그룹이다.

도 5는 본 발명에 따른 단계(320)의 세부적인 흐름도를 도시한 도면이다.

단계(331)에서, 프로세서부(230)는 SNS 데이터를 구성하는 복수의 마이크로 텍스트에 등장한 복수의 단어 각각의 공간적 동시 발생 빈도를 산출한다.

이 때, 복수의 단어 각각의 공간적 동시 발생 빈도는 복수의 텍스트가 생성된 장소 별로 해당 단어와 기준 단어가 복수의 텍스트에서 동시에 발생하는 빈도, 즉 공통으로 등장하는 빈도를 의미한다.

본 발명의 일 실시예에 따르면, 복수의 단어 각각의 공간적 동시 발생 빈도는 아래의 수학식 4와 같이 표현될 수 있다.

여기서,

(

)는 해당 단어

의 공간적 동시 발생 빈도,

는 복수의 마이크로 텍스트가 생성된 공간 정보 중 위도 정보,

는 복수의 마이크로 텍스트가 생성된 공간 정보 중 경도 정보,

는 위도가

이고 경도가

인 공간에서 생성된 마이크로 텍스트에서 기준 단어

와 해당 단어

가 동시에 등장하는 빈도를 각각 의미한다.

그리고, 단계(332)에서, 프로세서부(230)는 복수의 단어 각각의 공간적 동시 발생 빈도에 기초하여 2 이상의 단어 쌍 각각의 공간적 단어 연관값을 산출한다.

본 발명의 일 실시예에 따르면, 2 이상의 단어 쌍 각각의 공간적 단어 연관값은 아래의 수학식 5와 같이 표현될 수 있다.

여기서,

는 단어

와 단어

로 구성된 단어 쌍의 공간적 단어 연관값,

는 단어

의 공간적 동시 발생 빈도,

는 단어

의 공간적 동시 발생 빈도를 각각 의미한다.

마지막으로, 단계(333)에서, 프로세서부(230)는 2 이상의 단어 쌍 각각의 공간적 단어 연관값을 K-평균 군집화 알고리즘에 대입하여 복수의 공간적 연관 단어 그룹을 산출한다. 즉, 프로세서부(230)는 K-평균 군집화 알고리즘에 사용되는 데이터로 2 이상의 단어 쌍 각각의 공간적 단어 연관값을 사용한다. 이 때, K개의 공간적 연관 단어 그룹(클러스터)을 생성하기 위한 파라미터

는 아래의 수학식 6과 같이 표현될 수 있다.

여기서,

는 l번째 클러스터의 중심점인 단어,

는 클러스터,

는 각각의 클러스터에 포함된 단어 간의 intra-compactness,

는 클러스터 사이의 inter-adjacency를 각각 의미한다. 그리고, 적절한 공간적 연관 단어 그룹의 수(즉, K)를 구하기 위해 프르세서부(230)는 점진적인 기법을 이용한다.

다시 도 3을 참조하면, 단계(340)에서, 프로세서부(230)는 사용자로부터 검색어가 입력되는 경우 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹과, 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색한다.

마지막으로, 단계(350)에서, 프로세서부(230)는 검색된 하나의 시간적 연관 단어 그룹 및 검색된 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 검색어와 관련된 결과를 제공한다. 제공된 결과는 단말 장치(110)로 전송될 수 있다.

정리하면, 본 발명의 일 실시예에 따른 검색 결과 제공 시스템(100)은 시간 정보 및 공간 정보가 태깅되어 있는 복수의 마이크로 텍스트와, 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 검색어와 관련된 정확한 결과(일례로, 정보 검색)을 도출할 수 있는 장점이 있다.

이하에서는, 시간 정보에 따른 이벤트 탐지의 일례 및 시간 정보에 따른 이벤트 탐지의 일례를 설명하기로 한다.

시간 정보에 따른 이벤트 탐지의 일례를 설명하면 다음과 같다.

상기에서 설명된 시간적 연관 단어 그룹 각각의 concept을 라고 하고, 임의의 시간

에서 특정 concept

에 포함된 단어들의 동시 발생 빈도의 총합을

라고 하면,

에서 모든 concept의 동시 발생 빈도의 총합의 집합

은 아래의 수학식 7과 같이 표현된다.

이를 확률적으로 분석하기 위해서 아래의 수학식 8이 적용된다.

여기서,

이 크다는 것은 시간

에서 concept

에 포함되어 있는 단어들이 자주 사용되었다는 것을 의미하고, 이는 특정 시간에서의 쿼리임을 의미한다. 즉,

에 포함된 원소들 중에서 가장 큰 값이 concept이다. 시간

에서 가장 의미 있는 concept을

이라고 할 때, 이는 아래의 수학식 9와 같이 표현된다.

여기서, 단어의 사용 빈도에 영향을 미치는 이벤트가 발생하면 사용되는 concept이 달라진다. 반대로, 사용되는 concept가 달라질 때 이벤트가 발생하였다고 추정 가능하다. 즉,

을 만족 하는 시점의 구간

에서 이벤트가 발생하였다는 것을 알 수 있다.

그리고, 공간 정보에 따른 이벤트 탐지의 일례를 설명하면 다음과 같다.

상기에서 설명된 공간적 연관 단어 그룹 각각의 concept을

라고 하고, 영역

에서 concept

에 포함된 모든 단어들의 동시 발생 빈도의 총합을

이라 하면, 영역

에서 모든 concept의 동시 발생 빈도의 총합의 집합

은 아래의 수학식 10과 같이 표현된다.

이를 확률적으로 분석하기 위해서 아래와 같은 수학식 11을 적용한다.

이 때, 공간에서의 이벤트 감지의 방식으로는 DBSCAN이 사용될 수 있다. DBSCAN을 이용하기 위해 임의의 concept

에 대하여 영역에 따른 아래의 수학식 12과 같은 행렬을 생성한다.

여기서, 특정 concept

의 동시 발생 빈도가 가장 큰 영역은 "1"로 표시하고, 나머지 부분은 "0"으로 표시하며, DBSCAN 방식을 이용하여 "1"로 표시된 영역을 분할한다.

그리고, 이 행렬의 성분은 해당 영역에서 concept

와 연관성이 가장 큰 경우 2차원의 좌표값을 갖게 되고, 아닌 경우 "0"의 값을 갖는다. DBSCAN에 사용될 거리는 아래의 수학식 13과 같다.

DBSCAN의 경우, 이상치를 판단하기 위한 임계 거리 내의 최소 허용 객체의 수는 2차원의 데이터의 차원이므로, "3"으로 결정한다. 또한, 임계 거리는 전체 단어 내의 임의의 두 단어 사이의 최대와 최소 거리를 이용하여 아래의 수학식 14과 같이 표현될 수 있다.

이를 이용하면 각각의 concept의 클러스터에 따라 사용되는 영역을 파악할 수 있다.

또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

컴퓨터에서 판독 가능한 명령을 저장하는 메모리; 및
상기 명령을 실행하도록 구현되는 프로세서;를 포함하되,
상기 프로세서는,
SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하고,
검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하고,
상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공하는 것을 특징으로 하는 서버.
제1항에 있어서,
상기 프로세서는,
상기 SNS 데이터에 등장한 복수의 단어에 대한 2 이상의 단어 쌍의 시간적 단어 연관값 및 공간적 단어 연관값을 산출하고,
상기 2 이상의 단어 쌍 각각 시간적 단어 연관값을 K-평균 군집화(K-means clustering) 알고리즘에 대입하여 상기 복수의 시간적 연관 단어 그룹을 산출하고,
상기 2 이상의 단어 쌍 각각의 공간적 단어 연관값을 K-평균 군집화 알고리즘에 대입하여 상기 복수의 공간적 연관 단어 그룹을 산출하는 것을 특징으로 하는 단말 장치.
제2항에 있어서,
상기 SNS 데이터는 복수의 텍스트를 포함하고, 상기 복수의 텍스트 각각에는 상기 텍스트가 생성된 시간 구간 정보가 태깅되어 있으며,
상기 프로세서는,
상기 복수의 단어 각각의 시간적 동시 발생 빈도를 산출하고, 상기 복수의 단어 각각의 시간적 동시 발생 빈도에 기초하여 상기 2 이상의 단어 쌍의 시간적 단어 연관값을 산출하되,
상기 복수의 단어 각각의 시간적 동시 발생 빈도는, 상기 복수의 텍스트가 생성된 시간 구간 별로 상기 단어와 기준 단어가 상기 복수의 텍스트에서 동시에 발생하는 빈도를 의미하는 것을 특징으로 하는 단말 장치.
제3항에 있어서,
상기 단어의 시간적 동시 발생 빈도는 아래의 수학식과 같이 표현되는 것을 특징으로 하는 단말 장치.

여기서,
는 상기 단어
의 시간적 동시 발생 빈도,
는 상기 시간 구간 중 n번째 시간 구간,
는 상기 복수의 텍스트 중 l번째 텍스트,
는 상기 복수의 텍스트의 개수,
는 상기 n번째 시간 구간
동안 상기 l번째 텍스트에서 상기 기준 단어
와 상기 단어
가 동시에 등장하는 빈도,
는 상기 n번째 시간 구간
동안 상기 복수의 텍스트 모두에서 상기 기준 단어
와 상기 단어
가 동시에 등장하는 빈도를 각각 의미함.
제3항에 있어서,
상기 2 이상의 단어 쌍 각각의 시간적 단어 연관값은 아래의 수학식과 같이 표현되는 것을 특징으로 하는 단말 장치.

여기서,
는 단어
와 단어
로 구성된 단어 쌍의 시간적 단어 연관값,
는 상기 단어
의 시간적 동시 발생 빈도,
는 상기 단어
의 시간적 동시 발생 빈도,
는 상기 시간적 동시 발생 빈도
와 상기 시간적 동시 발생 빈도
의 각 거리(angular distance),
는 상기 시간적 동시 발생 빈도
와 상기 시간적 동시 발생 빈도
의 유클리드 거리(Euclidean distance)를 각각 의미함.
제2항에 있어서,
상기 SNS 데이터는 복수의 텍스트를 포함하고, 상기 복수의 텍스트 각각에는 상기 텍스트가 생성된 공간 정보가 태깅되어 있으며,
상기 프로세서는,
상기 복수의 단어 각각의 공간적 동시 발생 빈도를 산출하고, 상기 복수의 단어 각각의 공간적 동시 발생 빈도에 기초하여 상기 2 이상의 단어 쌍의 공간적 단어 연관값을 산출하되,
상기 복수의 단어 중 어느 하나의 단어의 공간적 동시 발생 빈도는, 상기 복수의 텍스트가 생성된 공간 정보 별로 상기 어느 하나의 단어와 기준 단어가 상기 복수의 텍스트에서 동시에 발생하는 빈도를 의미하는 것을 특징으로 하는 단말 장치.
제6항에 있어서,
상기 어느 하나의 단어의 공간적 동시 발생 빈도는 아래의 수학식과 같이 표현되는 것을 특징으로 하는 단말 장치.

여기서,
는 상기 어느 하나의 단어
의 공간적 동시 발생 빈도,
는 상기 복수의 텍스트가 생성된 공간 정보 중 위도 정보,
는 상기 복수의 텍스트가 생성된 공간 정보 중 경도 정보,
는 위도가
이고 경도가
인 공간에서 생성된 텍스트에서 상기 기준 단어
와 상기 어느 하나의 단어
가 동시에 등장하는 빈도를 각각 의미함.
제6항에 있어서,
상기 2 이상의 단어 쌍의 공간적 단어 연관값은 아래의 수학식과 같이 표현되는 것을 특징으로 하는 단말 장치.

여기서,
는 단어
와 단어
로 구성된 단어 쌍의 공간적 단어 연관값,
는 상기 단어
의 공간적 동시 발생 빈도,
는 상기 단어
의 공간적 동시 발생 빈도를 각각 의미함.
프로세서가 포함된 장치에서 수행되는 검색 결과 제공 방법에 있어서,
SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하는 단계;
검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하는 단계; 및
상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공하는 단계;를 포함하는 것을 특징으로 하는 검색 결과 제공 방법.
검색어를 이용한 검색 결과 제공을 위하여 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며 디지털 처리 장치에 의해 판독될 수 있는 기록매체로서,
SNS 데이터가 생성된 시간 정보 및 공간 정보에 기초하여 상기 SNS 데이터에 포함된 복수의 단어를 시간적 특성 및 공간적 특성에 따라 연관성을 가지는 단어들로 그룹화하여 복수의 시간적 연관 단어 그룹 및 복수의 공간적 연관 단어 그룹을 산출하는 단계;
검색어가 입력되는 경우 상기 검색어의 생성 시간 정보 및 생성 공간 정보를 이용하여 상기 복수의 시간적 연관 단어 그룹 중 하나의 시간적 연관 단어 그룹 및 상기 복수의 공간적 연관 단어 그룹 중 하나의 공간적 연관 단어 그룹을 검색하는 단계; 및
상기 하나의 시간적 연관 단어 그룹 및 상기 하나의 공간적 연관 단어 그룹 각각에 포함된 단어를 이용하여 상기 검색어와 관련된 결과를 제공하는 단계;를 수행하는 프로그램이 기록된 기록매체.