KR20170037709A - 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템 - Google Patents

사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템 Download PDF

Info

Publication number
KR20170037709A
KR20170037709A KR1020150136213A KR20150136213A KR20170037709A KR 20170037709 A KR20170037709 A KR 20170037709A KR 1020150136213 A KR1020150136213 A KR 1020150136213A KR 20150136213 A KR20150136213 A KR 20150136213A KR 20170037709 A KR20170037709 A KR 20170037709A
Authority
KR
South Korea
Prior art keywords
user
hot topic
index
determined based
social network
Prior art date
Application number
KR1020150136213A
Other languages
English (en)
Other versions
KR101764696B1 (ko
Inventor
유재수
복경수
노연우
김대윤
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020150136213A priority Critical patent/KR101764696B1/ko
Publication of KR20170037709A publication Critical patent/KR20170037709A/ko
Application granted granted Critical
Publication of KR101764696B1 publication Critical patent/KR101764696B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06Q50/30

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Operations Research (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템가 개시된다. 소셜 네트워크 서비스에서 핫 토픽 결정 방법은 복수의 소셜 네트워크 콘텐츠에 포함되는 복수의 단어의 시간 슬롯의 변화에 따른 출현 빈도의 변화를 기반으로 단어를 추출하는 단계, 추출된 단어를 포함하는 소셜 네트워크 콘텐츠를 업로드한 사용자의 영향력 지수 및 추출된 단어의 복수의 시간 슬롯 각각에서의 출현 빈도를 기반으로 추출된 단어의 복수의 시간 슬롯 각각에서의 핫 토픽 지수를 결정하는 단계, 핫 토픽 지수의 복수의 시간 슬롯 각각에서의 변화를 고려하여 추출된 단어의 핫 토픽 지수 변화 비율을 결정하는 단계, 핫 토픽 지수 변화 비율을 기반으로 추출된 단어를 핫 토픽으로 선택할지 여부를 결정하는 단계를 포함할 수 있다.

Description

사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템{Method and System for determination of social network hot topic in consideration of user’s influence and time}
본 발명은 소셜 네트워크 서비스 방법 및 시스템에 관한 것으로서, 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템에 관한 것이다.
최근 SNS(SNS: Social Network Service)의 발달에 따라 수많은 사람들이 스마트 디바이스나 웹을 통해 SNS를 활용하여 의견을 게재하고 정보를 공유하고 있다. SNS는 인터넷을 기반으로 사용자들의 인적 네트워크의 형성을 도와주고 정보 공유, 인맥 관리, 자기 표현 등을 통해 타인과의 관계를 관리하기 위한 서비스이다. SNS는 초기에는 주로 친목 도모 용도로 활용이 되었으나 이후 단순히 사용자들 사이의 인맥 관계를 통한 정보 공유뿐만 아니라 새로운 정보를 생성하고 소비하는 형태로 전환되었다.
또한 일반적인 웹 검색을 통해 정보를 찾는 것보다 친구의 추천으로 공유하는 정보가 신뢰성이 높고 간결하게 전달되기 때문에 일반적인 인터넷 검색보다는 SNS를 통하여 최신 정보를 찾고 활용하는 이들이 많아지고 있다. 이에 따라 기하급수적으로 재생산되고 공유되는 대용량의 정보로부터 최근 이슈가 되는 정보를 찾아내는 기법이 요구되고 있다.
트위터, 페이스북, 라인, 미투데이, 구글+ 등은 대표적인 SNS로 그 중 트위터는 간결한 인터페이스를 통해 사용자들이 인터넷 상에서 다른 사람과의 네트워크를 쉽게 형성하게 해주기 때문에 급속히 성장하고 있는 서비스이다. 트위터와 같은 경우, 2006년 이후 계속 성장하여 현재 월간 실사용자 수가 3억명 이상이며 일일 트윗 수가 5억 건 이상이다. 또한, 트위터는 140자의 제한을 가지기 때문에 실시간으로 이슈화되는 글들을 찾기에 용이한 서비스이다. 또한, 트위터는 관심 있는 상대방을 뒤따르는 팔로우(follow)라는 독특한 기능을 중심으로 소통한다. 또한, 트위터는 웹에 직접 접속하지 않더라도 휴대전화의 문자 메시지나 스마트폰 같은 휴대기기 등 다양한 방법을 통하여 글을 올리거나 받아볼 수 있으며, 댓글을 달거나 특정 글을 다른 사용자들에게 퍼트릴 수도 있다. 트위터의 글을 트윗(tweet)이라고 하며, 사용자가 팔로잉하는 사용자에 의해 작성된 트윗을 자신의 팔로워에게 전파하는 기능을 리트윗(retweet)이라고 한다. 멘션(mention)은 특정 사용자에게 트윗을 보내는 기능이다.
KR 10-2006-0116551
본 발명의 일 측면은 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법을 제공한다.
본 발명의 다른 측면은 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 시스템를 제공한다.
본 발명의 일 측면에 따른 소셜 네트워크 서비스에서 핫 토픽 결정 방법은 복수의 소셜 네트워크 콘텐츠에 포함되는 복수의 단어의 시간 슬롯의 변화에 따른 출현 빈도의 변화를 기반으로 단어를 추출하는 단계, 상기 추출된 단어를 포함하는 소셜 네트워크 콘텐츠를 업로드한 사용자의 영향력 지수 및 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 출현 빈도를 기반으로 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 핫 토픽 지수를 결정하는 단계, 상기 핫 토픽 지수의 복수의 시간 슬롯 각각에서의 변화를 고려하여 상기 추출된 단어의 핫 토픽 지수 변화 비율을 결정하는 단계, 상기 핫 토픽 지수 변화 비율을 기반으로 상기 추출된 단어를 핫 토픽으로 선택할지 여부를 결정하는 단계를 포함할 수 있다.
한편, 상기 출현 빈도의 변화는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00001
여기서, idfi는 현재 시간 슬롯 i에서의 idf 값을 나타내고 idf0, i-1은 0부터 i-1까지 시간 슬롯의 idf 값을 나타내고,
idf 값은 상기 복수의 소셜 네트워크 콘텐츠 중 상기 복수의 단어 각각을 포함하는 적어도 하나의 소셜 네트워크 콘텐츠의 수의 역수일 수 있다.
또한, 상기 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고, 상기 팔로워 요소는 상기 사용자의 팔로워의 수를 기반으로 결정되고, 상기 멘션 요소는 상기 사용자로의 멘션의 수를 기반으로 결정되고, 상기 리트윗 요소는 상기 사용자의 상기 소셜 네트워크 콘텐츠에 대한 리트윗 횟수 및 리트윗을 수행한 다른 사용자의 팔로워의 수를 기반으로 결정될 수 있다.
또한, 상기 사용자의 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고,
상기 팔로워 요소
Figure pat00002
는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00003
여기서,
Figure pat00004
는 상기 사용자의 팔로워의 수이고, 상기
Figure pat00005
는 가중치이고,
상기 리트윗 요소
Figure pat00006
는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00007
여기서,
Figure pat00008
는 사용자에 의해 트윗된 콘텐츠의 개수이고,
Figure pat00009
는 상기 사용자에 의해 트윗된 콘텐츠에 대한 리트윗 개수이고,
Figure pat00010
는 사용자의 팔로워의 수이고,
Figure pat00011
는 상기 사용자의 상기 팔로워의 평균 팔로워의 수이고,
Figure pat00012
는 가중치이고,
상기 멘션 요소
Figure pat00013
는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00014
여기서,
Figure pat00015
는 사용자에 대한 멘션의 수이고,
Figure pat00016
는 가중치일 수 있다.
또한, 상기 사용자의 영향력 지수는 아래의 수학식을 기반으로 결정되는 것을 특징으로 할 수 있다.
<수학식>
Figure pat00017
또한, 상기 핫 토픽 지수는 상기 영향력 지수와 상기 추출된 단어의 상기 복수의 시간 슬롯 각각에서의 상기 출현 빈도의 곱을 기반으로 결정될 수 있다.
또한, 상기 핫 토픽 지수 변화 비율은 아래의 수학식을 기반으로 결정되되,
<수학식>
Figure pat00018
여기서,
Figure pat00019
는 상기 추출된 단어의 시간 t-1에서의 핫 토픽 지수이고,
Figure pat00020
는 상기 추출된 단어의 시간 t에서의 핫 토픽 지수일 수 있다.
본 발명의 다른 측면에 따른 소셜 네트워크 서비스에서 핫 토픽 결정을 결정하는 핫 토픽 결정 시스템는 프로세서를 포함하고, 상기 프로세서는 복수의 소셜 네트워크 콘텐츠에 포함되는 복수의 단어의 시간 슬롯의 변화에 따른 출현 빈도의 변화를 기반으로 단어를 추출하고, 상기 추출된 단어를 포함하는 소셜 네트워크 콘텐츠를 업로드한 사용자의 영향력 지수 및 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 출현 빈도를 기반으로 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 핫 토픽 지수를 결정하고, 상기 핫 토픽 지수의 복수의 시간 슬롯 각각에서의 변화를 고려하여 상기 추출된 단어의 핫 토픽 지수 변화 비율을 결정하고, 상기 핫 토픽 지수 변화 비율을 기반으로 상기 추출된 단어를 핫 토픽으로 선택할지 여부를 결정할 수 있다.
한편, 상기 출현 빈도의 변화는 아래의 수학식을 기반으로 결정되고,
<수학식>
*
Figure pat00021
여기서, idfi는 현재 시간 슬롯 i에서의 idf 값을 나타내고 idf0, i-1은 0부터 i-1까지 시간 슬롯의 idf 값을 나타내고,
idf 값은 상기 복수의 소셜 네트워크 콘텐츠 중 상기 복수의 단어 각각을 포함하는 적어도 하나의 소셜 네트워크 콘텐츠의 수의 역수일 수 있다.
또한, 상기 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고, 상기 팔로워 요소는 상기 사용자의 팔로워의 수를 기반으로 결정되고, 상기 멘션 요소는 상기 사용자로의 멘션의 수를 기반으로 결정되고, 상기 리트윗 요소는 상기 사용자의 상기 소셜 네트워크 콘텐츠에 대한 리트윗 횟수 및 리트윗을 수행한 다른 사용자의 팔로워의 수를 기반으로 결정될 수 있다.
또한, 상기 사용자의 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고,
상기 팔로워 요소
Figure pat00022
는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00023
여기서,
Figure pat00024
는 상기 사용자의 팔로워의 수이고, 상기
Figure pat00025
는 가중치이고,
상기 리트윗 요소
Figure pat00026
는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00027
여기서,
Figure pat00028
는 사용자에 의해 트윗된 콘텐츠의 개수이고,
Figure pat00029
는 상기 사용자에 의해 트윗된 콘텐츠에 대한 리트윗 개수이고,
Figure pat00030
는 사용자의 팔로워의 수이고,
Figure pat00031
는 상기 사용자의 상기 팔로워의 평균 팔로워의 수이고,
Figure pat00032
는 가중치이고,
상기 멘션 요소
Figure pat00033
는 아래의 수학식을 기반으로 결정되고,
<수학식>
Figure pat00034
여기서,
Figure pat00035
) 사용자에 대한 멘션의 수이고,
Figure pat00036
는 가중치일 수 있다.
또한, 상기 사용자의 영향력 지수는 아래의 수학식을 기반으로 결정되는 것을 특징으로 할 수 있다.
<수학식>
Figure pat00037
또한, 상기 핫 토픽 지수는 상기 영향력 지수와 상기 추출된 단어의 상기 복수의 시간 슬롯 각각에서의 상기 출현 빈도의 곱을 기반으로 결정될 수 있다.
또한, 상기 핫 토픽 지수 변화 비율은 아래의 수학식을 기반으로 결정되되,
<수학식>
Figure pat00038
여기서,
Figure pat00039
는 상기 추출된 단어의 시간 t-1에서의 핫 토픽 지수이고,
Figure pat00040
는 상기 추출된 단어의 시간 t에서의 핫 토픽 지수일 수 있다.
본 발명의 실시예에 따른 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템는 특정 단어를 SNS 상에 업로드한 사용자의 SNS 내에서의 영향력 및 특정 단어의 SNS 내에서의 발생 빈도를 고려하여 SNS 에서 많은 사용자들이 관심을 가지는 핫 토픽을 정확하게 결정할 수 있다.
도 1은 본 발명의 실시예에 따른 핫 토픽 결정 시스템의 핫 토픽 선정 방법을 나타낸 순서도이다.
도 2는 본 발명의 실시예에 따른 IDF 결정 방법을 나타내는 개념도이다.
도 3은 본 발명의 실시예에 따른 사용자의 영향력 지수의 결정 방법을 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 핫 토픽 지수 변화 비율을 기반으로 핫 토픽을 결정하는 방법을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 핫 토픽 지수 결정 방법을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 핫 토픽 결정 시스템를 나타낸 개념도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조 부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
사용자들은 소셜 네트워크를 사용하여 자신의 상태를 표현하거나 다양한 정보를 공유할 수 있다. 이처럼 방대하게 생성되는 소셜 정보로부터 실제 원하는 정보를 찾는 것은 어려운 작업이며 그 효율성 측면에서 여러 가지 문제를 발생시키고 있다. 최근 소셜 네트워크에서 이슈가 되거나 핵심 주제로 부각되고 있는 핫 토픽을 검출하기 위한 연구들이 진행되고 있다.
본 발명에서는 소셜 네트워크 환경에서 사용자의 영향력을 고려한 신뢰성 높은 핫 토픽 결정 기법이 제안된다. 본 발명의 실시예에 따른 핫 토픽 결정 방법은 전체 트윗들을 대상으로 시간을 고려하여 변형된 TF(term frequency)-IDF(inverse document frequency) 알고리즘을 사용하여 특정 시간에 순간적으로 많이 발생하는 단어(또는 키워드)의 집합을 추출한 후, 단어의 출현 빈도수와 사용자의 영향력을 종합적으로 고려하여 핫 토픽 지수를 도출하고, 핫 토픽 지수의 시간에 따른 변화인 핫 토픽 지수 변화 비율을 기반으로 핫 토픽을 결정할 수 있다.
사용자의 영향력과 검출 결과의 신뢰성과 효율성 사이에는 높은 연관성이 있다. 따라서, 사용자 영향력이 가중치로서 단어에 부여되는 경우, 핫 토픽 검출 결과의 정확도와 신뢰성이 더 높아질 수 있다. SNS 환경에서는 핫 토픽에 대한 신뢰도와 연관 지을 수 있는 다양한 요인들이 존재하지만 사용자의 영향력이 핫 토픽에 대한 신뢰도와 가장 큰 연관을 가진다.
이하 설명의 편의상, 트윗(tweet), 리트윗, 팔로워, 팔로잉, 멘션 등의 용어를 사용하나, 트윗(tweet)은 SNS에 콘텐츠를 올리는 행위, 리트윗은 다른 사용자에 의해 SNS에 올려진 콘텐츠를 다른 사용자에게 전달하는 행위, 팔로워는 SNS 상에서 자신의 콘텐츠를 수신하는 다른 사용자, 팔로잉은 사용자가 콘텐츠를 받아보고자 하는 다른 사용자(또는 행위), 멘션은 SNS 상에서 특정 사용자에게만 콘텐츠를 전달하는 행위를 의미할 수 있다.
이하, 본 발명의 실시예에서는 변형된 TF-IDF 알고리즘 및 사용자의 영향력을 고려한 소셜 네트워트 서비스 상에서 핫 토픽 결정 방법이 구체적으로 개시된다.
도 1은 본 발명의 실시예에 따른 핫 토픽 결정 시스템의 핫 토픽 선정 방법을 나타낸 순서도이다.
도 1에서는 트위터 사용자 영향력을 기반으로 트윗된 콘텐츠에 가중치를 부여하는 핫 토픽 선정 방법이 개시된다.
도 1을 참조하면, 트윗된 콘텐츠들로부터 변형된 TF-IDF 알고리즘을 이용하여 순간적으로 발생하는 단어들의 집합을 추출한다(단계 S100).
핫 토픽은 시간에 변화에 따라 순간적으로 많이 언급되는 콘텐츠 내의 단어(또는 콘텐츠)들의 집합으로 정의될 수 있다. 핫 토픽을 결정하기 위해서는 우선 단어의 출현 빈도수가 고려되어야 한다. 단어의 출현 빈도수를 고려함으로써 순간적으로 이슈화되는 단어들의 집합이 추출될 수 있다.
단어 출현 빈도수를 계산하기 위해 변형된 TF-IDF 알고리즘이 사용될 수 있다. 기존의 알고리즘에서는 순간적으로 나타나는 단어들을 추출하기 위한 시간적 속성이 무시되었다. 본 발명의 실시예에 따른 핫 토픽 선정 방법에서는 기존의 TF-IDF 알고리즘을 변형하여 순간적으로 발생되는 단어들을 추출하기 위해 트윗에 가중치를 부여하는 변형된 TF-IDF 알고리즘이 사용될 수 있다.
본 발명의 실시예에 따른 변형된 TF-IDF 알고리즘에서 TF(term frequency)는 불린 빈도 방식을 기반으로 결정될 수 있다. 불린 빈도 방식은 단어 w가 트윗에 한번이라도 출현한다면 1을 부여하고, 아니면 0을 부여하는 방식일 수 있다. IDF(inverse document frequency)는 시간에 따른 idf의 변화량을 측정하여 산출될 수 있다. idf는 특정 시간 구간(또는 특정 시간 슬롯 구간)에서 트윗된 특정 단어를 포함하는 트윗된 콘텐츠들의 수의 역수일 수 있다.
아래의 수학식 1은 IDF를 산출하기 위한 수식이다.
<수학식 1>
*
Figure pat00041
수학식 1을 참조하면, 특정 시간의 슬롯을 i라고 하였을 때 idfi는 현재 시간 슬롯 i에서의 idf 값을 나타내고 idf0, i-1은 0부터 i-1까지 시간 슬롯의 idf 값을 나타낸다.
IDF는 과거 시간 슬롯에 대한 현재 시간 슬롯의 idf 값의 변화량을 나타내며 IDF를 기반으로 순간적으로 나타나는 특정 단어들을 포함하는 트윗된 콘텐츠(또는 문서)의 변화량이 측정되고 전체 트윗된 콘텐츠들의 집합에서 핫토픽으로 결정될 가능성이 존재하는 단어가 추출될 수 있다.
트윗된 콘텐츠에 포함된 단어의 출현 빈도수와 사용자의 영향력을 함께 고려하여 추출된 단어에 대한 핫 토픽 지수를 계산한다(단계S110).
추출된 단어에 대한 핫 토픽 지수가 결정되고, 결정된 핫 토픽 지수를 고려하여 추출된 단어 중 핫 토픽이 결정될 수 있다. 단계 S100을 기반으로 추출된 단어에 대한 핫 토픽 지수는 특정 단어의 출현 빈도뿐만 아니라 특정 단어를 포함한 트윗을 작성한 사용자의 영향력을 고려하여 결정될 수 있다. 특정 단어에 대한 핫 토픽 지수가 상대적으로 클수록 특정 단어가 상대적으로 영향력이 높은 사용자에 의해 트윗 또는 리트윗되었고, 상대적으로 많은 사람들이 트윗/리트윗되었음이 지시될 수 있다. 구체적인 사용자의 영향력 지수 및 핫 토픽 지수의 결정 방법은 후술한다.
단어 별로 시간에 따른 핫 토픽 지수의 변화(핫 토픽 지수 변화 비율)를 결정한다(단계 S120).
시간에 따른 단어에 대한 핫 토픽 지수의 변화량인 핫 토픽 지수 변화 비율이 결정될 수 있다. 핫 토픽 지수 변화 비율은 특정 단어에 대한 핫 토픽 지수가 시간에 따라 얼마나 변하는지를 나타낼 수 있다. 구체적인 핫 토픽 지수 변화 비율의 결정 방법은 후술한다.
핫 토픽 지수 변화 비율을 기반으로 단어를 랭킹화하여 N개의 단어를 핫 토픽으로 결정한다(단계 S130).
추출된 단어들의 핫 토픽 지수 변화 비율을 기반으로 추출된 단어 중N개의 단어가 핫 토픽으로 결정될 수 있다. 예를 들어, 추출된 단어들 중 핫 토픽 지수의 변화량이 큰 순서대로 N개의 단어가 핫 토픽으로 결정될 수 있다. 핫 토픽으로 결정된 단어는 사용자에게 추천될 수 있다.
도 2는 본 발명의 실시예에 따른 IDF 결정 방법을 나타내는 개념도이다.
도 2에서는 특정 시간 슬롯 구간 상에서 특정 단어(예를 들어, 세월호, 무한도전)에 대한 IDF를 산출하는 방법이 개시된다.
도 2에 개시된 시간 슬롯 당 트윗을 참조하면, idf0, i-1은 00시에서 특정 단어가 출현한 트윗된 콘텐츠 수의 역수이고, idfi는 01시에서 특정 단어가 출현한 트윗된 콘텐츠 수의 역수이다.
예를 들어, ‘무한도전’이라는 단어에 대해서 00시에 ‘무한도전’이 한 번 등장하므로 idf0, i-1는 1의 역수 값인 1이다. 01시에 ‘무한도전’이 2번 등장하므로 idfi는 2의 역수 값인 1/2로 계산된다. 따라서 ‘무한도전’의 IDF 값은 idfi를 idf0, i-1로 나눈 값인 1/2일 수 있다. 이러한 IDF를 기반으로 전체 트윗된 콘텐츠들의 집합에서 핫토픽으로 결정될 가능성이 존재하는 단어가 추출되고 추출된 단어에 대한 핫 토픽 지수가 결정될 수 있다.
이하, 핫 토픽 지수를 산출하기 위한 사용자의 영향력의 산출 방법이 개시된다.
트위터에는 다양한 사용자들의 트윗이 등록된다. 그 중에서 많은 사람들에게 유명하고 영향력이 높은 사용자에 의한 트윗도 있고, 상대적으로 그렇지 못한 사용자에 의한 트윗도 존재한다. 기존 기법에서와 같이 단순히 특정 단어의 출현 빈도수만을 기준으로 핫 토픽이 검출될 경우, 각 사용자의 영향력이 무시되고 동일한 가중치가 부여될 수 있다. 각 사용자의 영향력이 무시되고 동일한 가중치가 부여되는 경우, 결정된 핫 토픽에 대한 신뢰도가 높다고 할 수 없다. 따라서, 사용자의 영향력을 측정하고 영향력이 높은 사용자에 의해 등록된 트윗에 보다 높은 가중치를 부여함으로써 핫 토픽에 대한 신뢰도가 향상될 수 있다.
SNS 환경에서는 핫 토픽에 대한 신뢰도와 연관지을 수 있는 다양한 요인들이 존재할 수 있다. 사용자들이 최근 SNS를 이용하는 목적은 사용자들이 올린 콘텐츠들을 이용하여 정보를 공유하고 검색하는 데에 있다. 따라서, 보다 영향력이 있는 사용자에 의해 생성된 콘텐츠에 주목을 하게 된다. 따라서 사용자의 영향력과 핫 토픽에 대한 신뢰도와 큰 연관을 가질 수 있고, 영향력이 큰 사용자에 의해 트윗된 콘텐츠일수록 보다 핫 토픽에 해당할 가능성이 클 수 있다.
본 발명의 실시예에 따르면, 트위터 상에서 사용자가 수행 가능한 다양한 활동 중에서 사용자의 영향력과 높은 상관 관계에 있는 세 가지 요소(팔로워의 수, 트윗의 수, 멘션의 수)를 기준으로 사용자의 영향력이 결정될 수 있다.
도 3은 본 발명의 실시예에 따른 사용자의 영향력 지수의 결정 방법을 나타낸 개념도이다.
도 3에서는 특정 단어에 대한 핫 데이터 지수를 산출하기 위한 사용자의 영향력 지수를 결정하는 방법이 개시된다.
도 3을 참조하면, 사용자 영향력 지수(350)를 결정하기 위해 사용자의 팔로워의 수, 사용자가 수신한 멘션의 수, 사용자에 의해 트윗된 콘텐츠에 대한 리트윗의 수를 기반으로 사용자의 영향력 지수(350)가 결정될 수 있다.
사용자의 영향력 지수(350)는 팔로워의 수, 사용자가 수신한 멘션의 수, 사용자에 의해 트윗된 콘텐츠에 대한 리트윗의 수 각각에 대한 로그값을 더하여 결정될 수 있다. 아래의 수학식 2는 사용자의 영향력 지수(350)를 산출하는 수학식이다.
<수학식 2>
여기서,
Figure pat00043
는 사용자의 영향력 지수(350)이고,
Figure pat00044
는 사용자의 팔로워의 수(이하 팔로워 요소(310)),
Figure pat00045
는 사용자가 수신한 멘션의 수(이하, 멘션 요소(320)),
Figure pat00046
는 사용자에 의해 트윗된 콘텐츠에 대한 리트윗의 수(이하, 리트윗 요소(330))를 나타낸다.
수학식 2를 참조하면, 사용자의 영향력 지수(350)는 팔로워 요소(310), 멘션 요소(320) 및 리트윗 요소(330) 각각에 대한 로그값을 취해 모두 합한 값으로 산출될 수 있다. 각 요소들은 서로 연관성이 없으므로 각 요소에 대한 로그값을 연산한 후 합하여 사용자의 영향력 지수(350)가 산출될 수 있다. 각 요소들의 분포는 지수 분포 형태를 나타내므로, 한 요소에 대해 영향력이 치우치지 않도록 각 요소들에 대해 로그 값을 취하였다.
사용자의 영향력 지수를 결정하는 팔로워 요소(310), 멘션 요소(320) 및 리트윗 요소(330) 각각은 아래의 수학식 3 내지 수학식 5을 기반으로 결정될 수 있다.
팔로워 요소(310)는 사용자의 팔로워의 수와 관련된다. 팔로워 요소(310)는 사용자를 팔로우하는 사용자의 수를 기반으로 다른 사용자들의 사용자의 트윗에 대해 가지는 관심의 정도를 나타낼 수 있다. 사용자의 영향력 지수를 결정하는 하나의 요소인 팔로워 요소(310)는 아래의 수학식 3을 기반으로 결정될 수 있다.
<수학식 3>
Figure pat00047
수학식 3을 참조하면, 팔로워 요소(310)는 사용자의 전체 팔로워의 수(Followers)를 정규화 상수
Figure pat00048
로 나눈 값을 기반으로 결정될 수 있다. 그러므로 특정 사용자의 팔로워의 수가 많을수록 사용자 영향력이 높은 것으로 결정될 수 있다.
아래의 수학식 4는 사용자의 영향력 지수(350)를 결정하는 하나의 요소인 리트윗 요소(330)를 나타낸다.
<수학식 4>
Figure pat00049
수학식 4를 참조하면, 사용자 영향력을 도출하기 위한 구성 요소로써 사용자의 리트윗 요소(330)는 사용자의 트윗(tweets) 당 평균 리트윗(retweets) 비율 및 이것을 리트윗하는 팔로워들의 전파력을 고려하여 결정될 수 있다. 리트윗 요소(330)는 사용자의 전체 트윗에 대한 리트윗의 비율과 전체 팔로워의 수에 대한 팔로워의 팔로워 수의 값을 곱한 후, 정규화 상수
Figure pat00050
로 나눈 값으로 기반으로 결정될 수 있다. 리트윗 요소(330)가 클수록 사용자 영향력이 높은 것으로 결정될 수 있다. 팔로워들의 전파력은 기준이 되는 특정 사용자의 팔로워들의 평균 팔로워 수를 기반으로 결정될 수 있다. 즉, 사용자의 팔로워들의 평균 팔로워 수가 사용자의 리트윗 요소(330)를 결정하기 위해 사용될 수 있다. 이에 따라 특정 사용자가 트윗을 올렸을 경우, 평균적으로 얼마나 많은 사용자들이 해당 트윗을 접하게 되는지가 리트윗 요소(330)를 기반으로 결정될 수 있다.
아래의 수학식 5는 사용자의 영향력 지수(350)를 결정하는 하나의 요소인 멘션 요소(320)를 나타낼 수 있다.
<수학식 5>
Figure pat00051
사용자의 멘션 수신 수가 높다는 것은 그만큼 사용자가 다른 사용자에게 관심을 받고 있다는 것을 나타낸다. 멘션 요소(320)는 사용자의 전체 멘션 수를 정규화 상수
Figure pat00052
로 나눈 값을 기반으로 결정될 수 있다. 그러므로 팔로워 요소와 마찬가지로 멘션 요소(320)가 클수록 사용자의 영향력이 높음이 지시될 수 있다.
Figure pat00053
는 각 요소를 정규화하기 위한 정규화 상수들이다.
아래는 구체적인 사용자의 영향력 지수(350)를 결정하는 방법의 예시이다.
정규화 상수
Figure pat00054
가 1000이고, 팔로워의 수(100), 트윗 수(150), 리트윗 수(300), 팔로워의 팔로워 수(2000), 멘션수(100)으로 가정할 경우, 사용자의 영향력 지수를 결정하는 팔로워 요소, 멘션 요소 및 리트윗 요소 각각은 아래의 수학식 6, 7 및 8과 같이 결정될 수 있다.
수학식 6은 사용자의 팔로워 요소(310)를 나타낸다.
<수학식 6>
Figure pat00055
수학식 6을 참조하면, 전체 팔로워의 수 100을
Figure pat00056
로 나눈 0.1이 사용자의 팔로워 요소(310)일 수 있다.
수학식 7은 사용자의 리트윗 요소(330)를 나타낸다.
<수학식 7>
Figure pat00057
수학식 7을 참조하면, 전체 트윗수 150에 대한 전체 리트윗의 수 300을 나눈 값을 전체 팔로워의 수 100에 대한 사용자의 팔로워의 팔로워 수 2000을 나눈 값과 서로 곱하여 정규화 상수
Figure pat00058
로 나누어 0.4가 리트윗 요소(330)로 결정된다.
수학식 8은 사용자의 멘션 요소(320)를 나타낸다.
<수학식 8>
Figure pat00059
수학식 8을 참조하면, 전체 멘션 수인 100을
Figure pat00060
로 나눈 값인 0.1이 멘션 요소(320)로 결정된다.
*사용자의 팔로워 요소(310), 리트윗 요소(330), 멘션 요소(320)를 기반으로 결정된 사용자의 영향력 지수(350)와 특정 시간 슬롯 구간에서 특정 단어의 발생 횟수를 기반으로 특정 단어에 대한 핫 토픽 지수가 결정될 수 있다. 이때, 핫 토픽 지수가 결정되는 특정 단어는 전술한 변형된 TF-IDF 알고리즘을 기반으로 선택된(또는 추출된) 단어일 수 있다. 예를 들어, TF-IDF 알고리즘을 기반으로 임계 TF 및/또는 임계 IDF를 넘는 단어에 대해서 핫 토픽 지수(360)가 산출될 수 있다. 구체적으로 단어 별 핫 토픽 지수는 단어에 대한 사용자의 영향력 지수(350) 및 단어의 카운트 수(355)를 기반으로 결정될 수 있다.
최종적으로 핫 토픽 지수(360)의 시간에 따른 변화 비율(이하, 핫 토픽 지수 변화 비율(370))이 결정되고, 핫 토픽 지수 변화 비율(370)에 따라 핫 토픽이 결정될 수 있다.
아래의 수학식 9는 핫 토픽 지수 변화 비율(370)을 결정하는 수학식이다.
<수학식 9>
Figure pat00061
수학식 9를 참조하면, 단어 w에 대한 시간 t에서의 핫 토픽 지수와 시간 t-1에서의 핫 토픽 지수의 합에 대한 차의 비율로 단어w에 대한 핫 토픽 지수 변화 비율이 결정될 수 있다.
즉, 본 발명의 실시예에 따른 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템에서는 특정 단어의 출현 빈도뿐만 아니라 해당 단어를 포함한 트윗을 작성한 사용자의 영향력(350)을 가중치로 할당하고 그 전체 합을 특정 단어의 핫 토픽 지수(360)로 결정한 후 핫 토픽 지수의 시간에 따른 변화 비율(370)을 고려하여 핫 토픽이 결정될 수 있다.
도 4는 본 발명의 실시예에 따른 핫 토픽 지수 변화 비율을 기반으로 핫 토픽을 결정하는 방법을 나타낸 개념도이다.
도 4에서는 사용자 별 영향력 지수, 단어의 발생 횟수를 기반으로 특정 단어에 대한 핫 토픽 지수가 결정되고, 핫 토픽 지수에 따라 핫 토픽 지수 변화 비율이 결정되는 방법이 개시된다.
도 4를 참조하면, 시간에 따른 트윗 데이터와 각 사용자의 영향력이 개시된다. 00시 트윗에 출현한 ‘무한도전’이라는 단어는 단어의 발생 횟수로서 1이 카운트된다. 해당 트윗의 사용자 영향력 지수는 0.6이므로 사용자의 영향력 지수와 특정 단어의 발생 횟수 1이 곱해진 0.6이 ‘무한도전’에 대한 핫 토픽 지수로서 결정된다.
00시 두번째 트윗에 출현한 ‘세월호’라는 단어는 단어의 발생 횟수로 1이 카운트된다. 해당 트윗의 사용자 영향력 지수는 0.4이므로 사용자의 영향력 지수와 특정 단어의 발생 횟수 1이 곱해진 0.4가 ‘세월호’에 대한 핫 토픽 지수로서 결정된다.
시간별 단어의 지수 값이 모두 계산된 후 시간에 따른 핫 토픽 지수 변화 비율이 결정된다. ‘무한도전‘의 경우, 01시의 핫 토픽 지수인 0.2와 00시에 핫 토픽 지수인 0.6를 기반으로 합 분의 차로 핫 토픽 지수 변화 비율(-0.5)이 결정된다.‘세월호‘의 경우, 01시의 핫 토픽 지수인 1.6과 00시에 핫 토픽 지수인 0.4를 기반으로 합 분의 차로 핫 토픽 지수 변화 비율(0.6)이 결정된다. 시간에 따른 핫 토픽 지수의 변화량인 비율 값이 클수록 핫 토픽에 가까울 수 있다. 즉, ‘세월호’가 ‘무한도전’보다 상대적으로 핫 토픽에 가까울 수 있다.
위와 같은 방식으로 결정된 복수의 단어에 대한 핫 토픽 지수 변화 비율을 기반으로 높은 핫 토픽 지수를 가지는 N개의 단어가 핫 토픽으로 결정될 수 있다.
핫 토픽 결정 시스템는 결정된 N개의 단어를 핫 토픽으로서 사용자에게 제공할 수 있다.
도 5는 본 발명의 실시예에 따른 핫 토픽 지수 결정 방법을 나타낸 순서도이다.
도 5를 참조하면, 사용자의 팔로워 요소, 리트윗 요소, 멘션 요소를 고려하여 사용자 별 영향력 지수를 결정한다(단계 S500).
전술한 바와 같이 전술한 수학식 2 내지 수학식 5와 같이 사용자의 팔로워의 수, 트윗 수, 리트윗 수, 팔로워의 팔로워 수, 멘션 수 등을 고려하여 사용자의 영향력 지수가 결정될 수 있다.
단어 출현 빈도와 사용자 영향력을 기반으로 단어(또는 키워드) 별 핫 토픽 지수를 결정한다(단계 S510).
특정 시간 슬롯에 발생된 특정 단어의 출현 빈도와 단계 S500을 기반으로 결정된 사용자의 영향력을 기반으로 특정 단어에 대한 핫 토픽 지수가 결정될 수 있다.
시간에 따른 핫 토픽 지수 변화 비율을 결정한다(단계 S520)
단계 S510을 기반으로 특정 단어에 대한 핫 토픽 지수가 결정되고, 수학식 9에서 개시된 바와 같이 시간의 변화에 따른 핫 토픽 지수 변화 비율이 결정될 수 있다.
도 6은 본 발명의 실시예에 따른 핫 토픽 결정 시스템를 나타낸 개념도이다.
도 6을 참조하면, 핫 토픽 결정 시스템는 TF-IDF부(600), 사용자 영향력 지수 결정부(610), 핫 토픽 지수 결정부(620), 핫 토픽 지수 변화 비율 결정부(630) 및 프로세서(640)를 포함할 수 있다. 각 구성부는 전술한 도 1 내지 도 5에서 개시된 핫 토픽 결정 동작을 수행하기 위해 구현될 수 있다. 예를 들어, TF-IDF부(600), 사용자 영향력 지수 결정부(610), 핫 토픽 지수 결정부(620), 핫 토픽 지수 변화 비율 결정부(630) 및 프로세서(640) 각각은 아래와 같은 동작을 수행할 수 있다.
TF-IDF부(600)는 특정 단어의 출현 빈도 및 기반으로 순간적으로 나타나는 특정 단어들을 포함하는 트윗된 콘텐츠(또는 문서)의 변화량을 결정하기 위해 구현될 수 있다.
사용자 영향력 지수 결정부(610)는 팔로워 요소, 멘션 요소 및 리트윗 요소 각각을 기반으로 사용자의 영향력 지수를 결정하기 위해 구현될 수 있다.
핫 토픽 지수 결정부(620)는 사용자의 영향력 지수 및 특정 단어의 출현 빈도를 기반으로 특정 단어에 대한 핫 토픽 지수를 결정하기 위해 구현될 수 있다.
핫 토픽 지수 변화 비율 결정부(630)는 특정 단어에 대한 핫 토픽 지수 변화 비율을 결정하기 위해 구현될 수 있다.
프로세서(640)는 TF-IDF부(600), 사용자 영향력 지수 결정부(610), 핫 토픽 지수 결정부(620), 핫 토픽 지수 변화 비율 결정부(630) 각각의 동작을 제어하기 위해 구현될 수 있다.
이와 같은 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (14)

  1. 소셜 네트워크 서비스에서 핫 토픽 결정 방법은,
    복수의 소셜 네트워크 콘텐츠에 포함되는 복수의 단어의 시간 슬롯의 변화에 따른 출현 빈도의 변화를 기반으로 단어를 추출하는 단계;
    상기 추출된 단어를 포함하는 소셜 네트워크 콘텐츠를 업로드한 사용자의 영향력 지수 및 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 출현 빈도를 기반으로 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 핫 토픽 지수를 결정하는 단계;
    상기 핫 토픽 지수의 복수의 시간 슬롯 각각에서의 변화를 고려하여 상기 추출된 단어의 핫 토픽 지수 변화 비율을 결정하는 단계;
    상기 핫 토픽 지수 변화 비율을 기반으로 상기 추출된 단어를 핫 토픽으로 선택할지 여부를 결정하는 단계를 포함하는 소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  2. 제1항에 있어서,
    상기 출현 빈도의 변화는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00062

    여기서, idfi는 현재 시간 슬롯 i에서의 idf 값을 나타내고 idf0, i-1은 0부터 i-1까지 시간 슬롯의 idf 값을 나타내고,
    idf 값은 상기 복수의 소셜 네트워크 콘텐츠 중 상기 복수의 단어 각각을 포함하는 적어도 하나의 소셜 네트워크 콘텐츠의 수의 역수인 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  3. 제2항에 있어서,
    상기 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고,
    상기 팔로워 요소는 상기 사용자의 팔로워의 수를 기반으로 결정되고,
    상기 멘션 요소는 상기 사용자로의 멘션의 수를 기반으로 결정되고,
    상기 리트윗 요소는 상기 사용자의 상기 소셜 네트워크 콘텐츠에 대한 리트윗 횟수 및 리트윗을 수행한 다른 사용자의 팔로워의 수를 기반으로 결정되는 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  4. 제2항에 있어서,
    상기 사용자의 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고,
    상기 팔로워 요소
    Figure pat00063
    는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00064

    여기서,
    Figure pat00065
    는 상기 사용자의 팔로워의 수이고, 상기
    Figure pat00066
    는 가중치이고,
    상기 리트윗 요소
    Figure pat00067
    는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00068

    여기서,
    Figure pat00069
    는 사용자에 의해 트윗된 콘텐츠의 개수이고,
    Figure pat00070
    는 상기 사용자에 의해 트윗된 콘텐츠에 대한 리트윗 개수이고,
    Figure pat00071
    는 사용자의 팔로워의 수이고,
    Figure pat00072
    는 상기 사용자의 상기 팔로워의 평균 팔로워의 수이고,
    Figure pat00073
    는 가중치이고,
    상기 멘션 요소
    Figure pat00074
    는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00075

    여기서,
    Figure pat00076
    는 사용자에 대한 멘션의 수이고,
    Figure pat00077
    는 가중치인 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  5. 제4항에 있어서,
    상기 사용자의 영향력 지수는 아래의 수학식을 기반으로 결정되는 것을 특징으로 하는
    <수학식>
    Figure pat00078

    소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  6. 제5항에 있어서,
    상기 핫 토픽 지수는 상기 영향력 지수와 상기 추출된 단어의 상기 복수의 시간 슬롯 각각에서의 상기 출현 빈도의 곱을 기반으로 결정되는 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  7. 제6항에 있어서,
    상기 핫 토픽 지수 변화 비율은 아래의 수학식을 기반으로 결정되되,
    <수학식>
    Figure pat00079

    여기서,
    Figure pat00080
    는 상기 추출된 단어의 시간 t-1에서의 핫 토픽 지수이고,
    Figure pat00081
    는 상기 추출된 단어의 시간 t에서의 핫 토픽 지수인 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 방법.
  8. 소셜 네트워크 서비스에서 핫 토픽 결정을 결정하는 핫 토픽 결정 시스템에 있어서,
    상기 핫 토픽 결정 시스템는 프로세서를 포함하고,
    상기 프로세서는 복수의 소셜 네트워크 콘텐츠에 포함되는 복수의 단어의 시간 슬롯의 변화에 따른 출현 빈도의 변화를 기반으로 단어를 추출하고,
    상기 추출된 단어를 포함하는 소셜 네트워크 콘텐츠를 업로드한 사용자의 영향력 지수 및 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 출현 빈도를 기반으로 상기 추출된 단어의 복수의 시간 슬롯 각각에서의 핫 토픽 지수를 결정하고,
    상기 핫 토픽 지수의 복수의 시간 슬롯 각각에서의 변화를 고려하여 상기 추출된 단어의 핫 토픽 지수 변화 비율을 결정하고,
    상기 핫 토픽 지수 변화 비율을 기반으로 상기 추출된 단어를 핫 토픽으로 선택할지 여부를 결정하도록 구현되는 핫 토픽 결정 시스템.
  9. 제8항에 있어서,
    상기 출현 빈도의 변화는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00082

    여기서, idfi는 현재 시간 슬롯 i에서의 idf 값을 나타내고 idf0, i-1은 0부터 i-1까지 시간 슬롯의 idf 값을 나타내고,
    idf 값은 상기 복수의 소셜 네트워크 콘텐츠 중 상기 복수의 단어 각각을 포함하는 적어도 하나의 소셜 네트워크 콘텐츠의 수의 역수인 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 시스템.
  10. 제9항에 있어서,
    상기 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고,
    상기 팔로워 요소는 상기 사용자의 팔로워의 수를 기반으로 결정되고,
    상기 멘션 요소는 상기 사용자로의 멘션의 수를 기반으로 결정되고,
    상기 리트윗 요소는 상기 사용자의 상기 소셜 네트워크 콘텐츠에 대한 리트윗 횟수 및 리트윗을 수행한 다른 사용자의 팔로워의 수를 기반으로 결정되는 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 시스템.
  11. 제9항에 있어서,
    상기 사용자의 영향력 지수는 팔로워 요소, 멘션 요소 및 리트윗 요소를 기반으로 결정되고,
    상기 팔로워 요소
    Figure pat00083
    는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00084

    여기서,
    Figure pat00085
    는 상기 사용자의 팔로워의 수이고, 상기
    Figure pat00086
    는 가중치이고,
    상기 리트윗 요소
    Figure pat00087
    는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00088

    여기서,
    Figure pat00089
    는 사용자에 의해 트윗된 콘텐츠의 개수이고,
    Figure pat00090
    는 상기 사용자에 의해 트윗된 콘텐츠에 대한 리트윗 개수이고, 는 사용자의 팔로워의 수이고,
    Figure pat00092
    는 상기 사용자의 상기 팔로워의 평균 팔로워의 수이고,
    Figure pat00093
    는 가중치이고,
    상기 멘션 요소
    Figure pat00094
    는 아래의 수학식을 기반으로 결정되고,
    <수학식>
    Figure pat00095

    여기서,
    Figure pat00096
    는 사용자에 대한 멘션의 수이고,
    Figure pat00097
    는 가중치인 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 시스템.
  12. 제11항에 있어서,
    상기 사용자의 영향력 지수는 아래의 수학식을 기반으로 결정되는 것을 특징으로 하는
    <수학식>
    Figure pat00098

    소셜 네트워크 서비스에서 핫 토픽 결정 시스템.
  13. 제12항에 있어서,
    상기 핫 토픽 지수는 상기 영향력 지수와 상기 추출된 단어의 상기 복수의 시간 슬롯 각각에서의 상기 출현 빈도의 곱을 기반으로 결정되는 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 시스템.
  14. 제13항에 있어서,
    상기 핫 토픽 지수 변화 비율은 아래의 수학식을 기반으로 결정되되,
    <수학식>
    Figure pat00099

    여기서,
    Figure pat00100
    는 상기 추출된 단어의 시간 t-1에서의 핫 토픽 지수이고,
    Figure pat00101
    는 상기 추출된 단어의 시간 t에서의 핫 토픽 지수인 것을 특징으로 하는 소셜 네트워크 서비스에서 핫 토픽 결정 시스템.
KR1020150136213A 2015-09-25 2015-09-25 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템 KR101764696B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150136213A KR101764696B1 (ko) 2015-09-25 2015-09-25 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150136213A KR101764696B1 (ko) 2015-09-25 2015-09-25 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20170037709A true KR20170037709A (ko) 2017-04-05
KR101764696B1 KR101764696B1 (ko) 2017-08-04

Family

ID=58587179

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150136213A KR101764696B1 (ko) 2015-09-25 2015-09-25 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101764696B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829699A (zh) * 2018-04-19 2018-11-16 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN109766426A (zh) * 2018-12-31 2019-05-17 杭州翼兔网络科技有限公司 一种热门话题活跃用户定位方法
KR20200047991A (ko) * 2018-10-29 2020-05-08 비플라이소프트(주) 이슈에 대한 미디어지수를 산출하는 장치 및 방법
CN111125561A (zh) * 2019-11-28 2020-05-08 泰康保险集团股份有限公司 一种网络热度的展示方法及装置
KR20200144417A (ko) * 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법
CN112434933A (zh) * 2020-11-20 2021-03-02 温州大学瓯江学院 一种公众社交平台的媒体影响力定量评估方法
KR20210064620A (ko) * 2019-11-26 2021-06-03 주식회사 와이즈넛 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
CN113076335A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种网络模因检测方法、系统、设备及存储介质
CN113688310A (zh) * 2021-07-23 2021-11-23 北京中科闻歌科技股份有限公司 一种内容推荐方法、装置、设备及存储介质
CN113076335B (zh) * 2021-04-02 2024-05-24 西安交通大学 一种网络模因检测方法、系统、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101913284B1 (ko) * 2017-11-29 2018-10-30 충남대학교산학협력단 소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060116551A (ko) 2005-05-10 2006-11-15 삼성전자주식회사 인쇄 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060116551A (ko) 2005-05-10 2006-11-15 삼성전자주식회사 인쇄 장치 및 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829699A (zh) * 2018-04-19 2018-11-16 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
KR20200047991A (ko) * 2018-10-29 2020-05-08 비플라이소프트(주) 이슈에 대한 미디어지수를 산출하는 장치 및 방법
CN109766426A (zh) * 2018-12-31 2019-05-17 杭州翼兔网络科技有限公司 一种热门话题活跃用户定位方法
KR20200144417A (ko) * 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법
KR20210064620A (ko) * 2019-11-26 2021-06-03 주식회사 와이즈넛 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
CN111125561A (zh) * 2019-11-28 2020-05-08 泰康保险集团股份有限公司 一种网络热度的展示方法及装置
CN112434933A (zh) * 2020-11-20 2021-03-02 温州大学瓯江学院 一种公众社交平台的媒体影响力定量评估方法
CN113076335A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种网络模因检测方法、系统、设备及存储介质
CN113076335B (zh) * 2021-04-02 2024-05-24 西安交通大学 一种网络模因检测方法、系统、设备及存储介质
CN113688310A (zh) * 2021-07-23 2021-11-23 北京中科闻歌科技股份有限公司 一种内容推荐方法、装置、设备及存储介质
CN113688310B (zh) * 2021-07-23 2023-08-29 北京中科闻歌科技股份有限公司 一种内容推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR101764696B1 (ko) 2017-08-04

Similar Documents

Publication Publication Date Title
KR101764696B1 (ko) 사용자 영향력 및 시간 변화를 고려한 소셜 네트워크 핫 토픽 결정 방법 및 시스템
JP6616012B2 (ja) エモーティコン推奨方法及び装置
US11222061B2 (en) Generating digital media clusters corresponding to predicted distribution classes from a repository of digital media based on network distribution history
US10877977B2 (en) Generating a relevance score for direct digital messages based on crowdsourced information and social-network signals
US9122989B1 (en) Analyzing website content or attributes and predicting popularity
US8306922B1 (en) Detecting content on a social network using links
US8995823B2 (en) Method and system for content relevance score determination
US20190171724A1 (en) Method and apparatus for determining hot event
US20160117595A1 (en) Information recommendation method and apparatus in social media
US20150169587A1 (en) Identifying trending content on a social networking platform
US11343220B2 (en) User engagement with co-users of a networking system
CA2924667A1 (en) System and method for actively obtaining social data
US20180262878A1 (en) Account pushing method and apparatus, and computer storage medium
KR20150067897A (ko) 소셜 데이터의 인기도 예측 장치 및 방법
US20150287069A1 (en) Personal digital engine for user empowerment and method to operate the same
CN107944032B (zh) 用于生成信息的方法和装置
KR101725510B1 (ko) 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치
Zhao et al. A probabilistic lifestyle-based trajectory model for social strength inference from human trajectory data
CN105100164A (zh) 网络服务推荐方法和装置
WO2014008848A1 (en) Method for providing recommend information for mobile terminal browser and system using the same
US8856112B2 (en) Considering document endorsements when processing queries
US20160012133A1 (en) Method and apparatus for setting influence index of user in network service
JP6036331B2 (ja) 管理方法、管理装置および管理プログラム
RU2678088C1 (ru) Программирование уведомлений, исходя из последующей активности пользователя
KR101928822B1 (ko) 사물 인터넷 환경에서 낯선 기기에 대한 사용자 신뢰도 계산 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right