KR20180055939A - Social network data analyzing system - Google Patents
Social network data analyzing system Download PDFInfo
- Publication number
- KR20180055939A KR20180055939A KR1020160149357A KR20160149357A KR20180055939A KR 20180055939 A KR20180055939 A KR 20180055939A KR 1020160149357 A KR1020160149357 A KR 1020160149357A KR 20160149357 A KR20160149357 A KR 20160149357A KR 20180055939 A KR20180055939 A KR 20180055939A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- sns
- analysis
- analysis result
- sns data
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 62
- 238000007405 data analysis Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 14
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000012731 temporal analysis Methods 0.000 description 4
- 238000000700 time series analysis Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000132092 Aster Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G06F17/30867—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G06F17/3087—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 SNS 데이터 분석 시스템에 관한 것으로, 보다 상세하게는 SNS상에서 실시간으로 발생하는 대량의 데이터 중 사용자가 원하는 정보를 빈도수별, 시간별 또는 장소별 분석 결과로 얻기 위한 기술에 관한 것이다. The present invention relates to an SNS data analysis system, and more particularly, to a technique for acquiring information desired by a user out of a large amount of data generated in real time on an SNS by frequency, time, or place.
최근 인터넷으로 대표되는 네트워크 기술이 발전함에 따라 온라인 웹사이트 상의 게시판을 비롯하여 블로그, 카페 및 소셜 네트워크 서비스(SNS)와 같이 다양한 소셜 네트워크 환경을 통해 사용자 자신의 의견 표현이나 주변상황 및 소식을 전하고 있으며, 계속적인 통신망의 발달로 인해 인터넷과 모바일 상에 존재하는 디지털 콘텐츠 및 데이터의 양이 기하급수적으로 증가함에 따라 빅데이터(Big data) 시대가 도래하였다. 대표적인 소셜 네트워크 서비스로는 트위터(Twitter), 페이스북(Facebook), 인스타그램(instagram) 등이 있으며, 이러한 소셜 네트워크 서비스는 실시간으로 대량의 데이터를 양산해내는 특징이 있다. Recently, as the network technology represented by the Internet has developed, users have been expressing their opinions, surrounding situations and news through a variety of social network environments such as a bulletin board on an online web site, a blog, a cafe, and a social network service (SNS) As the amount of digital content and data on the Internet and mobile has increased exponentially due to the continuous development of communication network, the era of big data has come. Typical social network services include Twitter, Facebook, and instagram. These social network services are characterized by mass production of large amounts of data in real time.
대량의 데이터들 중에서도 특히 질병이나 자연재해와 같이 사건 발생 후 시간이나 장소별로 타지역에서도 유사한 사건이 발생할 확률이 높은 연속성이 있는 데이터(연속성 이벤트)가 존재한다. 이러한 연속성 이벤트는 기본적인 빈도 수 분석, 시간대 별 분석, 장소 별 분석, 연관 키워드 분석 등으로 분석하여 결과를 나타낼 경우 자연재해 경로 예상 파악 등 활용가치가 높다. 기존 소셜 네트워크 정보 수집 시스템은 실시간으로 생산되는 대량의 SNS 데이터를 처리하는 속도가 더딘 문제점과 이로 인해 시간대 별 분석 결과, 장소 별 분석 결과, 연관 키워드 분석 결과 등의 기능을 원활하게 제공하지 못하는 어려움이 있었다. Among the large amount of data, there is continuity data (continuity event) in which there is a high possibility that similar events occur in other regions by time or place after occurrence of an event such as a disease or a natural disaster. These continuity events are highly valuable in terms of estimating natural disaster pathways when they are analyzed by basic frequency analysis, time zone analysis, site analysis, and related keyword analysis. The existing social network information collection system has a problem of slow processing of a large amount of SNS data produced in real time, and thus it is difficult to smoothly provide functions such as time-series analysis result, place-based analysis result and related keyword analysis result there was.
본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, SNS상에서 실시간으로 발생하는 대량의 데이터 중 사용자가 원하는 정보에 대응하는 데이터 분석시 빈도 수 분석, 시간대 별 분석, 장소 별 분석 및 연관 키워드 분석 결과로 나타낼 수 있는 SNS 데이터 분석 시스템 제공을 일 목적으로 한다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a method and system for analyzing data corresponding to user's desired information among a large amount of data generated in real time on the SNS, And to provide an SNS data analysis system which can be represented as a SNS data analysis system.
또한 본 발명은 SNS상에서 실시간으로 발생하는 대량의 데이터를 기존 DB 대비 응답 속도가 우수한 AsterixDB를 이용하여 설계한 SNS 데이터 분석 시스템 제공을 또 다른 목적으로 한다. Another object of the present invention is to provide an SNS data analysis system designed by using AsterixDB, which has a high response speed compared to the existing DB, in a large amount of data generated in real time on the SNS.
본 발명의 일 측면에 따른 SNS 데이터 분석 시스템은 SNS상의 데이터를 분석하는 시스템에 있어서, SNS데이터를 수집 및 저장하는 AsterixDB와, 사용자가 원하는 정보에 해당하는 검색어를 입력받는 입력부와, 상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 제어부와, 상기 제어부가 분석한 결과를 나타내는 표시부를 포함한다. According to an aspect of the present invention, there is provided a system for analyzing data on an SNS, comprising: an AsterixDB for collecting and storing SNS data; an input unit for receiving a search word corresponding to information desired by a user; A SNS data of the Asterix DB; and a display unit for displaying the analyzed result of the control unit.
바람직하게 상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 제어부의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상일 수 있다. Preferably, the control unit analyzes the information corresponding to the search term using the SNS data of the Asterix DB, wherein the analysis result of the control unit includes at least one of frequency analysis results, time series analysis results, It can be more than one.
본 발명의 또 다른 일 측면에 따른 SNS 데이터 분석 방법은 SNS상의 데이터를 분석하는 방법에 있어서, AsterixDB가 SNS데이터를 수집 및 저장하는 SNS데이터 수집 및 저장단계와, 입력부가 사용자가 원하는 정보에 해당하는 검색어를 입력받는 검색어 입력 단계와, 제어부가 상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 분석 단계와, 표시부가 상기 제어부가 분석한 결과를 나타내는 분석 결과 표시 단계를 포함한다. According to another aspect of the present invention, there is provided a method for analyzing data on an SNS, the method comprising the steps of: collecting and storing SNS data by the Asterix DB; An analysis step of analyzing the information corresponding to the search word through the SNS data of the Asterix DB; and an analysis result display step of displaying the analysis result of the control part by the display part.
바람직하게 상기 분석 단계에서 상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 분석 결과 표시 단계의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상일 수 있다. Preferably, in the analyzing step, the controller analyzes the information corresponding to the search term using the SNS data of the Asterix DB, wherein the analysis result of the analysis result display step includes a frequency analysis result, a time series analysis result, , And associated keyword analysis results.
본 발명에 따르면, AsterixDB를 이용하여 SNS 데이터 분석시 기존 DB 대비 빠른 처리 속도를 가질 수 있다. According to the present invention, when analyzing SNS data using AsterixDB, it is possible to have a high processing speed compared to existing DB.
또한 본 발명에 따르면, SNS상에서 실시간으로 발생하는 대량의 데이터 중 사용자가 원하는 정보에 대응하는 데이터를 분석하여 빈도 수 분석 결과, 시간대 별 분석 결과, 장소 별 분석 결과 및 연관 키워드 분석 결과로 나타날 수 있다. Also, according to the present invention, data corresponding to information desired by a user among a large amount of data generated in real time on the SNS can be analyzed, and can be expressed as frequency analysis results, time-based analysis results, place- .
도 1은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템 세부 구조의 예를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 특정 검색어 입력시 도출된 결과 화면의 예를 나타낸 도면이다
도 4는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 측정한 SNS 데이터 빈도수를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 쿼리 응답속도 비교실험결과를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법의 순서도이다.1 is a block diagram of an SNS data analysis system according to an embodiment of the present invention.
2 is a diagram illustrating an example of a detailed structure of an SNS data analysis system according to an embodiment of the present invention.
3 is a diagram illustrating an example of a result screen derived when a specific search word is input through the SNS data analysis system according to an embodiment of the present invention
FIG. 4 is a diagram illustrating the number of SNS data frequencies measured through the SNS data analysis system according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a result of a query response speed comparison experiment of an SNS data analysis system according to an embodiment of the present invention.
6 is a flowchart of a method for analyzing SNS data according to an embodiment of the present invention.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다. 또한 본 발명의 실시예에서 제시되는 특정한 구조 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있다. 마찬가지로 본 명세서에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 되며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경물, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. In order to fully understand the present invention, operational advantages of the present invention, and objects achieved by the practice of the present invention, reference should be made to the accompanying drawings and the accompanying drawings which illustrate preferred embodiments of the present invention. It is also to be understood that the specific structure or functional description presented in the embodiments of the present invention is illustrated for the purpose of describing an embodiment according to the concept of the present invention only and embodiments according to the concept of the present invention may be embodied in various forms . Likewise, it should be understood that the present invention should not be construed as limited to the embodiments described herein, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the present invention.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Like reference symbols in the drawings denote like elements.
도 1은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템(1)의 구성도이고, 도 2는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템(1)의 세부 구조 예시도이다. 이를 참조하여 설명한다.
FIG. 1 is a configuration diagram of an SNS
본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템(1)은 AsterixDB(10), 입력부(20), 제어부(30), 표시부(40)를 포함할 수 있다.
AsterixDB(10)는 SNS 데이터를 수집하고 저장하는 기능을 담당한다. AsterixDB(10)란 Apache project로 UCI (University of California, Irvine)의 빅데이터 그룹에서 개발한 오픈소스 BDMS (Big Data Management System)이다. 객체 지향 데이터베이스와 JSON을 확장시킨 NoSQL 스타일의 데이터 모델을 기반으로 반 구조화된 형태의 데이터를 처리하는 데에 있어 유연한 특성을 갖고 있다. 또한 비정형 데이터에 대한 분석과 쿼리를 제공하고 있다. 대량의 데이터 처리를 위해 클러스터를 쉽게 구성하여 분산 처리가 가능하고, 1000개 이상의 코어와 500개 이상의 디스크로 확장이 가능하다. 실시간으로 생성되는 데이터를 수용하기 위한 피드(feed) 기능 이외에도 B+ tree, R tree, inverted keyword 등 다양한 타입의 인덱싱을 지원하고 있다. 앞서 언급한 AsterixDB의 특징들은 반 구조화된 비정형 데이터이면서 실시간으로 계속하여 대량 생성되는 데이터인 SNS 데이터 즉 소셜 미디어 콘텐츠의 효율적인 처리가 가능 하도록 한다.
The SNS
입력부(20)는 검색어 등 사용자가 원하는 정보를 입력받을 수 있다. 사용자가 원하는 정보에 대응한 핵심 단어로서 ‘폭설’, ‘메르스’ 등을 의미한다.
The
제어부(30)는 상기 사용자가 원하는 정보에 대응한 AsterixDB에 저장된 SNS데이터를 분석할 수 있다. 일반적으로 특정 이벤트나 사건이 발생하면, 그와 관련된 SNS데이터들이 실시간으로 대량 생산되며, 특히 트위터의 경우 재해나 질병 등이 발생하면 해당 키워드가 포함된 관련 콘텐츠들을 빠르게 생성하고, 또 리트윗(RT)이나 공유를 통해 빠른 속도로 전파시킨다. 특정 키워드가 포함된 SNS데이터들이 발생한 시간과 위치를 분석하여 어떠한 경로로 발생하고 확장되는지를 제어부(30)의 SNS데이터 분석을 통해 파악할 수 있다. 제어부(30)는 SNS데이터 분석 결과로서 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 등을 도출할 수 있다. 제어부(30)가 전술한 SNS데이터 분석을 위해서는 AsterixDB(10)를 이용하게 되는데 AsterixDB(10)에 저장된 데이터 중 필요한 데이터 추출시 사용하는 기 지정된 AQL을 사용할 수 있다. 제어부는 PC, 스마트폰 등의 중앙처리장치(CPU, AP)의 형태로 구현될 수 있다.
The
표시부(40)는 제어부(30)의 분석 결과를 나타내는 역할을 수행한다. 즉 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상을 나타낼 수 있다. 표시부(40) 역시 모바일PC, 모니터 등의 형태로 구현할 수 있는 것은 당연하다.
The
본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 세부구조의 예를 도 2를 참조하여 설명하면 먼저 SNS데이터를 수집하는 크롤링 모듈, 수집된 SNS데이터를 처리하여 AsterixDB(10)에 저장하는 전처리 모듈, SNS데이터를 통한 키워드 경로를 분석하는 제어부(30)에 해당하는 분석 모듈과 분석된 결과를 구현하여 사용자가 보기 쉽게 해 주는 표시부(40)에 해당하는 시각화 모듈로 이루어질 수 있다. 상기 크롤링 모듈을 통해 수집한 SNS데이터를 한국 지도에 맵핑시킨후 전처리 모듈에서 ADM형식으로 변환하여 AsterixDB(10)에 저장하며 AQL(AsterixDB Query Language)을 이용하여 관리할 수 있다. 상기 분석 모듈은 사용자가 원하는 정보에 대응하는 검색어를 기 지정된 AQL을 통해 AsterixDB(10)에서 SNS데이터를 검색하고 지역별 빈도수를 계산하고 분석 결과들을 지도에 나타낼 수 있다.
Referring to FIG. 2, an example of a detailed structure of the SNS data analysis system according to an embodiment of the present invention will be described. First, a crawling module for collecting SNS data, a preprocessing module for processing the collected SNS data and storing the collected SNS data in the Asterix DB 10 A analysis module corresponding to the
도 3은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 특정 검색어인 ‘폭설’입력시 도출된 결과 화면의 예를 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 측정한 SNS 데이터 빈도수를 나타낸 도면으로서 이를 참조하여 본 발명의 일 실시예를 설명한다. FIG. 3 is a diagram illustrating an example of a result screen derived when a user inputs a specific keyword 'snowfall' through the SNS data analysis system according to an exemplary embodiment of the present invention. FIG. The number of SNS data frequencies measured through the system, and an embodiment of the present invention will be described with reference to the drawings.
실험예로써 소셜 네트워크 서비스(SNS) 중 대표적인 소셜 미디어 콘텐츠 제공 사이트라고 할 수 있는 트위터와 사진과 동영상 콘텐츠를 기반으로 하고 있는 인스타그램 데이터를 대상으로 하였다. 지역 별로 검색어 빈도수를 나타내기 위해 위치 정보가 포함된 트위터 데이터와 인스타그램 데이터를 이용하였다. 트위터에서 위치 정보가 포함된 트윗들을 얻어오기 위해 Twitter Streaming API를 이용하였다. Twitter Streaming API는 위도, 경도 값을 이용하여 위치 정보가 포함된 트윗들을 수집한다. 이를 이용하여 총 200만 건의 위치 정보가 포함된 국내 트윗들을 수집하였다. 인스타그램은 위도, 경도 값을 기반으로 데이터를 수집하는 Locations API Endpoints를 제공하지만 특정 위치에서 반경 5KM 안의 데이터만을 수집하기 때문에 효율적으로 지역별 데이터를 수집할 수 없다. 따라서 Tag API Endpoints을 이용하여 행정 구역의 명칭을 검색어로 총 200만 건의 데이터를 수집하였다. 위치 정보를 포함한 데이터는 전체 데이터의 대략 10%, 약 20만 건의 인스타그램 데이터를 수집하였다. 수집한 소셜 데이터를 기반으로 지역 별로 빈도수 측정하기 위해서는 한국 지역별 좌표가 필요하다. 이는 KOSTAT에서 한국 행정구역의 좌표 값을 JSON 타입으로 제공하는 데이터를 사용했다. 행정구역을 시/도, 시/군/구의 두 단계로 한국 지도에 적용한다. AsterixDB를 이용하여 트위터 및 인스타그램 데이터를 관리하며 KOSTAT에서 제공하는 한국 행정교육 정보를 이용하여 AsterixDB기반 소셜 미디어 분석 시스템을 구현하였다. As an experimental example, a sample of the social network service (SNS), which is a representative social media content providing site, was included in the twitter and theinstagram data based on the photograph and video contents. We use Twitter data and location data with location information to show the frequency of search terms by region. I used the Twitter Streaming API to get tweets with location information on Twitter. The Twitter Streaming API collects tweets that contain location information using latitude and longitude values. Using this information, we collected domestic tweets that contain 2 million total location information. Instagrams provide Locations API Endpoints that collect data based on latitude and longitude values, but they can not efficiently collect geographic data because they only collect data within a radius of 5KM at a specific location. Therefore, Tag API Endpoints were used to collect a total of 2 million data from the names of administrative districts. Data, including location information, collected approximately 10% of the total data, or approximately 200,000 instances of Instagram data. In order to measure the frequency by region based on the collected social data, coordinates of each region of the country are required. This used data from KOSTAT to provide the coordinates of the Korean government area as JSON type. The administrative district shall be applied to the map of Korea in two stages of city / province and city / county / district. We managed the Twitter and Instagram data using AsterixDB and implemented the social media analysis system based on AsterixDB using Korean administrative education information provided by KOSTAT.
도 3의 (a)는 트위터의 데이터를 ‘폭설’이란 검색어로 분석한 그림이다. 각 지역별로 ‘폭설’이란 검색어가 포함된 콘텐츠의 수를 알 수 있고 인스타그램 데이터에도 동일하게 적용하였다. 또한 ‘폭설’검색어와 함께 출현한 검색어들을 태그 클라우드를 통해 확인 할 수 있다. 도 3의 (b)는 트위터와 인스타그램의 데이터를 같이 분석한 결과이다. 지역별로 각 소셜 미디어 콘텐츠들의 빈도수에 대한 통계를 볼 수 있다. FIG. 3 (a) is an analysis of the data of the tweeter by the search term "heavy snow". For each region, we can know the number of contents that contain the keyword 'snowfall' and apply the same to the Instagram data. In addition, search terms appearing along with the 'snowfall' search word can be confirmed through the tag cloud. FIG. 3 (b) is a result of analyzing the data of the tweeter and theinstagram together. You can see statistics on the frequency of each social media content by region.
도 4의 (1)은 특정 검색어별 트위터와 인스타그램의 콘텐츠 빈도수를 나타낸 표이다. ‘선거’, ‘정치’, ‘투표’, ‘국회’ 검색어는 정치적인 주제이며 ‘패션’, ‘맛집’, ‘여행’, ‘일상’ 검색어는 사용자의 기호와 경험을 나타내는 검색어들이다. 각 검색어별 콘텐츠의 빈도수를 보았을 때, 트위터의 경우 사용자들이 정치적인 주제로 대화를 하거나 견해를 나타내는데 자주 쓰이며, 인스타그램은 사용자의 기화와 경험을 표현하는데 많이 쓰이는 것을 알 수 있다. 특히 인스타그램은 사진을 같이 게시하기 때문에 사용자의 기호나 경험을 표현하는데 자주 쓰이고 있다. 트위터와 인스타그램을 제외하고도 다수의 소셜 미디어들이 존재하고 있다. 위의 표를 보았을 때 각 소셜 미디어 콘텐츠들의 주제가 다르기 때문에 다양한 소셜 미디어로부터 콘텐츠들을 모아 분석하는 것은 의미가 있음을 알 수 있다. FIG. 4 (1) is a table showing the frequency of contents of Twitter and Instagram for each specific search word. The words 'election', 'politics', 'voting', and 'congress' are political topics, and 'fashion', 'restaurant', 'travel', and 'everyday' When we look at the frequency of content for each search term, Twitter is often used for users to talk on political topics or to express their opinions, and Instagram can be used to express user's flare and experience. In particular, Instagrams are often used to express user preferences or experiences because they post pictures together. Apart from Twitter and Instagram, there are many social media. In the above table, it is meaningful to collect and analyze contents from various social media because the subject of each social media contents is different.
도 4의 (2)는 소셜 미디어별 최대 빈도수 검색어들을 나열한 표이다. 트위터와 인스타그램 모두 특정 지역이름이나 ‘일상’과 같은 검색어들을 이용하여 자신의 상황을 공유하지만, 트위터는 ‘뉴스’, ‘정치’ 등의 사회적인 이슈나 정치적인 검색어들을 담은 콘텐츠들이 많은 것을 확인 할 수 있다. 또한 트위터는 표 2와 같이 ‘^^’, ‘:)’같은 이모티콘을 이용하여 사용자의 감정이나 생각 등을 표현하는 경향이 있다. 반면에 인스타그램에서는 ‘먹스타그램’, ‘데일리’, ‘셀피’ 등 사용자의 현재 상태나 경험, 주변 상황들을 알리기 위한 검색어들을 많이 사용하는 것을 알 수 있다. 4 (2) is a table listing the maximum frequency search terms by social media. Both Twitter and Instagram share their own situation using search terms such as a specific region name or 'everyday', but Twitter confirms that there are many contents that contain social issues such as 'news' and 'politics' or political search words . Twitter also tends to express emotions and thoughts by using emoticons such as '^^', ':)' as shown in Table 2. On the other hand, in the Instagram, we can see that we use a lot of search terms to inform the user about the present condition, experience, and the surrounding situations such as 'Einstaggram', 'Daily' and 'Selpis'.
도 5는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 AsterixDB(10)와 기존 MySQL의 쿼리 응답속도 비교실험결과를 나타낸 도면이다. AsterixDB(10)를 사용함으로써 성능적인 향상을 이루었는지 검증하기 위해 일반적으로 많이 사용되는 MySQL을 이용하였을 때와의 속도 차이를 측정했다. 정확한 실험을 위해 동일한 환경의 리눅스 시스템에서 동일한 데이터를 각각 AsterixDB(10)와 MySQL에 저장하고, 경로 분석에 필요한 정보를 가져오는 기능의 수행이 가능한 쿼리를 전송한 뒤 그에 따른 응답 속도를 측정하여 비교했다. 지역 별로 그룹화한 뒤 시간대 별로 또 다시 그룹화 해야 하기 때문에 쿼리가 복잡해진다. AstirxDB(10)의 수집 및 저장을 통해 제어부(30)가 분석해야 할 대상인 SNS데이터의 수가 많아질수록 MySQL 보다 AsterixDB(10)에서 훨씬 빠른 속도를 보이는 것을 알 수 있다. AsterixDB가 대량의 SNS데이터를 실시간으로 처리하는 데에 있어 보다 효율적인 처리가 가능하다.
FIG. 5 is a graph showing the results of a query response speed comparison between the
도 6은 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법의 흐름도로서 이를 참조하여 설명하면. 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법은 SNS데이터 수집 및 저장 단계(s1), 검색어 입력 단계(s2), 분석 단계(s3), 분석 결과 표시 단계(s4)를 포함할 수 있다. FIG. 6 is a flowchart illustrating a method of analyzing SNS data according to an exemplary embodiment of the present invention. Referring to FIG. The SNS data analysis method according to an embodiment of the present invention may include an SNS data collection and storage step (s1), a query input step (s2), an analysis step (s3), and an analysis result display step (s4).
전술한 도 1 내지 도 5를 참조한 설명을 토대로 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법을 설명하면, SNS데이터 수집 및 저장 단계(s1)는 AsterixDB(10)가 SNS데이터를 수집 및 저장하는 과정을 말하고, 검색어 입력 단계(s2)는 입력부(20)가 사용자가 원하는 정보에 해당하는 검색어를 입력받는 과정을 말하며, 분석 단계(s3)는 제어부(30)가 AsterixDB(10)를 이용하여 SNS데이터를 분석하는 과정을 말하고, 분석 결과 표시 단계(s4)는 표시부(40)가 제어부(30)의 분석 결과를 표시하는 과정을 말한다. 분석 단계(s3)에서 제어부(30)는 AsterixDB(10)의 SNS데이터를 이용하여 검색어에 대응하는 정보를 분석하되, 분석 결과 표시 단계(s4)의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상일 수 있다.
The method for analyzing SNS data according to an embodiment of the present invention will now be described with reference to FIGS. 1 to 5. The SNS data collection and storage step (s1) is performed when the
지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였다. 그러나 본 발명이 상기한 실시예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다. The present invention has been described in detail with reference to preferred embodiments. It will be apparent to those skilled in the art that the present invention is not limited to the embodiments described above and that various modifications and changes may be made by one of ordinary skill in the art without departing from the scope of the present invention, It is to be understood that the technical idea of the present invention extends to the extent possible.
Claims (4)
SNS데이터를 수집 및 저장하는 AsterixDB;
사용자가 원하는 정보에 해당하는 검색어를 입력받는 입력부,
상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 제어부;
상기 제어부가 분석한 결과를 나타내는 표시부를 포함하는 것을 특징으로 하는 SNS 데이터 분석 시스템.
A system for analyzing data on an SNS,
AsterixDB to collect and store SNS data;
An input unit for inputting a search word corresponding to information desired by the user,
A controller for analyzing information corresponding to the search word through SNS data of the Asterix DB;
And a display unit for displaying the analyzed result of the SNS data analysis system.
상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 제어부의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상인 것을 특징으로 하는 SNS 데이터 분석 시스템.
The method according to claim 1,
Wherein the control unit analyzes the information corresponding to the search term using the SNS data of the Asterix DB, wherein the analysis result of the control unit is at least one of a frequency analysis result, a time domain analysis result, a place analysis result, And the SNS data analysis system.
AsterixDB가 SNS데이터를 수집 및 저장하는 SNS데이터 수집 및 저장단계 ;
입력부가 사용자가 원하는 정보에 해당하는 검색어를 입력받는 검색어 입력 단계;
제어부가 상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 분석 단계;
표시부가 상기 제어부가 분석한 결과를 나타내는 분석 결과 표시 단계를 포함하는 것을 특징으로 하는 SNS 데이터 분석 방법.
A method for analyzing data on an SNS,
SNS data collection and storage step in which AsterixDB collects and stores SNS data;
An input unit for inputting a search word corresponding to information desired by a user;
Analyzing the information corresponding to the search word through the SNS data of the Asterix DB;
And a display step of displaying an analysis result indicating a result of the analysis by the control unit.
상기 분석 단계에서 상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 분석 결과 표시 단계의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상인 것을 특징으로 하는 SNS 데이터 분석 방법;
The method of claim 3,
In the analysis step, the control unit analyzes information corresponding to the search term using the SNS data of the Asterix DB, and the analysis result of the analysis result display step includes a frequency analysis result, a time domain analysis result, A keyword analysis result; and an SNS data analysis method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160149357A KR101869871B1 (en) | 2016-11-10 | 2016-11-10 | Social network data analyzing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160149357A KR101869871B1 (en) | 2016-11-10 | 2016-11-10 | Social network data analyzing system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180055939A true KR20180055939A (en) | 2018-05-28 |
KR101869871B1 KR101869871B1 (en) | 2018-06-21 |
Family
ID=62451619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160149357A KR101869871B1 (en) | 2016-11-10 | 2016-11-10 | Social network data analyzing system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101869871B1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130090612A (en) * | 2012-02-06 | 2013-08-14 | 주식회사 와이즈커넥트 | Method and system for providing location based contents by analyzing keywords on social network service |
KR20150046793A (en) * | 2013-10-21 | 2015-05-04 | 대한민국(국민안전처 국립재난안전연구원장) | Disaster detecting system using social media |
KR20150059208A (en) * | 2013-11-21 | 2015-06-01 | 한국전자통신연구원 | Device for analyzing the time-space correlation of the event in the social web media and method thereof |
KR101532252B1 (en) | 2013-08-23 | 2015-07-01 | (주)타파크로스 | The system for collecting and analyzing of information of social network |
KR20160034471A (en) * | 2014-09-19 | 2016-03-30 | 엄수현 | Method For Retrieving Regional Real-time Hot Issue Using SNS and SMS And System Thereof |
-
2016
- 2016-11-10 KR KR1020160149357A patent/KR101869871B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130090612A (en) * | 2012-02-06 | 2013-08-14 | 주식회사 와이즈커넥트 | Method and system for providing location based contents by analyzing keywords on social network service |
KR101532252B1 (en) | 2013-08-23 | 2015-07-01 | (주)타파크로스 | The system for collecting and analyzing of information of social network |
KR20150046793A (en) * | 2013-10-21 | 2015-05-04 | 대한민국(국민안전처 국립재난안전연구원장) | Disaster detecting system using social media |
KR20150059208A (en) * | 2013-11-21 | 2015-06-01 | 한국전자통신연구원 | Device for analyzing the time-space correlation of the event in the social web media and method thereof |
KR20160034471A (en) * | 2014-09-19 | 2016-03-30 | 엄수현 | Method For Retrieving Regional Real-time Hot Issue Using SNS and SMS And System Thereof |
Also Published As
Publication number | Publication date |
---|---|
KR101869871B1 (en) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Davis Jr et al. | Inferring the location of twitter messages based on user relationships | |
Kimble et al. | Big data and business intelligence: Debunking the myths | |
Giatsoglou et al. | CityPulse: A platform prototype for smart city social data mining | |
Nguyen et al. | Real-time event detection on social data stream | |
Brughmans | Networks of networks: A citation network analysis of the adoption, use, and adaptation of formal network techniques in archaeology | |
Bendler et al. | Taming uncertainty in big data: Evidence from social media in urban areas | |
WO2016012493A1 (en) | System and method for social event detection | |
KR20140136480A (en) | Empirical expert determination and question routing system and method | |
CN111125344B (en) | Related word recommendation method and device | |
CN108921734A (en) | One real estate information visualization system based on multi-source heterogeneous data | |
US20130246463A1 (en) | Prediction and isolation of patterns across datasets | |
KR20130090612A (en) | Method and system for providing location based contents by analyzing keywords on social network service | |
Vassakis et al. | Location-based social network data for tourism destinations | |
CN105518644A (en) | Method for processing and displaying real-time social data on map | |
Nam et al. | Measuring web ecology by Facebook, Twitter, blogs and online news: 2012 general election in South Korea | |
Laitinen et al. | ELF, language change and social networks: evidence from real-time social media data | |
Rumshisky et al. | Combining network and language indicators for tracking conflict intensity | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Francalanci et al. | Exploratory spatio-temporal queries in evolving information | |
Rajabi et al. | Exposing social data as linked data in education | |
Raghav et al. | Bigdata fog based cyber physical system for classifying, identifying and prevention of SARS disease | |
Pfeffer et al. | Perspectives on the role of geo-technologies for addressing contemporary urban issues: Implications for IDS | |
KR101869871B1 (en) | Social network data analyzing system | |
KR101760108B1 (en) | Keyword trajectory analyzing system on social network | |
Massa et al. | Social Media Geographic Information: Current developments and opportunities in urban and regional planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) |