KR20180055939A - Social network data analyzing system - Google Patents

Social network data analyzing system Download PDF

Info

Publication number
KR20180055939A
KR20180055939A KR1020160149357A KR20160149357A KR20180055939A KR 20180055939 A KR20180055939 A KR 20180055939A KR 1020160149357 A KR1020160149357 A KR 1020160149357A KR 20160149357 A KR20160149357 A KR 20160149357A KR 20180055939 A KR20180055939 A KR 20180055939A
Authority
KR
South Korea
Prior art keywords
data
sns
analysis
analysis result
sns data
Prior art date
Application number
KR1020160149357A
Other languages
Korean (ko)
Other versions
KR101869871B1 (en
Inventor
정옥란
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020160149357A priority Critical patent/KR101869871B1/en
Publication of KR20180055939A publication Critical patent/KR20180055939A/en
Application granted granted Critical
Publication of KR101869871B1 publication Critical patent/KR101869871B1/en

Links

Images

Classifications

    • G06F17/30867
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • G06F17/3087
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an SNS data analysis system. The SNS data analysis system according to the present invention is a system for analyzing data on an SNS. The SNS data analysis system comprises: Asterix DB which collects and stores SNS data; an input unit which receives a search word corresponding to information desired by a user; a control unit which analyzes information corresponding to the search word through the SNS data of the Asterix DB; and a display unit which displays an analysis result of the control unit. According to the present invention, among the large amount of data generated in real time on an SNS, the data corresponding to the information desired by the user is analyzed, and then the analysis can be shown as a frequency analysis result, a time analysis result, a place analysis result, and a related keyword analysis result.

Description

SNS 데이터 분석 시스템{SOCIAL NETWORK DATA ANALYZING SYSTEM} [0001] SOCIAL NETWORK DATA ANALYZING SYSTEM [0002]

본 발명은 SNS 데이터 분석 시스템에 관한 것으로, 보다 상세하게는 SNS상에서 실시간으로 발생하는 대량의 데이터 중 사용자가 원하는 정보를 빈도수별, 시간별 또는 장소별 분석 결과로 얻기 위한 기술에 관한 것이다. The present invention relates to an SNS data analysis system, and more particularly, to a technique for acquiring information desired by a user out of a large amount of data generated in real time on an SNS by frequency, time, or place.

최근 인터넷으로 대표되는 네트워크 기술이 발전함에 따라 온라인 웹사이트 상의 게시판을 비롯하여 블로그, 카페 및 소셜 네트워크 서비스(SNS)와 같이 다양한 소셜 네트워크 환경을 통해 사용자 자신의 의견 표현이나 주변상황 및 소식을 전하고 있으며, 계속적인 통신망의 발달로 인해 인터넷과 모바일 상에 존재하는 디지털 콘텐츠 및 데이터의 양이 기하급수적으로 증가함에 따라 빅데이터(Big data) 시대가 도래하였다. 대표적인 소셜 네트워크 서비스로는 트위터(Twitter), 페이스북(Facebook), 인스타그램(instagram) 등이 있으며, 이러한 소셜 네트워크 서비스는 실시간으로 대량의 데이터를 양산해내는 특징이 있다. Recently, as the network technology represented by the Internet has developed, users have been expressing their opinions, surrounding situations and news through a variety of social network environments such as a bulletin board on an online web site, a blog, a cafe, and a social network service (SNS) As the amount of digital content and data on the Internet and mobile has increased exponentially due to the continuous development of communication network, the era of big data has come. Typical social network services include Twitter, Facebook, and instagram. These social network services are characterized by mass production of large amounts of data in real time.

대량의 데이터들 중에서도 특히 질병이나 자연재해와 같이 사건 발생 후 시간이나 장소별로 타지역에서도 유사한 사건이 발생할 확률이 높은 연속성이 있는 데이터(연속성 이벤트)가 존재한다. 이러한 연속성 이벤트는 기본적인 빈도 수 분석, 시간대 별 분석, 장소 별 분석, 연관 키워드 분석 등으로 분석하여 결과를 나타낼 경우 자연재해 경로 예상 파악 등 활용가치가 높다. 기존 소셜 네트워크 정보 수집 시스템은 실시간으로 생산되는 대량의 SNS 데이터를 처리하는 속도가 더딘 문제점과 이로 인해 시간대 별 분석 결과, 장소 별 분석 결과, 연관 키워드 분석 결과 등의 기능을 원활하게 제공하지 못하는 어려움이 있었다. Among the large amount of data, there is continuity data (continuity event) in which there is a high possibility that similar events occur in other regions by time or place after occurrence of an event such as a disease or a natural disaster. These continuity events are highly valuable in terms of estimating natural disaster pathways when they are analyzed by basic frequency analysis, time zone analysis, site analysis, and related keyword analysis. The existing social network information collection system has a problem of slow processing of a large amount of SNS data produced in real time, and thus it is difficult to smoothly provide functions such as time-series analysis result, place-based analysis result and related keyword analysis result there was.

한국등록특허공보 제10-1532252호 (소셜 네트워크 정보 수집 및 분석 시스템)Korean Patent Registration No. 10-1532252 (Social network information collection and analysis system)

본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, SNS상에서 실시간으로 발생하는 대량의 데이터 중 사용자가 원하는 정보에 대응하는 데이터 분석시 빈도 수 분석, 시간대 별 분석, 장소 별 분석 및 연관 키워드 분석 결과로 나타낼 수 있는 SNS 데이터 분석 시스템 제공을 일 목적으로 한다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a method and system for analyzing data corresponding to user's desired information among a large amount of data generated in real time on the SNS, And to provide an SNS data analysis system which can be represented as a SNS data analysis system.

또한 본 발명은 SNS상에서 실시간으로 발생하는 대량의 데이터를 기존 DB 대비 응답 속도가 우수한 AsterixDB를 이용하여 설계한 SNS 데이터 분석 시스템 제공을 또 다른 목적으로 한다. Another object of the present invention is to provide an SNS data analysis system designed by using AsterixDB, which has a high response speed compared to the existing DB, in a large amount of data generated in real time on the SNS.

본 발명의 일 측면에 따른 SNS 데이터 분석 시스템은 SNS상의 데이터를 분석하는 시스템에 있어서, SNS데이터를 수집 및 저장하는 AsterixDB와, 사용자가 원하는 정보에 해당하는 검색어를 입력받는 입력부와, 상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 제어부와, 상기 제어부가 분석한 결과를 나타내는 표시부를 포함한다. According to an aspect of the present invention, there is provided a system for analyzing data on an SNS, comprising: an AsterixDB for collecting and storing SNS data; an input unit for receiving a search word corresponding to information desired by a user; A SNS data of the Asterix DB; and a display unit for displaying the analyzed result of the control unit.

바람직하게 상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 제어부의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상일 수 있다. Preferably, the control unit analyzes the information corresponding to the search term using the SNS data of the Asterix DB, wherein the analysis result of the control unit includes at least one of frequency analysis results, time series analysis results, It can be more than one.

본 발명의 또 다른 일 측면에 따른 SNS 데이터 분석 방법은 SNS상의 데이터를 분석하는 방법에 있어서, AsterixDB가 SNS데이터를 수집 및 저장하는 SNS데이터 수집 및 저장단계와, 입력부가 사용자가 원하는 정보에 해당하는 검색어를 입력받는 검색어 입력 단계와, 제어부가 상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 분석 단계와, 표시부가 상기 제어부가 분석한 결과를 나타내는 분석 결과 표시 단계를 포함한다. According to another aspect of the present invention, there is provided a method for analyzing data on an SNS, the method comprising the steps of: collecting and storing SNS data by the Asterix DB; An analysis step of analyzing the information corresponding to the search word through the SNS data of the Asterix DB; and an analysis result display step of displaying the analysis result of the control part by the display part.

바람직하게 상기 분석 단계에서 상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 분석 결과 표시 단계의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상일 수 있다. Preferably, in the analyzing step, the controller analyzes the information corresponding to the search term using the SNS data of the Asterix DB, wherein the analysis result of the analysis result display step includes a frequency analysis result, a time series analysis result, , And associated keyword analysis results.

본 발명에 따르면, AsterixDB를 이용하여 SNS 데이터 분석시 기존 DB 대비 빠른 처리 속도를 가질 수 있다. According to the present invention, when analyzing SNS data using AsterixDB, it is possible to have a high processing speed compared to existing DB.

또한 본 발명에 따르면, SNS상에서 실시간으로 발생하는 대량의 데이터 중 사용자가 원하는 정보에 대응하는 데이터를 분석하여 빈도 수 분석 결과, 시간대 별 분석 결과, 장소 별 분석 결과 및 연관 키워드 분석 결과로 나타날 수 있다. Also, according to the present invention, data corresponding to information desired by a user among a large amount of data generated in real time on the SNS can be analyzed, and can be expressed as frequency analysis results, time-based analysis results, place- .

도 1은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템 세부 구조의 예를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 특정 검색어 입력시 도출된 결과 화면의 예를 나타낸 도면이다
도 4는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 측정한 SNS 데이터 빈도수를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 쿼리 응답속도 비교실험결과를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법의 순서도이다.
1 is a block diagram of an SNS data analysis system according to an embodiment of the present invention.
2 is a diagram illustrating an example of a detailed structure of an SNS data analysis system according to an embodiment of the present invention.
3 is a diagram illustrating an example of a result screen derived when a specific search word is input through the SNS data analysis system according to an embodiment of the present invention
FIG. 4 is a diagram illustrating the number of SNS data frequencies measured through the SNS data analysis system according to an embodiment of the present invention.
FIG. 5 is a diagram illustrating a result of a query response speed comparison experiment of an SNS data analysis system according to an embodiment of the present invention.
6 is a flowchart of a method for analyzing SNS data according to an embodiment of the present invention.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다. 또한 본 발명의 실시예에서 제시되는 특정한 구조 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있다. 마찬가지로 본 명세서에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 되며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경물, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. In order to fully understand the present invention, operational advantages of the present invention, and objects achieved by the practice of the present invention, reference should be made to the accompanying drawings and the accompanying drawings which illustrate preferred embodiments of the present invention. It is also to be understood that the specific structure or functional description presented in the embodiments of the present invention is illustrated for the purpose of describing an embodiment according to the concept of the present invention only and embodiments according to the concept of the present invention may be embodied in various forms . Likewise, it should be understood that the present invention should not be construed as limited to the embodiments described herein, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the present invention.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. Like reference symbols in the drawings denote like elements.

도 1은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템(1)의 구성도이고, 도 2는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템(1)의 세부 구조 예시도이다. 이를 참조하여 설명한다. FIG. 1 is a configuration diagram of an SNS data analysis system 1 according to an embodiment of the present invention, and FIG. 2 is a detailed structure diagram of an SNS data analysis system 1 according to an embodiment of the present invention. Referring to FIG.

본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템(1)은 AsterixDB(10), 입력부(20), 제어부(30), 표시부(40)를 포함할 수 있다. AsterixDB(10)는 SNS 데이터를 수집하고 저장하는 기능을 담당한다. AsterixDB(10)란 Apache project로 UCI (University of California, Irvine)의 빅데이터 그룹에서 개발한 오픈소스 BDMS (Big Data Management System)이다. 객체 지향 데이터베이스와 JSON을 확장시킨 NoSQL 스타일의 데이터 모델을 기반으로 반 구조화된 형태의 데이터를 처리하는 데에 있어 유연한 특성을 갖고 있다. 또한 비정형 데이터에 대한 분석과 쿼리를 제공하고 있다. 대량의 데이터 처리를 위해 클러스터를 쉽게 구성하여 분산 처리가 가능하고, 1000개 이상의 코어와 500개 이상의 디스크로 확장이 가능하다. 실시간으로 생성되는 데이터를 수용하기 위한 피드(feed) 기능 이외에도 B+ tree, R tree, inverted keyword 등 다양한 타입의 인덱싱을 지원하고 있다. 앞서 언급한 AsterixDB의 특징들은 반 구조화된 비정형 데이터이면서 실시간으로 계속하여 대량 생성되는 데이터인 SNS 데이터 즉 소셜 미디어 콘텐츠의 효율적인 처리가 가능 하도록 한다. The SNS data analysis system 1 according to an embodiment of the present invention may include an Asterix DB 10, an input unit 20, a control unit 30, and a display unit 40. The AsterixDB 10 is responsible for collecting and storing SNS data. AsterixDB (10) is an open source BDMS (Big Data Management System) developed by Big Data Group at UCI (University of California, Irvine) as an Apache project. It is flexible in handling semi-structured data based on a NoSQL-style data model that extends object-oriented database and JSON. It also provides analysis and query for unstructured data. Clusters can be easily configured and distributed for large amounts of data processing, scalable to more than 1000 cores and more than 500 disks. In addition to the feed function to accommodate real-time generated data, it supports various types of indexing such as B + tree, R tree, and inverted keyword. The above-mentioned features of AsterixDB enable efficient processing of SNS data, which is semi-structured unstructured data and data generated continuously in real time in a large amount, that is, social media contents.

입력부(20)는 검색어 등 사용자가 원하는 정보를 입력받을 수 있다. 사용자가 원하는 정보에 대응한 핵심 단어로서 ‘폭설’, ‘메르스’ 등을 의미한다. The input unit 20 can receive information desired by the user such as a search word. It means "snowfall", "mers", etc. as key words corresponding to the information desired by the user.

제어부(30)는 상기 사용자가 원하는 정보에 대응한 AsterixDB에 저장된 SNS데이터를 분석할 수 있다. 일반적으로 특정 이벤트나 사건이 발생하면, 그와 관련된 SNS데이터들이 실시간으로 대량 생산되며, 특히 트위터의 경우 재해나 질병 등이 발생하면 해당 키워드가 포함된 관련 콘텐츠들을 빠르게 생성하고, 또 리트윗(RT)이나 공유를 통해 빠른 속도로 전파시킨다. 특정 키워드가 포함된 SNS데이터들이 발생한 시간과 위치를 분석하여 어떠한 경로로 발생하고 확장되는지를 제어부(30)의 SNS데이터 분석을 통해 파악할 수 있다. 제어부(30)는 SNS데이터 분석 결과로서 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 등을 도출할 수 있다. 제어부(30)가 전술한 SNS데이터 분석을 위해서는 AsterixDB(10)를 이용하게 되는데 AsterixDB(10)에 저장된 데이터 중 필요한 데이터 추출시 사용하는 기 지정된 AQL을 사용할 수 있다. 제어부는 PC, 스마트폰 등의 중앙처리장치(CPU, AP)의 형태로 구현될 수 있다. The control unit 30 may analyze the SNS data stored in the Asterix DB corresponding to the information desired by the user. Generally, when a specific event or event occurs, the related SNS data is mass-produced in real time. In particular, if a disaster or a disease occurs in Twitter, the related contents including the keyword are generated quickly, ) Or shared. The time and position at which the SNS data including the specific keyword are generated can be analyzed and the path through which the SNS data is generated and expanded can be grasped through the SNS data analysis of the control unit 30. [ The control unit 30 can derive frequency analysis results, time-series analysis results, place-based analysis results, and related keyword analysis results as SNS data analysis results. The control unit 30 uses the AsterixDB 10 for analyzing the SNS data described above and can use the previously designated AQL used for extracting necessary data from the data stored in the AsterixDB 10. [ The control unit may be implemented in the form of a central processing unit (CPU, AP) such as a PC or a smart phone.

표시부(40)는 제어부(30)의 분석 결과를 나타내는 역할을 수행한다. 즉 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상을 나타낼 수 있다. 표시부(40) 역시 모바일PC, 모니터 등의 형태로 구현할 수 있는 것은 당연하다. The display unit 40 plays a role of indicating the analysis result of the control unit 30. That is, it can show any one or more of frequency analysis result, time analysis result, place analysis result, and related keyword analysis result. The display unit 40 may also be implemented in the form of a mobile PC, a monitor, or the like.

본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 세부구조의 예를 도 2를 참조하여 설명하면 먼저 SNS데이터를 수집하는 크롤링 모듈, 수집된 SNS데이터를 처리하여 AsterixDB(10)에 저장하는 전처리 모듈, SNS데이터를 통한 키워드 경로를 분석하는 제어부(30)에 해당하는 분석 모듈과 분석된 결과를 구현하여 사용자가 보기 쉽게 해 주는 표시부(40)에 해당하는 시각화 모듈로 이루어질 수 있다. 상기 크롤링 모듈을 통해 수집한 SNS데이터를 한국 지도에 맵핑시킨후 전처리 모듈에서 ADM형식으로 변환하여 AsterixDB(10)에 저장하며 AQL(AsterixDB Query Language)을 이용하여 관리할 수 있다. 상기 분석 모듈은 사용자가 원하는 정보에 대응하는 검색어를 기 지정된 AQL을 통해 AsterixDB(10)에서 SNS데이터를 검색하고 지역별 빈도수를 계산하고 분석 결과들을 지도에 나타낼 수 있다. Referring to FIG. 2, an example of a detailed structure of the SNS data analysis system according to an embodiment of the present invention will be described. First, a crawling module for collecting SNS data, a preprocessing module for processing the collected SNS data and storing the collected SNS data in the Asterix DB 10 A analysis module corresponding to the control unit 30 for analyzing the keyword path through the SNS data, and a visualization module corresponding to the display unit 40 that enables the user to view the analyzed result by implementing the analyzed result. The SNS data collected through the crawling module may be mapped to Korean maps, converted into ADM format by the preprocessing module, stored in the AsterixDB 10, and managed using ASTER (AsterixDB Query Language). The analysis module can search the SNS data in the Asterix DB 10 through a pre-designated AQL for a search word corresponding to the information desired by the user, calculate the frequency of each region, and display the analysis results on a map.

도 3은 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 특정 검색어인 ‘폭설’입력시 도출된 결과 화면의 예를 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템을 통해 측정한 SNS 데이터 빈도수를 나타낸 도면으로서 이를 참조하여 본 발명의 일 실시예를 설명한다. FIG. 3 is a diagram illustrating an example of a result screen derived when a user inputs a specific keyword 'snowfall' through the SNS data analysis system according to an exemplary embodiment of the present invention. FIG. The number of SNS data frequencies measured through the system, and an embodiment of the present invention will be described with reference to the drawings.

실험예로써 소셜 네트워크 서비스(SNS) 중 대표적인 소셜 미디어 콘텐츠 제공 사이트라고 할 수 있는 트위터와 사진과 동영상 콘텐츠를 기반으로 하고 있는 인스타그램 데이터를 대상으로 하였다. 지역 별로 검색어 빈도수를 나타내기 위해 위치 정보가 포함된 트위터 데이터와 인스타그램 데이터를 이용하였다. 트위터에서 위치 정보가 포함된 트윗들을 얻어오기 위해 Twitter Streaming API를 이용하였다. Twitter Streaming API는 위도, 경도 값을 이용하여 위치 정보가 포함된 트윗들을 수집한다. 이를 이용하여 총 200만 건의 위치 정보가 포함된 국내 트윗들을 수집하였다. 인스타그램은 위도, 경도 값을 기반으로 데이터를 수집하는 Locations API Endpoints를 제공하지만 특정 위치에서 반경 5KM 안의 데이터만을 수집하기 때문에 효율적으로 지역별 데이터를 수집할 수 없다. 따라서 Tag API Endpoints을 이용하여 행정 구역의 명칭을 검색어로 총 200만 건의 데이터를 수집하였다. 위치 정보를 포함한 데이터는 전체 데이터의 대략 10%, 약 20만 건의 인스타그램 데이터를 수집하였다. 수집한 소셜 데이터를 기반으로 지역 별로 빈도수 측정하기 위해서는 한국 지역별 좌표가 필요하다. 이는 KOSTAT에서 한국 행정구역의 좌표 값을 JSON 타입으로 제공하는 데이터를 사용했다. 행정구역을 시/도, 시/군/구의 두 단계로 한국 지도에 적용한다. AsterixDB를 이용하여 트위터 및 인스타그램 데이터를 관리하며 KOSTAT에서 제공하는 한국 행정교육 정보를 이용하여 AsterixDB기반 소셜 미디어 분석 시스템을 구현하였다. As an experimental example, a sample of the social network service (SNS), which is a representative social media content providing site, was included in the twitter and theinstagram data based on the photograph and video contents. We use Twitter data and location data with location information to show the frequency of search terms by region. I used the Twitter Streaming API to get tweets with location information on Twitter. The Twitter Streaming API collects tweets that contain location information using latitude and longitude values. Using this information, we collected domestic tweets that contain 2 million total location information. Instagrams provide Locations API Endpoints that collect data based on latitude and longitude values, but they can not efficiently collect geographic data because they only collect data within a radius of 5KM at a specific location. Therefore, Tag API Endpoints were used to collect a total of 2 million data from the names of administrative districts. Data, including location information, collected approximately 10% of the total data, or approximately 200,000 instances of Instagram data. In order to measure the frequency by region based on the collected social data, coordinates of each region of the country are required. This used data from KOSTAT to provide the coordinates of the Korean government area as JSON type. The administrative district shall be applied to the map of Korea in two stages of city / province and city / county / district. We managed the Twitter and Instagram data using AsterixDB and implemented the social media analysis system based on AsterixDB using Korean administrative education information provided by KOSTAT.

도 3의 (a)는 트위터의 데이터를 ‘폭설’이란 검색어로 분석한 그림이다. 각 지역별로 ‘폭설’이란 검색어가 포함된 콘텐츠의 수를 알 수 있고 인스타그램 데이터에도 동일하게 적용하였다. 또한 ‘폭설’검색어와 함께 출현한 검색어들을 태그 클라우드를 통해 확인 할 수 있다. 도 3의 (b)는 트위터와 인스타그램의 데이터를 같이 분석한 결과이다. 지역별로 각 소셜 미디어 콘텐츠들의 빈도수에 대한 통계를 볼 수 있다. FIG. 3 (a) is an analysis of the data of the tweeter by the search term "heavy snow". For each region, we can know the number of contents that contain the keyword 'snowfall' and apply the same to the Instagram data. In addition, search terms appearing along with the 'snowfall' search word can be confirmed through the tag cloud. FIG. 3 (b) is a result of analyzing the data of the tweeter and theinstagram together. You can see statistics on the frequency of each social media content by region.

도 4의 (1)은 특정 검색어별 트위터와 인스타그램의 콘텐츠 빈도수를 나타낸 표이다. ‘선거’, ‘정치’, ‘투표’, ‘국회’ 검색어는 정치적인 주제이며 ‘패션’, ‘맛집’, ‘여행’, ‘일상’ 검색어는 사용자의 기호와 경험을 나타내는 검색어들이다. 각 검색어별 콘텐츠의 빈도수를 보았을 때, 트위터의 경우 사용자들이 정치적인 주제로 대화를 하거나 견해를 나타내는데 자주 쓰이며, 인스타그램은 사용자의 기화와 경험을 표현하는데 많이 쓰이는 것을 알 수 있다. 특히 인스타그램은 사진을 같이 게시하기 때문에 사용자의 기호나 경험을 표현하는데 자주 쓰이고 있다. 트위터와 인스타그램을 제외하고도 다수의 소셜 미디어들이 존재하고 있다. 위의 표를 보았을 때 각 소셜 미디어 콘텐츠들의 주제가 다르기 때문에 다양한 소셜 미디어로부터 콘텐츠들을 모아 분석하는 것은 의미가 있음을 알 수 있다. FIG. 4 (1) is a table showing the frequency of contents of Twitter and Instagram for each specific search word. The words 'election', 'politics', 'voting', and 'congress' are political topics, and 'fashion', 'restaurant', 'travel', and 'everyday' When we look at the frequency of content for each search term, Twitter is often used for users to talk on political topics or to express their opinions, and Instagram can be used to express user's flare and experience. In particular, Instagrams are often used to express user preferences or experiences because they post pictures together. Apart from Twitter and Instagram, there are many social media. In the above table, it is meaningful to collect and analyze contents from various social media because the subject of each social media contents is different.

도 4의 (2)는 소셜 미디어별 최대 빈도수 검색어들을 나열한 표이다. 트위터와 인스타그램 모두 특정 지역이름이나 ‘일상’과 같은 검색어들을 이용하여 자신의 상황을 공유하지만, 트위터는 ‘뉴스’, ‘정치’ 등의 사회적인 이슈나 정치적인 검색어들을 담은 콘텐츠들이 많은 것을 확인 할 수 있다. 또한 트위터는 표 2와 같이 ‘^^’, ‘:)’같은 이모티콘을 이용하여 사용자의 감정이나 생각 등을 표현하는 경향이 있다. 반면에 인스타그램에서는 ‘먹스타그램’, ‘데일리’, ‘셀피’ 등 사용자의 현재 상태나 경험, 주변 상황들을 알리기 위한 검색어들을 많이 사용하는 것을 알 수 있다. 4 (2) is a table listing the maximum frequency search terms by social media. Both Twitter and Instagram share their own situation using search terms such as a specific region name or 'everyday', but Twitter confirms that there are many contents that contain social issues such as 'news' and 'politics' or political search words . Twitter also tends to express emotions and thoughts by using emoticons such as '^^', ':)' as shown in Table 2. On the other hand, in the Instagram, we can see that we use a lot of search terms to inform the user about the present condition, experience, and the surrounding situations such as 'Einstaggram', 'Daily' and 'Selpis'.

도 5는 본 발명의 일 실시예에 따른 SNS 데이터 분석 시스템의 AsterixDB(10)와 기존 MySQL의 쿼리 응답속도 비교실험결과를 나타낸 도면이다. AsterixDB(10)를 사용함으로써 성능적인 향상을 이루었는지 검증하기 위해 일반적으로 많이 사용되는 MySQL을 이용하였을 때와의 속도 차이를 측정했다. 정확한 실험을 위해 동일한 환경의 리눅스 시스템에서 동일한 데이터를 각각 AsterixDB(10)와 MySQL에 저장하고, 경로 분석에 필요한 정보를 가져오는 기능의 수행이 가능한 쿼리를 전송한 뒤 그에 따른 응답 속도를 측정하여 비교했다. 지역 별로 그룹화한 뒤 시간대 별로 또 다시 그룹화 해야 하기 때문에 쿼리가 복잡해진다. AstirxDB(10)의 수집 및 저장을 통해 제어부(30)가 분석해야 할 대상인 SNS데이터의 수가 많아질수록 MySQL 보다 AsterixDB(10)에서 훨씬 빠른 속도를 보이는 것을 알 수 있다. AsterixDB가 대량의 SNS데이터를 실시간으로 처리하는 데에 있어 보다 효율적인 처리가 가능하다. FIG. 5 is a graph showing the results of a query response speed comparison between the AsterixDB 10 and the existing MySQL in the SNS data analysis system according to an embodiment of the present invention. In order to verify the performance improvement by using AsterixDB (10), we measured the speed difference with the commonly used MySQL. For accurate experiment, we store the same data in AsterixDB (10) and MySQL respectively in Linux system of the same environment, send query which can perform the function to retrieve information necessary for path analysis, did. The query is complicated because it needs to be grouped by region and then grouped again by time zone. It can be seen that as the number of SNS data to be analyzed by the controller 30 through the collection and storage of the AstirxDB 10 increases, the speed of the AsterixDB 10 is much faster than that of the MySQL. AsterixDB can handle more efficient processing of large amounts of SNS data in real time.

도 6은 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법의 흐름도로서 이를 참조하여 설명하면. 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법은 SNS데이터 수집 및 저장 단계(s1), 검색어 입력 단계(s2), 분석 단계(s3), 분석 결과 표시 단계(s4)를 포함할 수 있다. FIG. 6 is a flowchart illustrating a method of analyzing SNS data according to an exemplary embodiment of the present invention. Referring to FIG. The SNS data analysis method according to an embodiment of the present invention may include an SNS data collection and storage step (s1), a query input step (s2), an analysis step (s3), and an analysis result display step (s4).

전술한 도 1 내지 도 5를 참조한 설명을 토대로 본 발명의 일 실시예에 따른 SNS 데이터 분석 방법을 설명하면, SNS데이터 수집 및 저장 단계(s1)는 AsterixDB(10)가 SNS데이터를 수집 및 저장하는 과정을 말하고, 검색어 입력 단계(s2)는 입력부(20)가 사용자가 원하는 정보에 해당하는 검색어를 입력받는 과정을 말하며, 분석 단계(s3)는 제어부(30)가 AsterixDB(10)를 이용하여 SNS데이터를 분석하는 과정을 말하고, 분석 결과 표시 단계(s4)는 표시부(40)가 제어부(30)의 분석 결과를 표시하는 과정을 말한다. 분석 단계(s3)에서 제어부(30)는 AsterixDB(10)의 SNS데이터를 이용하여 검색어에 대응하는 정보를 분석하되, 분석 결과 표시 단계(s4)의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상일 수 있다. The method for analyzing SNS data according to an embodiment of the present invention will now be described with reference to FIGS. 1 to 5. The SNS data collection and storage step (s1) is performed when the Asterix DB 10 collects and stores SNS data (S2) is a process in which the input unit 20 receives a search word corresponding to information desired by the user. In the analysis step (s3), the control unit 30 uses the Asterix DB 10 to search the SNS And the analysis result display step (s4) is a process of displaying the analysis result of the control unit (30) on the display unit (40). In the analysis step s3, the control unit 30 analyzes the information corresponding to the search term using the SNS data of the Asterix DB 10, and the analysis result of the analysis result display step s4 is analyzed as a result of frequency analysis, , Location-based analysis results, and associated keyword analysis results.

지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였다. 그러나 본 발명이 상기한 실시예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다. The present invention has been described in detail with reference to preferred embodiments. It will be apparent to those skilled in the art that the present invention is not limited to the embodiments described above and that various modifications and changes may be made by one of ordinary skill in the art without departing from the scope of the present invention, It is to be understood that the technical idea of the present invention extends to the extent possible.

Claims (4)

SNS상의 데이터를 분석하는 시스템에 있어서,
SNS데이터를 수집 및 저장하는 AsterixDB;
사용자가 원하는 정보에 해당하는 검색어를 입력받는 입력부,
상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 제어부;
상기 제어부가 분석한 결과를 나타내는 표시부를 포함하는 것을 특징으로 하는 SNS 데이터 분석 시스템.
A system for analyzing data on an SNS,
AsterixDB to collect and store SNS data;
An input unit for inputting a search word corresponding to information desired by the user,
A controller for analyzing information corresponding to the search word through SNS data of the Asterix DB;
And a display unit for displaying the analyzed result of the SNS data analysis system.
제1항에 있어서,
상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 제어부의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상인 것을 특징으로 하는 SNS 데이터 분석 시스템.
The method according to claim 1,
Wherein the control unit analyzes the information corresponding to the search term using the SNS data of the Asterix DB, wherein the analysis result of the control unit is at least one of a frequency analysis result, a time domain analysis result, a place analysis result, And the SNS data analysis system.
SNS상의 데이터를 분석하는 방법에 있어서,
AsterixDB가 SNS데이터를 수집 및 저장하는 SNS데이터 수집 및 저장단계 ;
입력부가 사용자가 원하는 정보에 해당하는 검색어를 입력받는 검색어 입력 단계;
제어부가 상기 검색어에 해당하는 정보를 상기 AsterixDB의 SNS데이터를 통해 분석하는 분석 단계;
표시부가 상기 제어부가 분석한 결과를 나타내는 분석 결과 표시 단계를 포함하는 것을 특징으로 하는 SNS 데이터 분석 방법.
A method for analyzing data on an SNS,
SNS data collection and storage step in which AsterixDB collects and stores SNS data;
An input unit for inputting a search word corresponding to information desired by a user;
Analyzing the information corresponding to the search word through the SNS data of the Asterix DB;
And a display step of displaying an analysis result indicating a result of the analysis by the control unit.
제3항에 있어서,
상기 분석 단계에서 상기 제어부는 상기 AsterixDB의 SNS데이터를 이용하여 상기 검색어에 대응하는 정보를 분석하되, 상기 분석 결과 표시 단계의 분석 결과는 빈도 수 분석 결과, 시간대별 분석 결과, 장소별 분석 결과, 연관 키워드 분석 결과 중 어느 하나 이상인 것을 특징으로 하는 SNS 데이터 분석 방법;
The method of claim 3,
In the analysis step, the control unit analyzes information corresponding to the search term using the SNS data of the Asterix DB, and the analysis result of the analysis result display step includes a frequency analysis result, a time domain analysis result, A keyword analysis result; and an SNS data analysis method.
KR1020160149357A 2016-11-10 2016-11-10 Social network data analyzing system KR101869871B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160149357A KR101869871B1 (en) 2016-11-10 2016-11-10 Social network data analyzing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160149357A KR101869871B1 (en) 2016-11-10 2016-11-10 Social network data analyzing system

Publications (2)

Publication Number Publication Date
KR20180055939A true KR20180055939A (en) 2018-05-28
KR101869871B1 KR101869871B1 (en) 2018-06-21

Family

ID=62451619

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160149357A KR101869871B1 (en) 2016-11-10 2016-11-10 Social network data analyzing system

Country Status (1)

Country Link
KR (1) KR101869871B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130090612A (en) * 2012-02-06 2013-08-14 주식회사 와이즈커넥트 Method and system for providing location based contents by analyzing keywords on social network service
KR20150046793A (en) * 2013-10-21 2015-05-04 대한민국(국민안전처 국립재난안전연구원장) Disaster detecting system using social media
KR20150059208A (en) * 2013-11-21 2015-06-01 한국전자통신연구원 Device for analyzing the time-space correlation of the event in the social web media and method thereof
KR101532252B1 (en) 2013-08-23 2015-07-01 (주)타파크로스 The system for collecting and analyzing of information of social network
KR20160034471A (en) * 2014-09-19 2016-03-30 엄수현 Method For Retrieving Regional Real-time Hot Issue Using SNS and SMS And System Thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130090612A (en) * 2012-02-06 2013-08-14 주식회사 와이즈커넥트 Method and system for providing location based contents by analyzing keywords on social network service
KR101532252B1 (en) 2013-08-23 2015-07-01 (주)타파크로스 The system for collecting and analyzing of information of social network
KR20150046793A (en) * 2013-10-21 2015-05-04 대한민국(국민안전처 국립재난안전연구원장) Disaster detecting system using social media
KR20150059208A (en) * 2013-11-21 2015-06-01 한국전자통신연구원 Device for analyzing the time-space correlation of the event in the social web media and method thereof
KR20160034471A (en) * 2014-09-19 2016-03-30 엄수현 Method For Retrieving Regional Real-time Hot Issue Using SNS and SMS And System Thereof

Also Published As

Publication number Publication date
KR101869871B1 (en) 2018-06-21

Similar Documents

Publication Publication Date Title
Davis Jr et al. Inferring the location of twitter messages based on user relationships
Kimble et al. Big data and business intelligence: Debunking the myths
Giatsoglou et al. CityPulse: A platform prototype for smart city social data mining
Nguyen et al. Real-time event detection on social data stream
Brughmans Networks of networks: A citation network analysis of the adoption, use, and adaptation of formal network techniques in archaeology
Bendler et al. Taming uncertainty in big data: Evidence from social media in urban areas
WO2016012493A1 (en) System and method for social event detection
KR20140136480A (en) Empirical expert determination and question routing system and method
CN111125344B (en) Related word recommendation method and device
CN108921734A (en) One real estate information visualization system based on multi-source heterogeneous data
US20130246463A1 (en) Prediction and isolation of patterns across datasets
KR20130090612A (en) Method and system for providing location based contents by analyzing keywords on social network service
Vassakis et al. Location-based social network data for tourism destinations
CN105518644A (en) Method for processing and displaying real-time social data on map
Nam et al. Measuring web ecology by Facebook, Twitter, blogs and online news: 2012 general election in South Korea
Laitinen et al. ELF, language change and social networks: evidence from real-time social media data
Rumshisky et al. Combining network and language indicators for tracking conflict intensity
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
Francalanci et al. Exploratory spatio-temporal queries in evolving information
Rajabi et al. Exposing social data as linked data in education
Raghav et al. Bigdata fog based cyber physical system for classifying, identifying and prevention of SARS disease
Pfeffer et al. Perspectives on the role of geo-technologies for addressing contemporary urban issues: Implications for IDS
KR101869871B1 (en) Social network data analyzing system
KR101760108B1 (en) Keyword trajectory analyzing system on social network
Massa et al. Social Media Geographic Information: Current developments and opportunities in urban and regional planning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)