KR101665649B1

KR101665649B1 - 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법

Info

Publication number: KR101665649B1
Application number: KR1020150065831A
Authority: KR
Inventors: 유병일
Original assignee: 주식회사 엘지씨엔에스
Priority date: 2015-05-12
Filing date: 2015-05-12
Publication date: 2016-10-12

Abstract

본 발명의 일 측면은, 소셜 미디어의 URL을 추출하고 추출된 상기 URL에 패턴을 부여하여 상기 소셜 미디어를 표적화하는 씨딩(seeding) 수단; 표적화된 상기 소셜 미디어에 포함된 데이터를 수집하는 크롤링(crawling) 수단; 수집된 상기 데이터를 기설정된 기준 값에 기반하여 제1 수집 데이터와 제2 수집 데이터로 분류하고, 상기 제1 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제1 인덱싱 부와, 상기 제2 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제2 인덱싱 부를 포함하는 인덱싱 수단; 검색된 상기 대상 데이터를 분석하여 결과 값을 도출하는 분석 수단; 및 도출된 상기 결과 값의 화상을 생성하는 시각화 수단;을 포함하는, 소셜 미디어 데이터 분석 시스템, 및 이를 이용한 소셜 미디어 데이터 분석 방법을 제공한다.

Description

소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법{SYSTEM FOR ANALYZING SOCIAL MEDIA DATA AND METHOD FOR ANALYZING SOCIAL MEDIA DATA USING THE SAME}

본 발명은 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법에 관한 것이다.

빅 데이터란 기존의 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.

다양한 종류의 대용량 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석할 수 있도록 한다.

이와 같이, 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.

빅 데이터 분석에는 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 동원될 수 있다. 특히, 최근 소셜 미디어와 같은 비정형 데이터의 증가로 인해 분석 기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등이 주목을 받고 있다.

한편, 빅 데이터 직접적인 분석 이전의 단계에서 상기와 같은 분석 도구에 대한 입력 값을 제공하기 위한 수집 또는 색인/검색 수단이 필요하다. 이러한 색인/검색 수단의 대표적 예시인 하둡은 다수의 서버를 클러스터링하여 구축하는 오픈 소스 분산 처리 프레임워크로서, 안정적인 공유 저장소인 HDFS(Hadoop Distributed File System)와 분석 시스템인 맵 리듀스를 제공할 수 있으나, 하드웨어 인프라를 구축하기 위한 비용이 과다하여 경제성 측면에서 불리하다.

한국등록특허 제10-1400499호는 맵 리듀스를 반복 적용함으로써, 효과적으로 RDF(Resource Description Framework) 온톨로지에 대한 트랜지티비티 리즈닝(transitivity reasoning)을 수행하여 대용량 링크드 데이터의 병렬 처리 장치 및 방법을 구현하기 위한 기술을 제안하고 있으나, 상대적으로 소용량인 실시간 데이터의 색인/검색에는 부적합하다는 한계가 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 시간 경과에 따라 기하 급수적으로 누적되는 데이터의 처리 부하를 효과적으로 분산시키고, 실시간, 단기, 및 장기 수집 데이터에 대한 접근성, 상용성, 처리 효율을 극대화할 수 있는 소셜 미디어 데이터 분석 시스템과 이를 이용한 소셜 미디어 데이터 분석 방법을 제공하는 것이다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면은, 소셜 미디어의 URL을 추출하고 추출된 상기 URL에 패턴을 부여하여 상기 소셜 미디어를 표적화하는 씨딩(seeding) 수단; 표적화된 상기 소셜 미디어에 포함된 데이터를 수집하는 크롤링(crawling) 수단; 수집된 상기 데이터를 기설정된 기준 값에 기반하여 제1 수집 데이터와 제2 수집 데이터로 분류하고, 상기 제1 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제1 인덱싱 부와, 상기 제2 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제2 인덱싱 부를 포함하는 인덱싱 수단; 검색된 상기 대상 데이터를 분석하여 결과 값을 도출하는 분석 수단; 및 도출된 상기 결과 값의 화상을 생성하는 시각화 수단;을 포함하는, 소셜 미디어 데이터 분석 시스템을 제공한다.

일 실시예에 있어서, 상기 크롤링 수단이, 너치(Nutch), 오픈 API(open application program interface), 알에스에스(RSS, rich site summary), 웹 스크래퍼(web scrapper), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나를 기반으로 구동될 수 있다.

일 실시예에 있어서, 상기 기설정된 기준 값이 상기 데이터의 수집 용량일 수 있다.

일 실시예에 있어서, 상기 제1 수집 데이터의 상기 수집 용량이 200 테라바이트 이하일 수 있다.

일 실시예에 있어서, 상기 제2 수집 데이터의 상기 수집 용량이 200 테라바이트 초과일 수 있다.

일 실시예에 있어서, 상기 제1 인덱싱(indexing) 부가 형태소 또는 키워드 분석 기반의 인덱싱 유닛이 설치된 2 이상의 단위 서버를 포함할 수 있다.

일 실시예에 있어서, 상기 기설정된 기준 값이 상기 데이터의 수집 기간일 수 있다.

일 실시예에 있어서, 상기 제1 수집 데이터의 상기 수집 기간이 실시간, 또는 상기 데이터가 수집된 때로부터 1년 이내일 수 있다.

일 실시예에 있어서, 상기 제2 수집 데이터의 상기 수집 기간이 상기 데이터가 수집된 때로부터 1년 초과일 수 있다.

일 실시예에 있어서, 상기 제2 인덱싱(indexing) 부가 분산 처리 환경 기반의 인덱싱 유닛이 설치된 2 이상의 단위 서버를 포함할 수 있다.

일 실시예에 있어서, 상기 분석 수단이, 컨텐츠 분류(content categorizing), 데이터 마이닝(data mining), 텍스트 마이닝(text mining), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나의 기능을 수행할 수 있다.

또한, 상기와 같은 목적을 달성하기 위해, 본 발명의 다른 일 측면은, 씨딩(seeding) 수단에서, 미디어의 URL을 추출하고 추출된 상기 URL에 패턴을 부여하여 상기 소셜 미디어를 표적화하는 단계; 크롤링(crawling) 수단에서, 표적화된 상기 소셜 미디어에 포함된 데이터를 수집하는 단계; 제1 인덱싱 부와 제2 인덱싱 부를 포함하는 인덱싱 수단에서, 수집된 상기 데이터를 기설정된 기준 값에 기반하여 제1 수집 데이터와 제2 수집 데이터로 분류하는 단계; 상기 제1 인덱싱 부에서, 상기 제1 수집 데이터에 인덱스를 부여하고 상기 인덱스에 기반하여 대상 데이터를 검색하고, 상기 제2 인덱싱 부에서, 상기 제2 수집 데이터에 인덱스를 부여하고 상기 인덱스에 기반하여 대상 데이터를 검색하는 단계; 분석 수단에서, 검색된 상기 대상 데이터를 분석하여 결과 값을 도출하는 단계; 및 시각화 수단에서, 도출된 상기 결과 값의 화상을 생성하는 단계;를 포함하는, 소셜 미디어 분석 시스템을 이용한 소셜 미디어 분석 방법을 제공한다.

일 실시예에 있어서, 상기 제1 수집 데이터의 상기 수집 용량이 200 테라바이트 이하이고, 상기 제2 수집 데이터의 상기 수집 용량이 200 테라바이트 초과일 수 있다.

일 실시예에 있어서, 상기 제1 수집 데이터의 상기 수집 기간이 실시간, 또는 상기 데이터가 수집된 때로부터 1년 이내이고, 상기 제2 수집 데이터의 상기 수집 기간이 상기 데이터가 수집된 때로부터 1년 초과일 수 있다.

본 발명의 일 측면에 따른 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법은, 수집된 데이터를 기설정된 기준에 따라 분류하고, 이를 별도의 인덱싱 부를 이용하여 분산 처리함으로써 부하 분산 효과를 구현할 수 있고, 실시간, 단기, 및 장기 수집 데이터에 대한 접근성, 상용성, 처리 효율을 향상시킬 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 소셜 미디어 데이터 분석 시스템의 구조를 도식화한 것이다.
도 2는 본 발명의 일 실시예에 따른 크롤링 수단의 구동 방식을 도식화한 것이다.
도 3은 본 발명의 일 실시예에 따른 제1 인덱싱 부의 구조를 도식화한 것이다.
도 4는 본 발명의 일 실시예에 따른 제1 인덱싱 부의 데이터 색인 및 검색 성능 측정 결과를 도식화한 것이다.
도 5는 본 발명의 일 실시예에 따른 제2 인덱싱 부의 구조를 도식화한 것이다.
도 6은 본 발명의 일 실시예에 따른 제1 인덱싱 부와 제2 인덱싱 부의 데이터 색인 및 검색 성능 측정 결과를 도식화한 것이다.
도 7은 본 발명의 일 실시예에 따른 씨딩(seeding) 방법을 도식화한 것이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

소셜 미디어 데이터 분석 시스템

도 1은 본 발명의 일 실시예에 따른 소셜 미디어 데이터 분석 시스템의 구조를 도식화한 것이다. 도 1을 참조하면, 상기 소셜 미디어 데이터 분석 시스템이 소셜 미디어의 URL을 추출하고 추출된 상기 URL에 패턴을 부여하여 상기 소셜 미디어를 표적화하는 씨딩(seeding) 수단(100); 표적화된 상기 소셜 미디어에 포함된 데이터를 수집하는 크롤링(crawling) 수단(200); 수집된 상기 데이터를 기설정된 기준 값에 따라 제1 수집 데이터와 제2 수집 데이터로 분류하고, 상기 제1 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제1 인덱싱 부(310)와, 상기 제2 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제2 인덱싱 부(320)를 포함하는 인덱싱 수단(300); 검색된 상기 대상 데이터를 분석하여 결과 값을 도출하는 분석 수단(400); 및 도출된 상기 결과 값의 화상을 생성하는 시각화 수단(500);을 포함할 수 있다.

상기 씨딩 수단은(100), 소셜 미디어의 씨드 URL을 추출하는 단계; 소셜 미디어의 종류를 분류하는 단계; 아티클 패턴을 추출하는 단계; 제목 패턴을 추출하는 단계; 및 본문 패턴을 추출하는 단계에 따라 추출된 패턴 정보를 저장하고, 이를 크롤링 서버에 전달하는 역할을 수행할 수 있다.

상기 크롤링 수단(200)은 개방 웹(open web)은 물론, ID/PW 방식의 폐쇄 웹(closed web)에도 접근하여 그에 포함된 데이터를 수집할 수 있다.

상기 크롤링 수단(200)은, 상기 씨딩 수단(100)으로부터 수신된 씨드 URL의 패턴 정보, 키워드 정보, 및 이들의 조합 중 선택되는 하나에 기반하여 소셜 미디어에 포함된 데이터를 수집하는 서버일 수 있다. 구체적으로, 상기 크롤링 수단(200)이, 씨드 URL의 패턴 정보를 이용하여 데이터를 수집하는 경우와, 키워드 정보를 이용하여 데이터를 수집하는 경우에 각각 Apache의 오픈 소스인 너치(Nutch) 또는 오픈 API(open application program interface)를 기반으로 구동되는 것일 수 있다.

상기 너치 기반의 크롤링 수단은 일반적으로 인젝트(Inject), 제너레이트(Generate), 페치(Fetch), 업데이트(Update), 인버트링크(Invertlinks), 또는 기타 적절한 유형의 과정에 따라 구동될 수 있다. 상기 인젝트는 씨드 URL 목록을 <key:url, value:CrawlDatum> 쌍으로 변환하여 저장하고, crawldb.와 CrawlDatum에는 fetchtime, score 등이 입력될 수 있다. 상기 제너레이트는 생성된 crawldb로 수집된 데이터가 저장될 세그먼트를 구성하고, CrawlDatum.score를 기준으로 데이터를 정렬하여 점수가 높은 데이터를 우선적으로 가져오며, <key:sortValue, value:entry> 쌍을 상기 페치로 내보낼 수 있다. 상기 페치는 구성된 세그먼트에 데이터를 저장하고, 상기 업데이트가 상기 페치로부터 가져온 컨텐츠의 링크를 모아 crawldb를 업데이트할 수 있다. 인버트링크는, linkdb를 생성하고, <key: from, values:to>로부터 <key: to, value: from>을 만들 수 있다.

도 2는 본 발명의 일 실시예에 따른 너치(Nutch)를 기반으로 구동되는 크롤링 수단의 구동 방식을 도식화한 것이다. 도 2를 참조하면, 씨드 URL 의 패턴 정보가 씨딩 수단으로부터 병렬 배열된 N개, 예를 들어, 4개의 너치 기반 크롤링 서버에 전달되고, 크롤링 서버가 전달된 씨드 URL의 패턴 정보에 기초하여 5분 간격, 6개의 런타임(runtime)으로 배치(batch)형 데이터 수집을 수행할 수 있다.

상기 오픈 API 기반의 크롤링 수단은 자바 어플리케이션으로서, 포탈 또는 SNS에서 제공하는 오픈 API를 사용하여 키워드 정보를 기반으로 한 크롤링을 수행할 수 있다. 예를 들어, 상기 오픈 API 기반의 크롤링 수단은 기설정된 키워드를 로딩하여 포탈 또는 SNS에 접속하고, Json(JavaScript Object Notation) 포맷의 추출 자료형 오브젝트를 생성하며, 오픈 API에 키워드를 투입하여 쿼리를 전송하고 쿼리 결과를 파싱(parsing)하는 방식으로 구동될 수 있다.

또한, 오픈 API가 없는 사이트, 자동 로그인이 필요한 사이트, 자바 스크립트 형태의 게시판과 같이 특수한 구조를 가지는 웹 사이트에 대해서는, 알에스에스(RSS, rich site summary) 또는 웹 스크래퍼(web scrapper) 기반의 크롤링 수단을 이용하여 씨드 URL에 직접 접근, 소셜 미디어를 포함한 웹 페이지의 HTML 코드를 획득하고, 특정 영역의 텍스트를 추출할 수 있다. 상기 웹 스크래퍼는, 데이터 수집을 위해 자동 로그인이 필요한 경우, 웹 페이지가 게시판 구조이면서 링크가 자바 스크립트인 경우, 게시판 구조의 웹 페이지 URL이 포스트 방식인 경우 등에 적용될 수 있는 반면에, 상기 포스트 방식의 파라미터 값이 암호화된 경우에는 적용되기 어렵다는 한계가 있다.

상기 크롤링 수단(200)은 상기 너치(Nutch), 오픈 API(open application program interface), 알에스에스(RSS, rich site summary), 웹 스크래퍼(web scrapper) 각각에 기반하여 구동될 수 있고, 필요에 따라 이들 중 2 이상이 조합된 것에 기반하여 구동될 수도 있다.

상기 인덱싱 수단(300)은, 수집된 상기 데이터를 기설정된 기준 값에 따라 제1 수집 데이터와 제2 수집 데이터로 분류하고, 이들 각각을 별도의 인덱싱 부를 통해 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색할 수 있다. 본 명세서에 사용된 용어 "인덱스"는, 데이터의 속성, 기록 장소 뿐만 아니라 해당 데이터에 수반되는 메타데이터를 포함하는 개념으로 이해될 수 있다.

상기 기설정된 기준 값이 상기 데이터의 수집 용량일 수 있고, 이 때, 상기 제1 수집 데이터의 상기 수집 용량이 200 테라바이트 이하일 수 있으며, 상기 제2 수집 데이터의 상기 수집 용량이 200 테라바이트 초과일 수 있다.

또한, 상기 기설정된 기준 값이 상기 데이터의 수집 기간일 수 있고, 이 때, 상기 제1 수집 데이터의 상기 수집 기간이 실시간, 또는 상기 데이터가 수집된 때로부터 1년 이내일 수 있으며, 상기 제2 수집 데이터의 상기 수집 기간이 상기 데이터가 수집된 때로부터 1년 초과일 수 있다.

도 3은 본 발명의 일 실시예에 따른 제1 인덱싱 부의 구조를 도식화한 것이다.

일 실시예에 있어서, 상기 제1 인덱싱 부가 형태소 또는 키워드 분석 기반의 인덱싱 유닛이 설치된 2 이상의 단위 서버를 포함할 수 있다. 도 3을 참조하면, 예를 들어, 상기 제1 인덱싱(indexing) 부(310)가 루신/솔라(Lucene/Solr) 기반의 인덱싱 유닛이 설치된 2 이상의 단위 서버와 감시 서버를 포함할 수 있다.

상기 루신/솔라(Lucene/Solr) 기반의 인덱싱 유닛은 후술할 하둡과의 상용성이 우수하고, 특히, 자바로 작성된 루신은 하둡과 통합되어 분산 텍스트 관리를 위한 하나의 도구를 구성하여 루신은 인덱싱을 처리하고, 하둡은 클러스터로 쿼리를 분산한다. 솔라는 XML과 같은 표준 파일 형식을 분석하는 기능으로 동적 클러스터링을 위한 통합 솔루션을 제공할 수 있다.

즉, 상기 인덱싱 유닛이 루신/솔라(Lucene/Solr)를 기반으로 하고, 상기 인덱싱 유닛이 설치된 복수의 단위 서버가 병렬로 배열되어 클러스터(cluster)를 형성하므로 소프트웨어 뿐만 아니라 하드웨어 측면에서도 데이터 스트림이 복수 개로 분할된 분산 처리 환경이 조성될 수 있다.

일 실시예에 있어서, 상기 루신/솔라(Lucene/Solr) 기반의 인덱싱 유닛이 솔라 클라우드(Solr Cloud)일 수 있다. 상기 솔라 클라우드(Solr Cloud)는, 예를 들어, 2개의 샤드와 4개의 노드를 가질 수 있고, 8 코어/16 GB RAM의 서버를 통해 구동될 수 있으나, 그 제원과 구동 환경이 이에 한정되는 것은 아니다.

도 4는 본 발명의 일 실시예에 따른 제1 인덱싱 부의 데이터 색인 및 검색 성능 측정 결과를 도식화한 것이다. 도 4를 참조하면, 본 발명의 일 실시예에 따른 2 이상의 단위 서버를 포함하는 제1 인덱싱 부가 단일 서버로 이루어진 것에 비해 색인과 검색 속도가 각각 약 50%, 약 15% 증가하였고, 장애 극복(fail over)을 지원하여 시스템의 다운 시간도 최소화할 수 있는 것으로 나타났다.

한편, 상기 감시 서버는 주키퍼(zookeeper)라고도 하며, 복수 개의 단위 서버의 동작 상태를 감시하고, 복수 개의 단위 서버 중 적어도 하나의 단위 서버의 동작 상태가 변화할 경우 다른 단위 서버에 통지한다. 예를 들어, 상기 감시 서버는 복수 개의 단위 서버 중 어느 하나의 동작이 중지되어 단말의 접속이 불가능한 경우, 동작이 중지된 단위 서버가 다시 동작할 경우(즉, 접속 가능 상태로 변경될 경우) 또는 새로운 단위 서버가 추가된 경우 등의 이유로 인해 단위 서버들의 동작 상태가 변화할 경우, 이러한 변경을 반영하여 단위 서버를 생성하거나 동작 상태를 관리하는 역할을 수행할 수 있다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 상기 제2 인덱싱(indexing) 부(320)가 분산 처리 환경 기반, 예를 들어, 하둡(Hadoop) 분산 처리 환경 기반의 인덱싱 유닛이 설치된 2 이상의 단위 서버를 포함할 수 있다. 상기 인덱싱 유닛이 하둡을 기반으로 하기 때문에 소프트웨어 측면에서 분산 처리 환경이 조성될 수 있을 뿐만 아니라, 상기 인덱싱 유닛이 설치된 복수의 단위 서버가 병렬로 배열되어 클러스터(cluster)를 형성하므로 하드웨어 측면에서도 데이터 스트림이 복수 개로 분할된 분산 처리 환경이 조성될 수 있다.

구체적으로, 상기 하둡 분산 처리 환경은 하나의 서버에서만 동작하는 파일 시스템이 아니라 복수의 서버에 설치되어 운영될 수 있다. 하둡 분산 처리 환경은 하나의 네임 노드(name node) 서버, 세컨드리(secondary) 네임 노드 서버 및 복수의 데이터 노드(data node) 서버로 이루어질 수 있다.

상기 네임 노드 서버는 디렉토리, 파일명, 파일 블록 등의 파일 시스템 공간을 관리하면서 클라이언트의 파일 접근 요청을 처리하고, 파일 데이터는 블록 단위로 분할되어 복수의 데이터 노드 서버에 분산 저장될 수 있다. 상기 블록들은 가용성을 보장하기 위해 복제되어 다른 데이터 노드 서버에 저장될 수 있기 때문에, 특정 데이터 노드 서버에서 장애가 발생된 경우 이를 자동으로 감지하여 장애가 발생되지 않은 데이터 노드 서버에 저장된 복사본을 이용하여 다른 데이터 노드 서버에 복제본을 추가로 생성함으로써, 가용성을 보장할 수 있다.

상기 제2 인덱싱 부는 4개의 노드를 가질 수 있고, 6 코어/24 GB RAM의 서버를 통해 구동될 수 있으나, 그 제원과 구동 환경이 이에 한정되는 것은 아니다. 상기 제1 인덱싱 부의 제원과 구동 환경에 대해서는 전술한 것과 같다. 도 6을 참조하여 솔라 클라우드(Solr Cloud) 기반의 제1 인덱싱 부와 하둡 분산 처리 환경 기반의 제2 인덱싱 부의 데이터 용량에 따른 색인 및 검색 성능을 비교해보면, 제2 인덱싱 부는 데이터 용량 변화에 관계없이 약 4분의 처리 시간을 유지하고 있으나, 제1 인덱싱 부는 데이터 용량이 증가할수록 처리 시간이 증가한 것으로 나타났다.

특히, 제1 인덱싱 부와 제2 인덱싱 부의 처리 시간이 데이터 용량이 약 100테라바이트인 지점에서 교차하며, 교차점 이하의 구간에서는 제1 인덱싱 부가, 교차점 초과의 구간에서는 제2 인덱싱 부의 처리 속도가 빠른 것으로 나타났다. 이러한 결과는, 소용량의 실시간 또는 단기 데이터는 제1 인덱싱 부로 처리하고, 상대적으로 대용량의 장기 데이터는 제2 인덱싱 부로 처리함으로써 데이터 용량에 구속되지 않는 효과적인 분석 시스템을 구축할 수 있음을 시사한다. 이에 따라, 상기 인덱싱 수단(300)에서 처리될 수 있는 데이터의 용량을 기설정된 값을 기준으로 소용량 데이터와 대용량 데이터로 구별하고, 각각을 상기 제1 및 제2 인덱싱 부로 처리할 수 있다. 도 6을 참조하면, 상기 기설정된 값이 200 테라바이트일 수 있다.

상기 분석 수단(400)이, 컨텐츠 분류(content categorizing), 데이터 마이닝(data mining), 텍스트 마이닝(text mining), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나의 기능을 수행하는 서버일 수 있다. 상기 분석 수단(400)으로는 구득 가능한 공지의 분석 솔루션이 설치된 서버일 수 있다.

상기 컨텐츠 분류(content categorizing) 기능을 수행하는 분석 플랫폼의 일 례로, 『SAS® Content Categorization』은 대용량의 데이터를 처리하고 수작업이 요구되는 과도한 태깅 작업을 생략함으로써 정보 구성 및 액세스의 속도와 효율성을 높일 수 있고, 고급 언어 및 자연 언어 처리 기법을 활용하여 30가지 이상의 언어의 품사를 인식 분석함으로써 다국어 데이터를 효과적으로 관리할 수 있다.

상기 데이터 마이닝(data mining) 기능을 수행하는 분석 플랫폼의 일 례로, 『SAS® Enterprise Miner』는 데이터 접근, 관리, 필터링 작업을 통합하여 분석하기 위한 데이터 준비 작업이 간편하고, 데이터의 품질을 향상시켜 모델링의 효율성을 높이고 결과 값에 대한 신뢰도를 향상시킬 수 있다. 또한, 멀티스레드 알고리즘, 멀티프로세싱 및 그리드 컴퓨팅을 지원하여 실행 시간을 단축하고 하드웨어 리소스를 효율적으로 사용할 수 있으며, 시장 바구니 분석, 의사결정 트리, 변화도 부스팅(Gradient Boosting), 신경망, 선형 및 로지스틱 회귀와 같은 고급 예측/기술 모델링 알고리즘을 제공할 수 있다.

상기 텍스트 마이닝(text mining) 기능을 수행하는 분석 플랫폼의 일 례로, 『SAS® Text Analytics』는 텍스트 기반 정보와 구조적 데이터를 통합하는 텍스트 마이닝 솔루션과, 복잡한 질의에 정확한 답변을 제공하는 예측 분석을 비롯하여 텍스트 문서에서 지식을 검색하고 추출하는 다양한 도구를 제공할 수 있고, 고급 통계 모델링, 자연어 처리 및 고급 언어 기술을 결합하여 대용량의 다국어 데이터를 신속하게 자동으로 분류하여 원문 콘텐츠에 숨겨져 있는 동향, 패턴 및 감정을 찾아낼 수 있다.

한편, 상기 시각화 수단(500)은 다수의 데이터 근원으로부터 실시간 데이터가 수집, 처리, 및 표시되는 웹 기반 또는 타 기술 기반의 대시보드(dashboard) 또는 이것이 설치된 서버일 수 있다.

본 명세서에 사용된 용어 "대시보드"는, 디지털 대시보드(digital dashboard), 엔터프라이즈 대시보드(enterprise dashboard), 비즈니스 대시보드(business dashboard), 관리 대시보드(executive dashboard), 운영 대시보드(operational dashboard), 경영지식 대시보드(BI dashboard), 데이터베이스 대시보드(database dashboard), 웹 대시보드(Web dashboard) 등을 포함하는 개념으로 이해될 수 있다. 상기 대시보드는 사용자가 과거와 현재의 이벤트를 시각적으로 일견하여 확인할 수 있도록 설계될 수 있다.

상기 대시보드는 SaaS, HTML, Hichart, Tomcat과 같은 다양한 플랫폼을 기반으로 설계될 수 있다. 특히, SaaS 플랫폼은 하나의 어플리케이션을 다수의 사용자가 공유하여 사용할 수 있도록 할 수 있고, 테넌트별 업무 특성을 메타데이터 설정으로 관리하고 커스터마이징할 수 있으며, 테넌트별 공통 코드와 권한을 관리할 수 있기 때문에, 단일 시스템으로 다수의 고객에게 분석 결과 값을 시각화하여 제공할 수 있는 멀티테넌시 환경에 적용할 수 있다.

소셜 미디어 데이터 분석 방법

상기와 같은 목적을 달성하기 위해, 본 발명의 다른 일 측면은 상기 소셜 미디어 데이터 분석 시스템을 이용하는 것을 특징으로 하는, 소셜 미디어 데이터 분석 방법을 제공한다.

도 7은 본 발명의 일 실시예에 따른 씨딩 수단을 이용한 씨딩(seeding) 방법을 도식화한 것이다. 도 9를 참조하면, 상기 씨딩 단계는, 소셜 미디어의 씨드 URL을 추출하는 단계(S110); 소셜 미디어의 종류를 분류하는 단계(S120); 아티클 패턴을 추출하는 단계(S130); 제목 패턴을 추출하는 단계(S140); 및 본문 패턴을 추출하는 단계(S150)을 포함할 수 있고, 추출된 패턴 정보를 씨딩 서버에 저장하고, 이를 크롤링 서버에 전달하는 단계를 더 포함할 수도 있다.

먼저, 소셜 미디어의 씨드 URL을 추출하는 단계(S110)에서, 클라이언트가 분석을 희망하는 씨드 도메인을 발굴한다. 예를 들어, 뉴스를 제공하는 웹 사이트 중 하나인 『http://joongang.joins.com/』을 씨드 도메인으로 특정하고, 각 아티클의 날짜를 통해 당일(또는 미리 정해진 일자)에 입력된 아티클인지 확인한다. 이후, 각 페이지를 확인하여 당일의 기사가 있는 웹 페이지 각각을 씨드 URL로 추출하되, 페이지 수가 5~10 페이지를 넘지 않도록 설정한다.

소셜 미디어의 종류를 분류하는 단계(S120)에서는 웹 페이지의 상단에 표시된 언론사 명칭, 『중앙일보』와, 사이트의 카테고리인 『뉴스』, 『경제』 등을 참고하여 씨드 미디어의 종류를 뉴스 또는 언론으로 정의한다. 즉, 미디어의 종류는 사이트의 구조에 따라 결정되는 것이 아니라, 사이트의 서비스 내용을 정성적으로 검토하여 결정될 수 있기 때문에, 블로그 구조의 사이트라도 뉴스 제공 사이트라면 뉴스 또는 언론으로 정의될 수 있다.

아티클 패턴을 추출하는 단계(S130)에서는 기사 목록 페이지에서 실제 아티클로 연결되는 링크 URL을 추출하여 공통 패턴을 조사하여 부여한다. 예를 들어, 목록 페이지에 나열된 링크 URL은 각각 『http://article.joinsmsn.com/news/article/article.asp?total_id=10963896&ctg=1103』, 『http://article.joinsmsn.com/news/article/article.asp?total_id=10963895&ctg=1105』, 등으로 표시되고, 링크 URL의 후단부를 『http://article\.joinsmsn\.com/news/article/article\.asp\?total_id=[0-9]+&ctg=[0-9]+』와 같이 변형하여 공통 패턴을 부여할 수 있다.

제목 패턴을 추출하는 단계(S140)와 본문 패턴을 추출하는 단계(S150)에서는, 상기 링크 URL을 클릭하여 확인되는 각 아티클의 제목과 본문의 패턴을 추출한다. 제목 또는 본문 영역의 HTML 소스의 패턴을 발굴하고, 각각의 패턴을 『::』에 의해 3~5개의 요소로 구분한다. 예를 들어, 제목과 본문의 패턴을 각각 div::class::title::h3, div::id::article_content로 설정할 수 있고, 본문의 이미지를 제외하고자 하는 경우 『^』를 사용하여 div::id::article_content:: ::^img로 설정할 수 있으며, 본문의 주제와 무관한 링크 텍스트를 제외하기 위해 일정 패턴을 부가하여 div::id::article_content::p::^img로 설정할 수도 있다.

상기 씨딩 방법을 제외하면, 본 발명의 다른 일 측면에 따른 소셜 미디어 데이터 분석 방법은, 이후의 데이터 스트림에서 전기적으로 연결된 씨딩 수단, 크롤링 수단, 인덱싱 수단, 분석 수단, 및 시각화 수단을 포함하는 소셜 미디어 데이터 분석 시스템을 이용하는 것을 특징으로 하며, 상기 소셜 미디어 데이터 분석 시스템 및 이에 포함되는 각각의 구성에 관하여는 전술한 것과 같다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 씨딩 수단
200 : 크롤링 수단
300 : 인덱싱 수단
310 : 제1 인덱싱 부
320 : 제2 인덱싱 부
400 : 분석 수단
500 : 시각화 수단

Claims

소셜 미디어의 URL을 추출하고 추출된 상기 URL에 패턴을 부여하여 상기 소셜 미디어를 표적화하는 씨딩(seeding) 수단;
표적화된 상기 소셜 미디어에 포함된 데이터를 수집하는 크롤링(crawling) 수단;
수집된 상기 데이터를 기설정된 기준 값에 기반하여 제1 수집 데이터와 제2 수집 데이터로 분류하고, 상기 제1 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제1 인덱싱 부와, 상기 제2 수집 데이터에 인덱스를 부여하고, 상기 인덱스에 기반하여 대상 데이터를 검색하는 제2 인덱싱 부를 포함하는 인덱싱 수단;
검색된 상기 대상 데이터를 분석하여 결과 값을 도출하는 분석 수단; 및
도출된 상기 결과 값의 화상을 생성하는 시각화 수단;을 포함하며,
상기 인덱싱 수단의 상기 제1 인덱싱 부는 2 이상의 단위 서버들로 이루어지고,
상기 인덱싱 수단의 상기 제2 인덱싱 부는 상기 제1 인덱싱 부의 상기 단위 서버들과 상이한 데이터 처리 환경을 기반으로 하는 2 이상의 단위 서버들로 이루어지는, 소셜 미디어 데이터 분석 시스템.
제1항에 있어서,
상기 크롤링 수단이, 너치(Nutch), 오픈 API(open application program interface), 알에스에스(RSS, rich site summary), 웹 스크래퍼(web scrapper), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나를 기반으로 구동되는, 소셜 미디어 데이터 분석 시스템.
제1항에 있어서,
상기 기설정된 기준 값이 상기 데이터의 수집 용량인, 소셜 미디어 데이터 분석 시스템.
제3항에 있어서,
상기 제1 수집 데이터의 상기 수집 용량이 200 테라바이트 이하인, 소셜 미디어 데이터 분석 시스템.
제3항에 있어서,
상기 제2 수집 데이터의 상기 수집 용량이 200 테라바이트 초과인, 소셜 미디어 데이터 분석 시스템.
제1항에 있어서,
상기 제1 인덱싱(indexing) 부의 상기 2 이상의 단위 서버는, 형태소 또는 키워드 분석 기반의 인덱싱 유닛이 설치된 것을 특징으로 하는, 소셜 미디어 데이터 분석 시스템.
제1항에 있어서,
상기 기설정된 기준 값이 상기 데이터의 수집 기간인, 소셜 미디어 데이터 분석 시스템.
제7항에 있어서,
상기 제1 수집 데이터의 상기 수집 기간이 실시간, 또는 상기 데이터가 수집된 때로부터 1년 이내인, 소셜 미디어 데이터 분석 시스템.
제7항에 있어서,
상기 제2 수집 데이터의 상기 수집 기간이 상기 데이터가 수집된 때로부터 1년 초과인, 소셜 미디어 데이터 분석 시스템.
제1항에 있어서,
상기 제2 인덱싱(indexing) 부의 상기 2 이상의 단위 서버는, 분산 처리 환경 기반의 인덱싱 유닛이 설치된 것을 특징으로 하는, 소셜 미디어 데이터 분석 시스템.
제1항에 있어서,
상기 분석 수단이, 컨텐츠 분류(content categorizing), 데이터 마이닝(data mining), 텍스트 마이닝(text mining), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나의 기능을 수행하는, 소셜 미디어 데이터 분석 시스템.
씨딩(seeding) 수단에서, 소셜 미디어의 URL을 추출하고 추출된 상기 URL에 패턴을 부여하여 상기 소셜 미디어를 표적화하는 단계;
크롤링(crawling) 수단에서, 표적화된 상기 소셜 미디어에 포함된 데이터를 수집하는 단계;
제1 인덱싱 부와 제2 인덱싱 부를 포함하는 인덱싱 수단에서, 수집된 상기 데이터를 기설정된 기준 값에 기반하여 제1 수집 데이터와 제2 수집 데이터로 분류하는 단계;
2 이상의 단위 서버들로 이루어지는 상기 제1 인덱싱 부에서, 상기 제1 수집 데이터에 인덱스를 부여하고 상기 인덱스에 기반하여 대상 데이터를 검색하고, 상기 제1 인덱싱 부의 상기 단위 서버들과 상이한 데이터 처리 환경을 기반으로 하는 2 이상의 단위 서버들로 이루어지는 상기 제2 인덱싱 부에서, 상기 제2 수집 데이터에 인덱스를 부여하고 상기 인덱스에 기반하여 대상 데이터를 검색하는 단계;
분석 수단에서, 검색된 상기 대상 데이터를 분석하여 결과 값을 도출하는 단계; 및
시각화 수단에서, 도출된 상기 결과 값의 화상을 생성하는 단계;를 포함하는, 소셜 미디어 분석 시스템을 이용한 소셜 미디어 분석 방법.
제12항에 있어서,
상기 크롤링 수단이, 너치(Nutch), 오픈 API(open application program interface), 알에스에스(RSS, rich site summary), 웹 스크래퍼(web scrapper), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나를 기반으로 구동되는, 소셜 미디어 데이터 분석 방법.
제12항에 있어서,
상기 기설정된 기준 값이 상기 데이터의 수집 용량인, 소셜 미디어 데이터 분석 방법.
제14항에 있어서,
상기 제1 수집 데이터의 상기 수집 용량이 200 테라바이트 이하이고,
상기 제2 수집 데이터의 상기 수집 용량이 200 테라바이트 초과인, 소셜 미디어 데이터 분석 방법.
제12항에 있어서,
상기 제1 인덱싱(indexing) 부의 상기 2 이상의 단위 서버는, 형태소 또는 키워드 분석 기반의 인덱싱 유닛이 설치된 것을 특징으로 하는, 소셜 미디어 데이터 분석 방법.
제12항에 있어서,
상기 기설정된 기준 값이 상기 데이터의 수집 기간인, 소셜 미디어 데이터 분석 방법.
제17항에 있어서,
상기 제1 수집 데이터의 상기 수집 기간이 실시간, 또는 상기 데이터가 수집된 때로부터 1년 이내이고,
상기 제2 수집 데이터의 상기 수집 기간이 상기 데이터가 수집된 때로부터 1년 초과인, 소셜 미디어 데이터 분석 방법.
제12항에 있어서,
상기 제2 인덱싱(indexing) 부의 상기 2 이상의 단위 서버는, 분산 처리 환경 기반의 인덱싱 유닛이 설치된 것을 특징으로 하는, 소셜 미디어 데이터 분석 방법.
제12항에 있어서,
상기 분석 수단이, 컨텐츠 분류(content categorizing), 데이터 마이닝(data mining), 텍스트 마이닝(text mining), 및 이들 중 2 이상이 조합된 것으로 이루어진 군으로부터 선택되는 하나의 기능을 수행하는, 소셜 미디어 데이터 분석 방법.