KR101600616B1 - 이종콘텐츠 분석 서비스 방법 - Google Patents

이종콘텐츠 분석 서비스 방법 Download PDF

Info

Publication number
KR101600616B1
KR101600616B1 KR1020150075190A KR20150075190A KR101600616B1 KR 101600616 B1 KR101600616 B1 KR 101600616B1 KR 1020150075190 A KR1020150075190 A KR 1020150075190A KR 20150075190 A KR20150075190 A KR 20150075190A KR 101600616 B1 KR101600616 B1 KR 101600616B1
Authority
KR
South Korea
Prior art keywords
content
data
heterogeneous
contents
standardized
Prior art date
Application number
KR1020150075190A
Other languages
English (en)
Inventor
강정진
이우영
김시우
황철
Original Assignee
동서울대학교 산학협력단
(주) 씨이랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동서울대학교 산학협력단, (주) 씨이랩 filed Critical 동서울대학교 산학협력단
Priority to KR1020150075190A priority Critical patent/KR101600616B1/ko
Application granted granted Critical
Publication of KR101600616B1 publication Critical patent/KR101600616B1/ko

Links

Images

Classifications

    • G06F17/3002
    • G06F17/30997
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

이종콘텐츠 분석 서비스 방법이 제공되며, 제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집하는 단계, 제 2 콘텐츠를 공개 API(Open Application Programming Interface)를 이용하여 수집하는 단계, 수집된 제 1 콘텐츠 및 제 2 콘텐츠의 표준화 대상 구성요소를 추출하고, 추출된 표준화 대상 구성요소에 대한 표준화를 수행하는 단계, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화하는 단계, 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행하는 단계, 및 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력하는 단계를 포함한다.

Description

이종콘텐츠 분석 서비스 방법{METHOD FOR ANALYZING SERVICE OF HETEROGENEOUS CONTENTS}
본 발명은 이종콘텐츠 분석 서비스 방법에 관한 것이다. 본 발명은 중소기업청의 산학연협력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제고유번호: C0181776, 과제명: 휴대용 소형 OTDR 개발, 과제고유번호: C0200426, 과제명: 빅데이터 기반 다차원 멀티 포맷 데이터 메타 인덱싱 기법 개발].
최근, 빅 데이터를 포함한 데이터 분석 시장은 SI 시장에서 확장되어 대량 데이터 내에서 의미있고 품질이 높은 데이터를 분석하여 기업 성장에 기여할 수 있는 시장으로 변하고 있는데, 단순한 통계 분석의 기반으로부터 개인 로그 또는 행위에 대한 로그를 분석하는 고도화 분석으로 이어지고 있으며, 이를 백업할 수 있는 인프라와 분석 모델이 요구되어 연구 및 개발되고 있다.
이때, 빅데이터에서 의미있는 두 개의 정보를 연관시켜 분석하는 방법은 SNS와 위치 정보를 결합시켜 광고를 제공하는 방법으로 이루어진다. 이와 관련하여, 선행기술인 한국공개특허 제2014-0129569호(2014.11.07 공개)에는, SNS를 통해 입력되는 사용자의 문장 데이터를 분석하여 파싱하고, 파싱된 단어를 이용하여 위치 정보, 감정 정보 및 화제 정보를 추출함으로써, 추출된 정보에 매칭되는 광고를 출력하도록 하는 구성이 개시된다.
다만, SNS라는 하나의 빅데이터에 포함된 두 개의 정보를 추출할 때, 사용자의 감정 정보를 제외한 나머지의 정보는 정확하지 않을 수 있으며, 이에 따라 정확하지 않은 정보를 기반으로 한 분석은 잘못된 결과를 초래할 수 있다. 또한, 다차원 또는 이종의 데이터를 연관하여 분석하는 방법에 대해서는 전혀 개시하고 있지 않다.
본 발명의 일 실시예는, 사설 콘텐츠인 제 1 콘텐츠를 채널별 크롤러 및 이종콘텐츠 파이프라인을 통하여 수집하여 정제 및 표준화하고, 공공 콘텐츠인 제 2 콘텐츠를 공개 API를 통하여 수집하며, 제 1 콘텐츠 및 제 2 콘텐츠 간의 연관성을 메타인덱싱을 통하여 도출 및 시각화함으로써, 단일 데이터의 분석에서 벗어나 다차원적인 분석 결과를 제시할 수 있는, 이종콘텐츠 분석 서비스 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집하는 단계, 제 2 콘텐츠를 공개 API(Open Application Programming Interface)를 이용하여 수집하는 단계, 수집된 제 1 콘텐츠 및 제 2 콘텐츠의 표준화 대상 구성요소를 추출하고, 추출된 표준화 대상 구성요소에 대한 표준화를 수행하는 단계, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화하는 단계, 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행하는 단계, 및 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 제 1 콘텐츠 및 제 2 콘텐츠 간의 관계성을 메타인덱싱을 이용하여 분석 및 표현할 수 있고, 단순 데이터에 대한 접근이나 단일 데이터의 분석에서 벗어나 보다 다차원적인 분석 결과를 제시할 수 있으며, 서로 다른 데이터의 분석을 통하여 다양한 해결책을 도출할 수 있으며, 공공 데이터와 민간 데이터 간의 통합 분석 플랫폼을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 시스템을 설명하기 위한 구성도이다.
도 2는 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3은 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에 구축된 이종콘텐츠 파이프라인을 통하여 제 1 콘텐츠 및 제 2 콘텐츠를 수집하는 일 실시예를 설명하기 위한 도면이다.
도 4는 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에서 제 1 콘텐츠 및 제 2 콘텐츠를 이용하여 데이터베이스를 구축하는 일 실시예를 설명하기 위한 도면이다.
도 5는 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에서 제 1 콘텐츠를 수집하여 표준화 및 메타인덱싱을 수행하는 일 실시예를 설명하기 위한 도면이다.
도 6은 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에서 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력하는 일 실시예를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 시스템을 설명하기 위한 구성도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 시스템(1)은, 제 1 콘텐츠 제공 서버(100), 제 2 콘텐츠 제공 서버(200) 및 이종콘텐츠 분석 서비스 제공 서버(400)를 포함할 수 있다. 다만, 이러한 도 1의 이종콘텐츠 분석 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 300)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 제 1 콘텐츠 제공 서버(100)는, 네트워크(300)를 통하여 이종콘텐츠 분석 서비스 제공 서버(400)와 연결될 수 있다. 그리고, 제 2 콘텐츠 제공 서버(200)는, 이종콘텐츠 분석 서비스 제공 서버(400)와 네트워크(300)를 통하여 연결될 수 있다. 또한, 이종콘텐츠 분석 서비스 제공 서버(400)는 네트워크(300)를 통하여 제 1 콘텐츠 제공 서버(100) 및 제 2 콘텐츠 제공 서버(200)와 연결될 수 있다.
여기서, 네트워크(300)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(300)의 일 예는, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, 4G, LTE, VoLTE, Wi-Fi, Bluetooth, NFC, RFID, 홈 네트워크 등이 포함되나 이에 한정되지는 않는다. 도 1에 도시된 제 1 콘텐츠 제공 서버(100), 제 2 콘텐츠 제공 서버(200) 및 이종콘텐츠 분석 서비스 제공 서버(400)는, 도 1에 도시된 것들로 한정 해석되는 것은 아니다.
제 1 콘텐츠 제공 서버(100)는, 제 1 콘텐츠를 제공하는 서버일 수 있다. 이때, 제 1 콘텐츠는 SNS(Social Network Serivce) 콘텐츠일 수 있다. 예를 들어, 적어도 하나의 사용자 단말(미도시)에서 제 1 콘텐츠 제공 서버(100)에서 제공하는 웹 페이지, 앱 페이지 또는 애플리케이션을 통하여 콘텐츠를 업로드하는 경우, 제 1 콘텐츠 제공 서버(100)는, 웹 페이지, 앱 페이지 또는 애플리케이션에 콘텐츠를 개시할 수 있고, 이종콘텐츠 분석 서비스 제공 서버(400)에서 업로드된 콘텐츠를 요청하는 경우, 요청에 대한 응답으로 업로드된 콘텐츠인 제 1 콘텐츠를 제공하는 서버일 수 있다. 이때, 제 1 콘텐츠는 SNS 콘텐츠에 한정되는 것은 아니고, 제 2 콘텐츠와 다른 종류의 콘텐츠이면 어떠한 콘텐츠도 가능함은 자명하다 할 것이다. 여기서, 제 1 콘텐츠 제공 서버(100)는, 이종콘텐츠 분석 서비스 제공 서버(400)에서 제 1 콘텐츠를 수집하는 이종콘텐츠 파이프라인을 연결할 경우, 이종콘텐츠 파이프라인을 통하여 제 1 콘텐츠를 이종콘텐츠 분석 서비스 제공 서버(400)로 전송할 수 있다. 여기서, 제 1 콘텐츠 제공 서버(100)는, 네트워크(300)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 랩톱(Laptop) 등을 포함할 수 있다.
제 2 콘텐츠 제공 서버(200)는, 제 2 콘텐츠를 제공하는 서버일 수 있다. 이때, 제 2 콘텐츠는 공공 콘텐츠일 수 있다. 예를 들어, 공공기관서버(미도시)에서 제공하는 웹 페이지, 앱 페이지 또는 애플리케이션을 통하여 공공 콘텐츠를 업로드하는 경우, 웹 페이지, 앱 페이지 또는 애플리케이션은 공공 콘텐츠를 개시할 수 있고, 이종콘텐츠 분석 서비스 제공 서버(400)에서 업로드된 콘텐츠를 요청하는 경우, 요청에 대한 응답으로 업로드된 콘텐츠인 제 2 콘텐츠를 제공하는 서버일 수 있다. 이때, 제 2 콘텐츠는 공공 콘텐츠에 한정되는 것은 아니고, 제 1 콘텐츠와 다른 종류의 콘텐츠이면 어떠한 콘텐츠도 가능함은 자명하다 할 것이다. 여기서, 제 2 콘텐츠 제공 서버(200)는, 이종콘텐츠 분석 서비스 제공 서버(400)에서 제 2 콘텐츠를 수집하는 이종콘텐츠 파이프라인을 연결할 경우, 이종콘텐츠 파이프라인을 통하여 제 2 콘텐츠를 이종콘텐츠 분석 서비스 제공 서버(400)로 전송할 수 있다. 여기서, 제 2 콘텐츠 제공 서버(200)는, 네트워크(300)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 랩톱(Laptop) 등을 포함할 수 있다.
이종콘텐츠 분석 서비스 제공 서버(400)는, 빅 데이터를 분석하고 분석된 빅 데이터로부터 상호 연관성을 추출하거나 의미있는 데이터를 추출하기 위하여 분석을 수행하는 서버일 수 있다. 이를 위하여, 이종콘텐츠 분석 서비스 제공 서버(400)는, 제 1 콘텐츠 제공 서버(100) 및 제 2 콘텐츠 제공 서버(200)와 이종콘텐츠 파이프라인을 연결하고, 제 1 콘텐츠 제공 서버(100) 및 제 2 콘텐츠 제공 서버(200)로부터 제 1 콘텐츠 및 제 2 콘텐츠를 수집하는 서버일 수 있다. 그리고, 이종콘텐츠 분석 서비스 제공 서버(400)는, 수집된 제 1 콘텐츠 및 제 2 콘텐츠를 채널별 데이터 포맷을 표준화하고, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠 중 메타인덱싱(Meta Indexing)을 할 수 있는 구성 요소를 추출하여 데이터베이스화하는 서버일 수 있다. 또한, 이종콘텐츠 분석 서비스 제공 서버(400)는, 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠의 구성 요소를 연관되도록 메타인덱싱을 수행하고, 메타인덱싱된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력하도록 처리하는 서버일 수 있다. 이를 통하여, 이종콘텐츠 분석 서비스 제공 서버(400)는, 다차원의 서로 다른 종류의 콘텐츠로부터 상호 연관성을 찾아내고, 연관된 데이터를 시각화하여 출력함으로써 산재한 빅 데이터로부터 의미있는 정보로 가공 및 추출할 수 있다. 여기서, 이종콘텐츠 분석 서비스 제공 서버(400)는, 네트워크(300)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 랩톱(Laptop) 등을 포함할 수 있다.
도 2는 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에 구축된 이종콘텐츠 파이프라인을 통하여 제 1 콘텐츠 및 제 2 콘텐츠를 수집하는 일 실시예를 설명하기 위한 도면이고, 도 4는 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에서 제 1 콘텐츠 및 제 2 콘텐츠를 이용하여 데이터베이스를 구축하는 일 실시예를 설명하기 위한 도면이고, 도 5는 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에서 제 1 콘텐츠를 수집하여 표준화 및 메타인덱싱을 수행하는 일 실시예를 설명하기 위한 도면이고, 도 6은 도 1에 도시된 이종콘텐츠 분석 서비스 제공 서버에서 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력하는 일 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, 이종콘텐츠 분석 서비스 제공 서버(400)는, 제 1 수집부(410), 제 2 수집부(420), 제 1 수행부(430), 데이터베이스화부(440), 제 2 수행부(450), 출력부(460) 및 추출부(470)를 포함할 수 있다.
본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 서버(400) 또는 이종콘텐츠 분석 서비스 제공 서버(400)와 연동되어 동작하는 다른 서버(미도시)가 이종콘텐츠 분석 서비스 애플리케이션, 프로그램, 웹 페이지 등을 분석 의뢰 서버(미도시) 및 분석 의뢰 서버와 연동된 관리자 단말(미도시)로 전송하면, 분석 의뢰 서버 및 관리자 단말은 해당 서비스에 대한 애플리케이션, 프로그램, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 이종콘텐츠 분석 서비스 프로그램이 분석 의뢰 서버 및 관리자 단말에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
이때, 네트워크(300) 연결은 제 1 콘텐츠 제공 서버(100), 제 2 콘텐츠 제공 서버(200), 및 이종콘텐츠 분석 서비스 제공 서버(400)가 네트워크(300)로 연결되어 단말과 통신을 위해 통신 접점에 통신 객체를 생성하는 것을 의미한다. 또한, 이종콘텐츠 분석 서비스 제공 서버(400)는, 통신 객체를 통해 서로 데이터를 교환할 수 있다.
우선, 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 방법에 대하여 개괄을 한 후, 상세한 설명을 하도록 한다. 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 방법은, 미디어를 포함한 콘텐츠 빅데이터를 기반으로 타겟 마케팅 서비스를 위하여 서로 다른 종류의 이종콘텐츠를 분석하는 기술을 제공한다. 이를 위하여, 이종콘텐츠 분석 서비스 제공 방법은, 채널별로 설정된 크롤러 및 이종콘텐츠 파이프라인을 이용하여 SNS 콘텐츠인 제 1 콘텐츠를 수집하고, 기상 콘텐츠인 제 2 콘텐츠를 수집하며, 수집된 제 1 콘텐츠 및 제 2 콘텐츠를 표준화하고, HDFS(Hadoop Distributed File System)로 데이터를 적재 및 데이터베이스화하며, 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠의 연관성을 찾도록 메타인덱싱(Meta Indexing)을 수행하고, 감성 분석(Sentiment Analysis) 및 연관 분석(Relation Analysis)를 함으로써 빅 데이터에서 의미있는 데이터를 찾도록 분석을 실시하고, C3 엔진을 이용하여 분석이 실시된 결과를 시각화하도록 한다.
상술한 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 방법을 이하에서 이종콘텐츠 분석 서비스 제공 서버(400)의 각 구성을 기반으로 상세히 설명하기로 한다.
제 1 수집부(410)는, 제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집할 수 있다. 또한, 제 2 수집부(420)는, 제 2 콘텐츠를 공개 API(Open Application Programming Interface)를 이용하여 수집할 수 있다.
여기서, 제 1 수집부(410)는, 제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집할 때, 제 1 콘텐츠를 수집하기 위한 크롤러를 채널별로 할당하고, 채널별 제 1 콘텐츠를 수집하기 위한 이종콘텐츠 파이프라인을 구축하고, 크롤러로 수집되고 이종콘텐츠 파이프라인을 통하여 수신된 제 1 콘텐츠의 출력 유형을 기 정의된 유형으로 분류할 수 있다. 이때, 제 1 콘텐츠는, 예를 들어 SNS 콘텐츠일 수 있고, 트위터, 페이스북, 까페, 블로그에 업로드된 콘텐츠일 수 있으며, 동영상 및 이미지를 포함한 미디어와 텍스트를 포함하는 모든 콘텐츠일 수 있다.
이때, 이종콘텐츠 파이프라인을 도 3을 참조로 하여 설명한다. 도 3을 참조하면, 본 발명의 일 실시예에서는, 제 1 콘텐츠를 SNS 콘텐츠로 설정하였고, SNS 콘텐츠 중에서도 (a) 트위터 콘텐츠, (b) 페이스북 콘텐츠, (c) 까페 콘텐츠, (d) 블로그 콘텐츠를 수집하는 것으로 설정하였지만, 상술한 일 실시예에 한정되는 것은 아니다. 이때, 제 1 수집부(410)는, (a) 내지 (d)의 콘텐츠 공급원별로, 즉 제 1 콘텐츠 제공 서버(100)의 채널별로 크롤러를 할당하되, 이를 1차적으로 정제하는 포맷 및 함수는 JSON 포맷 및 XML 포맷으로 그룹화하여 설정함으로써 제 1 콘텐츠의 포맷을 기 정의된 유형, 즉 JSON 포맷 및 XML 포맷으로 분류 및 표준화하도록 한다.
상술한 제 1 콘텐츠의 1차적인 포맷 분류 및 표준화가 진행되기 이전에, 제 1 콘텐츠 제공 서버(100)로부터 제 1 콘텐츠를 채널별, 즉 각각의 트위터, 페이스북, 까페 및 블로그별로 수집해야 하는데, 이를 위하여 (a) 내지 (d) 별로 제 1 수집부(410)에서 이종콘텐츠 파이프라인을 이용하여 수집하는 방법을 이하에서 설명하기로 한다.
(a) 트위터로부터 제 1 콘텐츠를 수집하기 위해서는, 제 1 수집부(410)에서 웹 사이트로 제 1 콘텐츠를 요청하는 리퀘스트(Request)를 HTTP 서버로 전송하면, HTTP 서버는 트위터 서버, 즉 제 1 콘텐츠 제공 서버(100)는 API(Application Programming Interface) 응답을 전송하는데, 제 1 수신부(410)는 렌더링(Rendering)된 사이트를 제공받을 수 있다. 이때, 제 1 수신부(410)는 트위터 사이트, 즉 제 1 콘텐츠 제공 서버(100)로부터 수신하는 데이터 포맷은 JSON으로 정의하되, 단순한 타임 라인(Timeline) 검색을 위한 API는 XML 형태로 반환되므로, 예외처리가 요구될 수 있다. 이때, 검색 언어가 한국어일 경우, 아스키코드(ASCII Code)로 반환될 수 있는데, 아스키코드를 의미있는 데이터로 변환하기 위하여 제 1 수집부(410)는, 추가적인 인코딩을 수행할 수도 있다.
(b) 페이스북으로부터 제 1 콘텐츠를 수집하기 위해서는, 제 1 수집부(410)에서 제 1 콘텐츠 제공 서버(100)인 페이스북 서버에서 제공하는 사이트에 웹 페이지를 요청하면, HTML 및 자바스크립트 웹 페이지를 응답으로 제공한다. 이때, 공개 API를 이용하는 경우, XML 또는 JSON 포맷으로 데이터를 수신할 수 있다. 여기서, 페이스북의 SDK(Software Development Kit) 로딩 소스 및 페이스북의 페이지 로딩 속도를 확보하기 위한 소스는 이하 표 1 및 표 2와 같다. 다만, 이에 한정되는 것은 아니며, 다른 소스가 활용될 수 있음은 물론이다.
Facebook OPEN API를 사용하기 위한 SDK를 로딩 과정
<script src="http://connect.facebook.net/en_US/all.js"></script>
<script>
FB.init({
appId : 'APP ID',
status : true, // check login status
cookie : true, // enable cookies to allow the server to access the session
xfbml : true // parse XFBML
});
</script>
페이지 로딩속도 확보(비동기식)
<script>
window.fbAsyncInit = function() {
FB.init({appId: 'your app id', status: true, cookie: true,
xfbml: true});
};
(function() {
var e = document.createElement('script'); e.async = true;
e.src = document.location.protocol +
'//connect.facebook.net/en_US/all.js';
document.getElementById('fb-root').appendChild(e);
}());
</script>
(c) 까페로부터 제 1 콘텐츠를 수집하기 위해서는, 제 1 수집부(410)는, API를 분석하기 위하여 RSS(XML) 포맷으로 제 1 콘텐츠를 수집하며, 요청 검색 결과에 해당하는 키워드를 태그로 반환하므로, 데이터베이스화할 때 반환되는 태그를 활용하도록 할 수 있다. 그리고, 제공되는 데이터는 검색 결과 개수, 제목, 링크 및 까페 이름 등일 수 있다. 여기서, 제 1 수집부(410)에서 제 1 콘텐츠를 수집할 때 요청하는 변수의 포맷은 이하 표 3과 같을 수 있으나, 이에 한정되지는 않는다.
요청변수 설명
key string(필수) 이용등록을 통해 받은 API key
target string(필수) API target 지정-> cafearticle
query string(필수) 검색 질의
display integer: 기본값 10, 최대 100 검색결과 최대 출력 건수
start integer: 기본값 1, 최대 1000 검색 시작 위치 지정
sort string: sim(기본값), data 정렬옵션(sim: 유사도, date: 최신날짜)
그리고, 블로그로부터 제 1 콘텐츠를 수집하기 위해서는, 제 1 수집부(410)는, API를 분석하기 위하여 RSS(XML) 포맷으로 제 1 콘텐츠를 수집하며, 마찬가지로 요청 검색 결과에 해당하는 키워드를 태그로 반환하므로, 데이터베이스화할 때 반환되는 태그를 활용하도록 할 수 있다. 그리고, 제공되는 데이터는 검색 결과 개수, 제목, 링크 및 까페 이름 등일 수 있다. 이때, 블로그는 이웃이라는 기능이 있으므로, 검색 객체 범위를 이웃 범위까지 설정할 수도 있다.
(d) 제 2 콘텐츠를 수집하기 위해서는, 제 2 수집부(420)는, 현재 시간 이전의 기상 데이터가 필요한데, 과거의 기상 데이터를 제공하는 공개 API는 존재하지 않으므로, 공개 API에서 제공하는 현재의 기상 데이터를 저장하여 데이터베이스화하는 방법으로 미래를 기준으로 과거의 기상 데이터를 수집하도록 한다. 여기서, 제 2 수집부(420)는, 쿼리 횟수 제한이 없고 "동" 단위의 단위 데이터를 제공하는 기상청 공개 API를 선정할 수 있다. 여기서, 제 2 콘텐츠 제공 서버(200), 즉 기상 데이터를 제공하는 서버로부터 시간 단위의 날씨 확인은 불가하므로, 제 2 수집부(420)는, 예보 시간과 가장 가까운 시간의 데이터를 해당 시간의 기장 데이터로 설정하도록 할 수 있다. 또한, 리퀘스트마다 48 시간 이후의 기상 데이터까지 파악가능하나, 예측 데이터는 변동 가능성이 있으므로, 리퀘스트 시각과 가장 시간의 간격이 좁은, 즉 최근의 데이터를 저장하여 데이터의 신뢰성을 확보하도록 할 수 있다. 여기서, 제 2 수집부(420)는, 과다 리퀘스트(3851Query) 발생으로 수도권 지역까지만 "동" 단위로 데이터를 수집하고, 그 이외의 지역은 "시" 또는 "군" 단위로 데이터를 수집하도록 진행할 수 있다(1429Query).
다시 도 2로 돌아와서, 제 1 수행부(430)는, 수집된 제 1 콘텐츠 및 제 2 콘텐츠의 표준화 대상 구성요소를 추출하고, 추출된 표준화 대상 구성요소에 대한 표준화를 수행할 수 있다. 여기서, 제 1 수행부(430)에서, 수집된 제 1 콘텐츠의 표준화 대상 구성요소를 추출하고, 추출된 표준화 대상 구성요소에 대한 표준화를 수행할 때, 수집된 제 1 콘텐츠를 JSON 포맷 및 XML 포맷으로 그룹화하여 함수를 작성하고, 그룹화된 제 1 콘텐츠를 데이터 표준화 함수인 PHP 함수를 이용하여 표준화를 진행하되, 제 1 콘텐츠가 추출된 채널별 특성에 따른 예외처리를 수행할 수 있다. 즉, SNS 콘텐츠인 제 1 콘텐츠의 경우에는, 제 1 콘텐츠 제공 서버(100) 마다 제공하는 API의 구성 요소와 포맷이 다르기 때문에, 이후 메타인덱싱을 위하여 표준화 전처리가 요구될 수 있다. 따라서, 제 1 콘텐츠 제공 서버(100)별로 구성 요소를 분석하고, 수집이 요구되는 객체인 구성 요소를 정의해야 하는데, 이는 이하 표 4 내지 표 7과 같을 수 있다.
표준화 key
Format : JSON
Element : id, id_str, media_url, media_url_https, url, display_url, expanded_url, sizes, type, indices, text
표준화가 필요한 Element : id, text
표준화 key
Format : JSON
Element : id, name, first_name, last_name, link, username, gender, locale, picture, likes, category, website, content
표준화가 필요한 Element : id, text
표준화 key
Format : RSS(XML)
Element : title, link, description, lastBuildDate, total, start, display
표준화가 필요한 Element : title, description
표준화 key
Format : RSS(XML)
Element : title, link, description, lastBuildDate, total, start, display
표준화가 필요한 Element : title, description
이때, 제 1 수행부(430)는, 수집된 제 1 콘텐츠의 표준화 대상 구성요소를 추출하고, 추출된 표준화 대상 구성요소에 대한 표준화를 수행할 때, 수집된 제 1 콘텐츠를 파싱(Parsing)하여 출력하고, 파싱되어 출력된 다중 포맷 데이터인 제 1 콘텐츠를 하나의 포맷으로 표준화하도록 렌더링(Rendering)할 수 있다. 이때, 도 5를 참조하면, (a) 각 채널별로 설정된 크롤러는 각 채널별 리퀘스트 제한에 걸리지 않도록 일정 주기로 API 서버인 제 1 콘텐츠 제공 서버(100)로 제 1 콘텐츠를 요청하여 수신한 데이터를 하둡(Hadoop)에 저장할 수 있고, 파서(Parser)에서 리퀘스트가 발생하면 응답(Response)할 수 있다. 그리고, 파서는, 크롤러가 보유한 데이터를 파싱하여 메타인덱싱을 위하여 렌더로 전달하고, 렌더는 파서가 보유한 다중 포맷 데이터인 제 1 콘텐츠를 하나의 포맷으로 표준화하여 메타인덱싱 데이터를 데이터베이스에 입력하도록 할 수 있다.
다시 도 2로 돌아와서, 데이터베이스화부(440)는, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화할 수 있다. 여기서, 데이터베이스화부(440)에서, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화할 때, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠의 메타 데이터와 콘텐츠 데이터를 분리하고, 분리된 제 1 콘텐츠 및 제 2 콘텐츠의 메타 데이터와 콘텐츠 데이터를 각각 마스터-슬레이브(Master-Slave) 구조로 분산하며, 콘텐츠 데이터는 마스터-슬레이브 구조의 데이터 노드(Data Node)에 저장하여 데이터베이스화할 수 있다. 이때, 데이터베이스화는 HDFS(Hadoop Distributed File System)에 기반하여 실행될 수 있다. 여기서, HDFS는, 마스터인 네임 노드가 파일의 메타 정보를 관리하고, 실제 데이터는 복수의 데이터 노드에 분산해서 저장하는 시스템을 말하는데, 파일을 블록 단위로 나누어 복수의 데이터 노드에 저장하고, 각 파일의 기본 정보 및 각 블록의 위치 정보를 네임 노드에서 관리할 수 있고, 일부 데이터 노드에 장애가 발생하더라도 각 데이터 블록에 대하여 복제본(Replica)을 유지함으로써 데이터 유실을 막을 수 있으며, 렉 단위의 장애에 대한 가용성을 높이기 위하여, 블록의 복제본을 관리할 때 복제본의 노드를 분산시키며, 파일에 접근할 때에는 네임 노드의 위치 정보를 요청한 후, 데이터 노드와의 통신으로 파일을 읽는 방식을 이용할 수 있다. 이를 통하여, 빅 데이터인 대용량 데이터의 처리량 및 적재량의 효용을 증가시킬 수 있다.
여기서, 데이터베이스화부(440)는, 도 4의 (a) 및 (b) 와 같이 제 1 콘텐츠 및 제 2 콘텐츠에 대한 데이터베이스를 구축할 수 있다. 즉, 제 1 콘텐츠에 대한 데이터베이스는 (a)와 같이 딕셔너리(Dictionary) 데이터가 추가될 때, 시스템 구조의 변경없이 가능할 수 있도록 데이터베이스가 설계될 수 있다. 이를 위하여, 트위터, 페이스북, 까페 및 블로그의 4 개의 채널 및 2 개의 종류의 데이터 포맷에 대한 표준화를 진행하고, 각 채널별 고유값으로 지정한 구성 요소를 md5 방식으로 해싱(Hashing)하여 저장하며, 고유값 컬럼인 post_id_str은 고유 속성을 부여함으로써 중복 데이터를 방지하도록 할 수 있다.
한편, 제 2 콘텐츠에 대한 데이터베이스는, (b)와 같이 수도권 이외의 지역의 "동" 단위 데이터가 필요할 때에 시스템 구조 변경없이 가능할 수 있도록 설계될 수 있으며, 기상 데이터에 대한 테이블은 이하 표 8과 같이 정의될 수 있다.
기상 데이터 테이블 정의
weather_area_all 정부에서 정의한 전국 법정동 코드가 담긴 테이블
weather_area_meta 데이터 크롤링을 진행 할 법정동 코드가 담긴 테이블
weather_index 실제 날씨에 대한 row 데이터가 저장되는 테이블
weather_rainfall_meta rainfall 컬럼에 대한 meta table
weather_sky_state_meta sky_state 컬럼에 대한 meta table
weather_wind_direction_meta wind_direction 컬럼에 대한 meta table
weather_update_log 기상 데이터 저장 log 테이블
다시 도 2로 돌아와서, 제 2 수행부(450)는, 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행할 수 있다. 여기서, 메타인덱싱은, 엘라스틱 분석(Elastic Search) 엔진에 기반하여 수행될 수 있다. 이때, 엘라스틱 분석 엔진은, 아파치 루신(Apache Lucene)을 기반으로 개발된 오픈소스 분산 검색 엔진으로, 데이터가 증가하는 경우 노드가 추가되고 클러스터가 이를 인식할 수 있도록 하여 분산 및 확장이 용이하며, 데드 노드를 감지함으로써 고가용성(High Availability)을 제공할 수 있고, 복수의 인덱스를 저장 및 관리하며, 독립된 하나의 쿼리 및 그룹 쿼리로 여러 인덱스의 데이터를 검색가능하므로, 멀티 태넌시(Multi-Tenancy)가 가능하다. 이때, 제 2 수행부(450)는, 엘라스틴 분석 엔진의 커스터마이징 기능을 이용하여, 제 1 콘텐츠 및 제 2 콘텐츠를 구조화된 JSON 포맷으로 저장하고, 모든 필드를 메타인덱싱하여 단일 쿼리로 접근 및 사용이 가능하도록 하며, JSON 포맷 및 RSS(XML) 포맷을 이용하여 제 1 콘텐츠 및 제 2 콘텐츠를 메타인덱싱 및 검색이 가능하도록 할 수 있다.
이때, 도 5의 (b)를 참조하면, 제 2 수행부(450)는, 대용량의 제 1 콘텐츠인 소셜 데이터에 대한 메타인덱싱을 처리하기 위하여 NoSQL 형태로 데이터를 저장하고, 설치 및 확장이 용이한 엘라스틱 분석 엔진을 이용하여 자동으로 인덱싱을 수행함과 동시에 하둡(Hadoop)과 연동하도록 할 수 있다. 즉, 제 2 수행부(450)는, JSON 포맷의 제 1 콘텐츠를 자동으로 메타인덱싱하도록 할 수 있다. 이때, 제 2 콘텐츠에 대한 수집 딕셔너리 정의는 이하 표 9와 같을 수 있다.
구분 단어
기온 춥다, 추운, 덥다, 더운, 따뜻한, 서늘한
강수 장마, 보슬비, 소나기, 가뭄, 우산
습도 습하다, 눅눅하다, 건조하다, 빨래
풍속 매섭다, 강풍, 미풍, 바람이, 잔잔
도 2로 돌아와서, 출력부(460)는, 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력할 수 있다. 여기서, 출력부(460)에서 제 1 콘텐츠 및 제 2 콘텐츠를 시각화할 때, C3 엔진을 이용한 데이터 시각화 라이브러리를 이용할 수 있고, 제 2 콘텐츠와 연관된 제 1 콘텐츠는 제 2 콘텐츠와 동적으로 출력될 수 있다. 예를 들어, 도 6을 참조하면, 페이지 레이아웃은 (a)와 같이 정의될 수 있는데, notification bar는 페이지 이벤트 발생시 알리는 인터페이스일 수 있고, button은 기상 및 각종 소셜 이종 콘텐츠를 하나의 그래프 화면에 보여주기 위하여 기상 데이터의 종류, 즉 기온, 강수량, 습도 및 풍속에 대한 선택 버튼일 수 있으며, line graph 및 bar graph는 기상 데이터와 소셜 데이터의 수치를 시각화하는 그래프일 수 있고, pie graph는 소셜 데이터의 채널별 비율을 시각화하는 다이어그램일 수 있으며, text data는 button 영역에서 선택한 기상 데이터와 연관성이 존재하는 소셜 데이터의 description이 출력되는 인터페이스일 수 있다. 여기서, 데이터 시각화 라이브러리인 D3.js를 가공한 C3.js가 사용될 수 있으며, C3는 동적 그래프를 출력가능한 라이브러리일 수 있다. 이때, 페이지 구조는 (b)와 같을 수 있고, 기온에 관련된 키워드로 그래프 및 소셜 데이터가 정렬된 화면의 일 실시예는 (c)와 같을 수 있다. 이때, 기온과 관련된 언급량과 기온과의 관계를 나타내는 그래프가 C3에 의해 출력되었고, 기온과 관련된 소셜 데이터 및 채널별 비율도 함께 출력된 것을 알 수 있다. 이를 통하여, 기온의 변화에 따른 SNS의 반응이 어떠한지를 알 수 있고, 기온 및 사용자의 반응을 알고자 하는 다양한 분야의 서비스에 적용될 수 있다.
도 2로 돌아와서, 추출부(470)는, 제 2 수행부(450)에서 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행한 후, 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 연관성을 감성 분석(Sentiment Analysis) 및 연관 분석(Relation Analysis)을 통하여 추출할 수 있다. 이때, 감성 분석은, 비정형 데이터 마이닝의 분석 방법 중 하나로, 제 2 콘텐츠에 대한 제 1 콘텐츠를 분석할 때 이용될 수 있다. 이때, 감정 분석은 특정 주제, 즉 제 2 콘텐츠에 대한 사람들의 주관적인 의견, 즉 제 1 콘텐츠의 문장을 분석할 수 있으며, 문장 분석에서는, 사실과 의견을 구분해 의견을 뽑아내어 긍정과 부정으로 나누고 그 강도를 측정할 수 있다. 이때, 문장 분석은, 텍스트 마이닝에서 이용되는 자연어 처리(Natural Language Processing) 방법, 컴퓨터 언어학(Computational Linguistics)이 이용될 수 있다.
본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 방법은, 빅 데이터를 단순히 분석하는 것에 그치지 않고, 서로 다른 종류의 데이터를 연관시키고, 다차원의 데이터 간의 연관성을 메타인덱싱으로 추출하며, 추출된 연관성을 이용하여 연관 데이터를 이용하여 동향을 파악하거나 예측을 하고자 하는 서비스 전반에 적용이 가능하다.
이와 같은 도 2 내지 도 6의 이종콘텐츠 분석 서비스 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 이종콘텐츠 분석 서비스 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 7은 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 7을 참조하면, 이종콘텐츠 분석 서비스 제공 서버는, 제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집한다(S7100).
그리고, 이종콘텐츠 분석 서비스 제공 서버는, 제 2 콘텐츠를 공개 API(Open Application Programming Interface)를 이용하여 수집한다(S7200).
또한, 이종콘텐츠 분석 서비스 제공 서버는, 수집된 제 1 콘텐츠 및 제 2 콘텐츠의 표준화 대상 구성요소를 추출하고, 추출된 표준화 대상 구성요소에 대한 표준화를 수행한다(S7300).
그리고, 이종콘텐츠 분석 서비스 제공 서버는, 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화하고(S7400), 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행한다(S7500).
마지막으로, 이종콘텐츠 분석 서비스 제공 서버는, 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력한다(S7600).
이와 같은 도 7의 이종콘텐츠 분석 서비스 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 6을 통해 이종콘텐츠 분석 서비스 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 7을 통해 설명된 일 실시예에 따른 이종콘텐츠 분석 서비스 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 이종콘텐츠 분석 서비스 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 이종콘텐츠 분석 서비스 제공 서버에서 제공되는 이종콘텐츠 분석 서비스 제공 방법에 있어서,
    제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집하는 단계;
    제 2 콘텐츠를 공개 API(Open Application Programming Interface)를 이용하여 수집하는 단계;
    상기 수집된 제 1 콘텐츠 및 제 2 콘텐츠의 표준화 대상 구성요소를 추출하고, 상기 추출된 표준화 대상 구성요소에 대한 표준화를 수행하는 단계;
    상기 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화하는 단계;
    상기 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행하는 단계; 및
    상기 메타인덱싱으로 연관된 제 1 콘텐츠 및 제 2 콘텐츠를 시각화하여 출력하는 단계;
    를 포함하되,
    상기 제 1 콘텐츠를 채널별로 할당된 크롤러(Crawler)를 통하여 수집하는 단계는,
    상기 제 1 콘텐츠를 수집하기 위한 크롤러를 채널별로 할당하는 단계;
    상기 채널별 제 1 콘텐츠를 수집하기 위한 이종콘텐츠 파이프라인을 구축하는 단계;
    상기 크롤러로 수집되고 상기 이종콘텐츠 파이프라인을 통하여 수신된 제 1 콘텐츠의 출력 유형을 기 정의된 유형으로 분류하는 단계;
    를 수행함으로써 실행되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 수집된 제 1 콘텐츠의 표준화 대상 구성요소를 추출하고, 상기 추출된 표준화 대상 구성요소에 대한 표준화를 수행하는 단계는,
    상기 수집된 제 1 콘텐츠를 JSON 포맷 및 XML 포맷으로 그룹화하여 함수를 작성하는 단계;
    상기 그룹화된 제 1 콘텐츠를 데이터 표준화 함수인 PHP 함수를 이용하여 표준화를 진행하되, 상기 제 1 콘텐츠가 추출된 채널별 특성에 따른 예외처리를 수행하는 단계;
    를 수행함으로써 실행되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  4. 제 1 항에 있어서,
    상기 수집된 제 1 콘텐츠의 표준화 대상 구성요소를 추출하고, 상기 추출된 표준화 대상 구성요소에 대한 표준화를 수행하는 단계는,
    상기 수집된 제 1 콘텐츠를 파싱(Parsing)하여 출력하는 단계;
    상기 파싱되어 출력된 다중 포맷 데이터인 제 1 콘텐츠를 하나의 포맷으로 표준화하도록 렌더링(Rendering)하는 단계
    를 수행함으로써 실행되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  5. 제 1 항에 있어서,
    상기 표준화된 제 1 콘텐츠 및 제 2 콘텐츠를 데이터베이스화하는 단계는,
    상기 표준화된 제 1 콘텐츠 및 제 2 콘텐츠의 메타 데이터와 콘텐츠 데이터를 분리하는 단계;
    상기 분리된 제 1 콘텐츠 및 제 2 콘텐츠의 메타 데이터와 콘텐츠 데이터를 각각 마스터-슬레이브(Master-Slave) 구조로 분산하는 단계;
    상기 콘텐츠 데이터는 상기 마스터-슬레이브 구조의 데이터 노드(Data Node)에 저장하여 데이터베이스화하는 단계;
    를 수행함으로써 실행되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  6. 제 1 항에 있어서,
    상기 데이터베이스화는 HDFS(Hadoop Distributed File System)에 기반하여 실행되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  7. 제 1 항에 있어서,
    상기 제 1 콘텐츠는, SNS(Social Network Serive) 기반 콘텐츠이고, 상기 제 2 콘텐츠는, 공공 데이터(Public Data)인 것인, 이종콘텐츠 분석 서비스 제공 방법.
  8. 제 1 항에 있어서,
    상기 메타인덱싱은, 엘라스틱 분석(Elastic Search) 엔진에 기반하여 수행되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  9. 제 1 항에 있어서,
    상기 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 메타인덱싱(Meta Indexing)을 수행하는 단계 이후에,
    상기 데이터베이스화된 제 1 콘텐츠 및 제 2 콘텐츠 간의 연관성을 감성 분석(Sentiment Analysis) 및 연관 분석(Relation Analysis)을 통하여 추출하는 단계
    를 더 포함하는 것인, 이종콘텐츠 분석 서비스 제공 방법.
  10. 제 1 항에 있어서,
    상기 제 1 콘텐츠 및 제 2 콘텐츠의 시각화는, C3 엔진을 이용한 데이터 시각화 라이브러리를 이용하여 수행되고,
    상기 제 2 콘텐츠와 연관된 제 1 콘텐츠는 상기 제 2 콘텐츠와 동적으로 출력되는 것인, 이종콘텐츠 분석 서비스 제공 방법.
KR1020150075190A 2015-05-28 2015-05-28 이종콘텐츠 분석 서비스 방법 KR101600616B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150075190A KR101600616B1 (ko) 2015-05-28 2015-05-28 이종콘텐츠 분석 서비스 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150075190A KR101600616B1 (ko) 2015-05-28 2015-05-28 이종콘텐츠 분석 서비스 방법

Publications (1)

Publication Number Publication Date
KR101600616B1 true KR101600616B1 (ko) 2016-03-07

Family

ID=55540419

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150075190A KR101600616B1 (ko) 2015-05-28 2015-05-28 이종콘텐츠 분석 서비스 방법

Country Status (1)

Country Link
KR (1) KR101600616B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170122871A (ko) * 2016-04-27 2017-11-07 주식회사 와이즈넛 복수의 이기종 사물인터넷디바이스의 반정형 데이터를 그룹핑하여 실시간으로 분석하는 데이터처리장치
WO2018110735A1 (ko) * 2016-12-12 2018-06-21 주식회사 와이즈넛 복수의 오픈 api로부터 통합적인 데이터 수집방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140112643A (ko) * 2013-03-12 2014-09-24 한국전자통신연구원 이종 서비스 간 서비스 제공 방법과 사용자 단말 및 웹 서버
KR20150050943A (ko) * 2013-11-01 2015-05-11 황성봉 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140112643A (ko) * 2013-03-12 2014-09-24 한국전자통신연구원 이종 서비스 간 서비스 제공 방법과 사용자 단말 및 웹 서버
KR20150050943A (ko) * 2013-11-01 2015-05-11 황성봉 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
노윤환 저, 빅데이터의 연관성분석을 이용한 시각적 해석, 부산대학교 석사 학위 논문, 2015.02.* *
주영주 외, 한국인터넷방송통신학회 논문집 Vol.15 no.3 pp.191-199, 2015. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170122871A (ko) * 2016-04-27 2017-11-07 주식회사 와이즈넛 복수의 이기종 사물인터넷디바이스의 반정형 데이터를 그룹핑하여 실시간으로 분석하는 데이터처리장치
KR101866487B1 (ko) * 2016-04-27 2018-06-12 주식회사 와이즈넛 복수의 이기종 사물인터넷디바이스의 반정형 데이터를 그룹핑하여 실시간으로 분석하는 데이터처리장치
WO2018110735A1 (ko) * 2016-12-12 2018-06-21 주식회사 와이즈넛 복수의 오픈 api로부터 통합적인 데이터 수집방법

Similar Documents

Publication Publication Date Title
US11765246B2 (en) Topical activity monitor and identity collector system
US10235681B2 (en) Text extraction module for contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
US9990422B2 (en) Contextual analysis engine
US7660783B2 (en) System and method of ad-hoc analysis of data
KR101463974B1 (ko) 마케팅을 위한 빅데이터 분석 시스템 및 방법
CN103678652B (zh) 一种基于Web日志数据的信息个性化推荐方法
US8930384B2 (en) Topical activity monitor system and method
CN106021583B (zh) 页面流量数据的统计方法及其系统
EP3353683A1 (en) Advanced computer implementation for crawling and/or detecting related electronically catalogued data using improved metadata processing
CN107885873B (zh) 用于输出信息的方法和装置
US10878020B2 (en) Automated extraction tools and their use in social content tagging systems
KR20150083874A (ko) 사용자 제출물들에 기초한 컨텐트 배달의 조절
US20130185429A1 (en) Processing Store Visiting Data
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
KR20150080090A (ko) 하둡 기반의 상품 추천 시스템 및 그 시스템에서의 상품 추천을 위한 장치 및 방법
KR101864401B1 (ko) 전통문화 융복합 지원을 위한 디지털 연표 표출 시스템
KR101567551B1 (ko) 콘텐츠 추천을 위한 소셜 데이터 분석 시스템
CN104537080B (zh) 资讯推荐方法和系统
JP5341847B2 (ja) 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム
Santhanavanich et al. CityThings: An integration of the dynamic sensor data to the 3D city model
Sohn et al. Dynamic FOAF management method for social networks in the social web environment
KR101600616B1 (ko) 이종콘텐츠 분석 서비스 방법
KR102195686B1 (ko) 지역 기반 아이템 추천 장치 및 방법
KR101650888B1 (ko) 컨텐츠 수집, 추천 시스템 및 방법

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191218

Year of fee payment: 5