KR101611166B1 - 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법 - Google Patents

빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법 Download PDF

Info

Publication number
KR101611166B1
KR101611166B1 KR1020130140531A KR20130140531A KR101611166B1 KR 101611166 B1 KR101611166 B1 KR 101611166B1 KR 1020130140531 A KR1020130140531 A KR 1020130140531A KR 20130140531 A KR20130140531 A KR 20130140531A KR 101611166 B1 KR101611166 B1 KR 101611166B1
Authority
KR
South Korea
Prior art keywords
data
analysis
module
collection
words
Prior art date
Application number
KR1020130140531A
Other languages
English (en)
Other versions
KR20150057322A (ko
Inventor
유선희
원동규
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020130140531A priority Critical patent/KR101611166B1/ko
Publication of KR20150057322A publication Critical patent/KR20150057322A/ko
Application granted granted Critical
Publication of KR101611166B1 publication Critical patent/KR101611166B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법에 관한 것으로서, 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 상기 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 상기 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 상기 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 상기 통계값에 따라 위크시그널을 출력하는 데이터 분석 모듈을 포함한다. 이에 의해, 정형 데이터는 물론 비정형 데이터까지 포함하는 빅데이터를 대상으로 수집, 저장 및 분석과정을 자동으로 수행하여 위크시그널을 계량적으로 분석할 수 있다.

Description

빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법{System and Method for Deducting about Weak Signal Using Big Data Analysis}
본 발명은 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는, 정형 데이터는 물론 비정형 데이터까지 포함하는 빅데이터를 대상으로 수집, 저장 및 분석과정을 자동으로 수행하여 위크시그널을 계량적으로 분석할 수 있는 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법에 관한 것이다.
최근 들어 미래산업에 대한 관심이 더욱 고조됨에 따라 과학기술에 있어서 미래를 예측하는 것, 특히 미래 과학기술 변화의 징후, '위크시그널(weaksignal)'의 탐색에 대한 요구도 증가하고 있는 추세이다.
위크시그널은 현재에는 불확실하고 비정상적인 신호이지만 미래 변화를 주도할 예비 징후를 의미하며, 이는 미래 예측에 있어서 중요한 실마리를 제공하게 된다.
위크시그널(weak signal)에 대한 정의는 학자에 따라 다양하며 유사한 개념의 용어로는 'emerging issues', 'seeds of change', 'wild cards', 'early indicator' 또는 'early warning signal' 등이 사용되고 있다.
위크시그널에 대한 연구는 기술의 미래를 연구하는데 있어 중요한 단초를 좀 더 먼저 제공한다는 점에서 중요성을 인식할 수 있으나, 그 개념부터 탐색 방법, 활용 분야에 이르기까지 길지 않은 역사를 가진 분야로 더욱 심도 깊은 연구가 요구되고 있다.
그런데, 종래기술에 따른 위크시그널 탐색은 전문가의 통찰력에 주로 의존하고 있어, 신뢰성과 객관성이 문제가 되고 있으며, 데이터를 기반으로 계량정보분석 기법을 활용할 경우 정형화된 데이터만을 대상으로 함에 따라 매주 제한적인 분석만이 가능하다는 한계가 있었다.
또한, 최근 폭발적으로 증가하여 그 비중이 높아지고 있는 비정형 데이터를 대상으로 하여 위크시그널을 분석하는 기술은 지원하지 않는다는 문제가 있었다.
한국특허공개 제10-2013-0077751호: 데이터처리방법, 데이터처리장치, 데이터수집방법, 및 정보제공방법
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 정형 데이터는 물론 비정형 데이터까지 포함하는 빅데이터를 대상으로 수집, 저장 및 분석과정을 자동으로 수행하여 위크시그널을 계량적으로 분석할 수 있는 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법을 제공하는데 그 기술적 과제가 있다.
상술한 과제를 해결하기 위한 본 발명의 일 측면에 따르면, 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 상기 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 상기 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 상기 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 상기 통계값에 따라 위크시그널을 출력하는 데이터 분석 모듈을 포함하는 빅데이터 분석 기반의 위크시그널 도출 시스템이 제공된다.
여기서, 상기 데이터 분석 모듈은, 상기 형태소 분석 데이터를 저장하는 분산 파일 시스템; 상기 분산 파일 시스템에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하는 데이터 처리부; 및 상기 데이터 처리부가 제공하는 가상화 데이터베이스 인터페이스를 통해 통계분석 알고리즘을 실행하여, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 통계 분석부를 포함할 수 있다.
그리고, 상기 통계 분석부는, 상기 통계 분석부는 상기 연도별 출현건수(instance frequencies) 및 단어-단어간 동시 발생건수에 기초하여 단어 별 발생건수 증가율을 산출할 수 있다.
또한, 상기 통계 분석부는, 상기 연도별 출현건수(instance frequencies)를 연도별 문서수로 나누어 문서당 상기 단어들의 연도별 출현 빈도수를 표준화하여 상기 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 산출할 수 있다.
또한, 상기 통계 분석부는, 상기 단어-단어간 동시발생건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 산출하고, 상기 표준화된 단어 별 출현 빈도수 증가율 및 상기 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 위크시그널로 도출할 수 있다.
한편, 상기 데이터 수집 모듈은, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 측면에 따르면, (A) 데이터 수집 모듈이 기 설정된 수집 기준에 따라 네트워크를 통해 빅데이터를 수집하여 저장하는 단계; (B) 형태소 분석 모듈이 상기 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 단계; (C) 데이터 분석 모듈이 상기 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하는 단계; 및 (D) 상기 데이터 분석 모듈이 상기 통계값에 따라 위크시그널을 출력하는 단계를 포함하는 빅데이터 분석 기반의 위크시그널 도출 방법이 제공된다.
여기서, 상기 (A) 단계는, 수집 관리 모듈이 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 단계를 포함할 수 있다.
또한, 상기 (A) 단계는, 상기 데이터 수집 모듈이, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집할 수 있다.
그리고, 상기 (C) 단계는, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 단계를 포함할 수 있다.
본 발명의 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법은, 빅데이터를 대상으로 수집, 저장 및 분석과정을 자동으로 수행하여 위크시그널을 계량적으로 분석할 수 있다.
또한, 본 발명의 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법은, 빅데이터로부터 위크시그널을 계량적으로 분석함으로써 미래에 발생 가능한 이상 징후를 발견하여 기술 및 시장에서의 변화를 예측할 수 있다.
도 1은 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템의 네트워크 접속 상태도
도 2는 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템의 제어 블럭도
도 3은 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 방법의 흐름도
도 4는 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템을 사용한 단어-단어간 동시 발생건수를 매트릭스 형태로 나타낸 도면
도 5는 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템을 사용한 단어 별 연결 정도 중심성 증가율을 나타낸 도면
도 6은 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템의 단어의 출현건수 증가율과 연결 정도 중심성 증가율의 관계를 도시한 도면
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다. 첨부 도면을 참조하여 설명함에 있어 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템(200)의 네트워크 접속 상태도이다.
도 1에 도시된 바와 같이 이용자 단말(10)은 네트워크를 통해 서비스 서버(100)에 접속하여 문서 데이터를 작성하고, 서비스 서버(100)는 이용자 단말(10)이 제공하는 문서 데이터를 저장 및 게시한다. 여기서, 서비스 서버(100)는 SNS, 블로그, 카페, 뉴스 서비스 등, 데이터를 저장 및 게시할 수 있는 다양한 서비스 서버(100)를 적용할 수 있다.
위크시그널 도출 시스템(200)은 각 서비스 서버(100)를 데이터 소스로 활용하여 정형 및 비정형 데이터를 포함하는 빅데이터를 수집하고 수집된 데이터를 분석 및 가공하여 위크시그널을 도출할 수 있다.
여기서, 빅데이터는 기존의 데이터베이스 기술로 처리, 분석할 수 있는 범위를 초과하는 규모의 데이터로서, 금융/유통 분야의 거래정보, 통신/방송 분야의 시청률 및 로그정보, 미디어 분야의 소셜 미디어 데이터, 제조 분야의 센서 및 운영 데이터 등의 다양한 종류의 데이터가 빅데이터에 포함될 수 있다.
빅데이터를 구분하는 중요한 기준으로는 데이터의 정형성(structuralization)을 들 수 있다. 먼저, 정형(structured) 데이터는 고정된 필드에 지정된 수치 혹은 기호 데이터를 일컫는데 관계형 데이터베이스 및 스프레드시트 등으로 관리하는 일반적인 데이터이다. 두 번째로 반정형(semi-structured) 데이터는 고정된 필드에 지정되어 있지는 않으나, 메타데이터 및 스키마 등에 의해서 관리되는 데이터로 XML 혹은 HTML 텍스트 데이터가 그 예이다. 마지막으로 비정형(unstructured) 데이터는 어떠한 고정된 필드나 스키마가 존재하지 않는 데이터로서 일반 텍스트 문서 및 이미지, 동영상, 음성, GPS, GIS, 센서, M2M 데이터 등을 포함할 수 있다.
도 2는 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템(200)의 제어 블럭도이다.
도 2에 도시된 바와 같이, 위크시그널 도출 시스템(200)은, 데이터 소스 모듈(210), 데이터 수집 모듈(220), 수집 관리 모듈(230), 저장 어댑터 모듈(240), 데이터베이스 모듈(250), 형태소 분석 모듈(260), 데이터 분석 모듈(270)을 포함한다.
데이터 소스 모듈(210)은 SNS, 블로그, 카페, 뉴스 서비스 등, 데이터를 저장 및 게시할 수 있는 다양한 서비스 서버(100)를 포함한다.
수집 관리 모듈(230)은 데이터 수집 모듈(220) 측에 데이터 수집 기준을 설정한다. 수집 관리 모듈(230)은 데이터 수집 모듈(220)의 수집 대상 데이터 소스 모듈(210), 수집 대상 키워드 및 수집 대상 기간 등의 수집 기준을 제공한다.
또한, 수집 관리 모듈(230)은 사용자로부터의 요청에 따라, 데이터 수집 모듈(220)의 동작을 지시할 수 있다. 수집 관리 모듈(230)은 데이터 수집에 필요한 대상 모듈, 키워드, 기간 등 여러 가지 기준들을 설정할 수 있고 데이터 수집 모듈(220)에 실행 시기 및 방법을 지시할 수 있다. 데이터 수집 모듈(220)에 의하여 병렬 수집된 데이터들을 저장 어댑터 모듈(240)을 통해서 데이터베이스 모듈(250)의 특정 영역에 저장되도록 지시할 수 있다.
데이터 수집 모듈(220)은 수집 관리 모듈(230)에서 제공한 수집 기준에 따라 데이터 소스 모듈(210)로부터 데이터를 수집하여 데이터베이스 모듈(250)의 특정 영역에 저장한다.
데이터 수집 모듈(220)은 SNS, 뉴스, 카페, 블로그 등의 각 데이터 소스 모듈(210)의 구조에 따라 정해진 영역의 데이터를 수집할 수 있다. 데이터 수집 모듈(220)은 수집 관리 모듈(230)로부터 수신된 수집 기준에 부합되는 데이터 소스 모듈(210)의 각종 뉴스, 트윗, 블로그 및 카페 등의 게시 데이터를 기간별, 미디어별, 키워드별 세분화 분산 수집하는 것이 가능하다. 데이터 수집 모듈(220)을 통해 수집된 데이터는 일반 텍스트 문서 및 이미지, 동영상, 음성, GPS, GIS, 센서, M2M 데이터 등과 같은 비정형(unstructured) 데이터를 포함할 수 있다.
이러한, 데이터 수집 모듈(220)은 다수의 시스템과 연계하여 병렬 처리방식(parallel processing) 방식으로 데이터를 수집할 수 있으며, 기존의 수집된 데이터를 변환 수집하거나 수집기(crawler)를 이용하여 온라인상의 데이터를 수집할 수 있다. 데이터 소스 모듈(210)은 데이터 소스 모듈(210)로부터 수집된, 소셜 미디어 데이터, 온라인 뉴스, 포털 사이트 카페 및 블로그 게시글 등의 데이터를 저장 어댑터 모듈(240)을 통해 데이터베이스 모듈(250)에 전송한다.저장 어댑터 모듈(240)은 데이터베이스 모듈(250)에 대한 접속 기능을 이용하여 데이터 수집 모듈(220)로부터 수신한 데이터를 데이터베이스 모듈(250)로 전송한다.
데이터베이스 모듈(250)에는 데이터 수집 모듈(220)에서 수집된 데이터가 저장된다. 데이터베이스 모듈(250)은 처리 성능을 확보하기 위해 다수의 서버에서 운영될 수 있는 분산 병렬처리 환경으로 구성되어 있으며 저장 어댑터 모듈(240)로부터 수신한 데이터를 각 데이터베이스로 분산하여 저장할 수 있다.
형태소 분석 모듈(260)은 데이터베이스 모듈(250)에 저장된 원본 데이터를 형태소 분석 프로그램을 이용하여 형태소 별로 구분하여 형태소 분석 데이터를 생성한 후, 생성된 형태소 분석 데이터를 다시 데이터베이스 모듈(250)에 전송 및 저장한다. 데이터베이스 모듈(250)에 저장된 원본 데이터는, 소셜 미디어 데이터, 온라인 뉴스, 포털 사이트 카페 및 블로그 게시글 등을 포함할 수 있다.
데이터 분석 모듈(270)은 통계 분석부(272), 데이터 처리부(274) 및 분산 파일 시스템(276)을 포함한다.
분산 파일 시스템(276)은 데이터베이스 모듈(250)에 저장되어 있는 형태소 분석 데이터를 읽어 들여 대용량 데이터 처리가 가능한 분산 파일 시스템(276)에 저장한다.
데이터 처리부(274)은 분산 파일 시스템(276)에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공한다. SQL은 데이터베이스에서 데이터를 조작하거나 접근할 수 있게 하는 일반적인 언어이다.
통계 분석부(272)는 데이터 처리부(274)이 제공하는 가상화 데이터베이스 인터페이스를 통해, 분산 파일 시스템(276)에 저장되어 있는 형태소 분석 데이터에 대한 분산 병렬 처리 기반의 여러 가지 통계분석 알고리즘을 구현하고 실행한다. 여기서, 적용되는 통계 분석 알고리즘은 기술 및 시장 예측을 위한 모형에 활용되는 지표를 산출하기 위한 것으로서, 기술 및 시장 예측 모형은 기존의 Fisher-Pry 모형, Bass 모형, TAM(technology acceptance model) 등의 모형을 적용할 수 있으며, 상황에 따라 개량, 보완 또는 개발된 모형을 사용하여 연계할 수 있다.
통계 분석부(272)는 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 변수로 지표화하여 사용할 수 있다.
통계 분석부(272)는 추출된 단어에 대한 연도별 출현빈도수(instance frequencies)로부터 단어 별 출현 빈도수의 증가율을 분석할 수 있다. 또한, 통계 분석부(272)는 연도별 출현빈도수(instance frequencies)를 연도별 해당 문서 수로 나누어 문서당 해당 단어들의 연도별 출현 빈도수를 표준화하여 해당 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 분석할 수 있다. 이러한 단어 별 출현건수의 증가율을 측정함으로써 평균 출현건수의 증가율에서 벗어나는 변화를 감지할 수 있다.
또한, 통계 분석부(272)는 단어-단어 간 동시 출현 건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 분석할 수 있다.
도 4는 단어-단어 간 동시 발생건수를 매트릭스 형태로 나타낸 도면이고, 도 5는 단어 별 연결 정도 중심성 증가율을 나타낸 도면이다.
도 4 및 도 5에 도시한 바와 같이, 단어-단어 간의 관계를 시계열로 분석함으로써 시간에 따라 어떠한 단어가 다른 단어와의 관계가 많아지는지 알 수 있고, 이것이 평균값에 비해 차이가 많이 날 경우 변화의 징후로 판단할 수 있다.
단어 별 연결 정도 중심성 증가율을 평가하기 위하여, 단어 간의 사회연결망(SNA) 분석을 수행하여 중심성 지수의 변화를 측정할 수 있다.
사회연결망 분석을 이용하면, 노드(node)는 측정대상 '단어'에 해당되고, 사건(event)은 각각의 기사로 볼 수 있으며, 연결(link)은 기사를 구성하고 있는 단어들과 사건의 관계로 볼 수 있다. 즉, 사회연결망 분석방법에서, 어떤 노드(단어)와 다른 노드(단어)와의 관계는 두 단어가 같은 기사에 동시에 존재하면 관계가 있고 연결되었다고 판단되는 것이다.
중심성(centrality) 분석은 특정한 노드가 네트워크에서 얼마나 중심에 위치하는지에 대한 정도를 측정하는 방법이다. 특히, 연결 정도 중심성(degree centrality) 분석이란 특정 노드에 연결된 연결선을 측정하여 네트워크에서 얼마나 중심에 위치하는지를 측정하는 것으로 내향중심성(in-degree centrality)과 외향중심성(out-degreecentrality)으로 측정한다. 네트워크의 노드들이 특정 노드와 연결되는 빈도가 높을수록 중심성이 높다는 개념이다.
통계 분석부(272)는 표준화된 단어 별 출현 빈도수 증가율 및 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 위크시그널로 판단할 수 있다.
도 6은 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 시스템(200)의 단어의 출현건수 증가율과 연결 정도 중심성 증가율의 관계를 도시한 도면이다.
도 6에 도시한 바와 같이, 중심에 분포한 단어군은 거시적인 동향을 나타내며, 중심에서 벗어난 정도가 높은 단어군은 변화의 징후를 나타내는 위크시그널을 의미한다. 따라서, 통계 분석부(272)는 출현건수 증가율 및 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 위크시그널로 판단할 수 있다. 즉, 통계 분석부(272)는 추출된 단어들의 연도별 출현 빈도수 및 연도별 출현 빈도수로부터 가공된 값들 중 적어도 하나 이상을 변수로 하는 분석방법으로 계량 분석하여, 특정 단어들이 기 설정된 판단 조건에 해당하면 위크시그널로 판단할 수 있다.
도 3은 본 발명의 실시예에 따른 빅데이터 분석 기반의 위크시그널 도출 방법의 흐름도이다.
데이터 수집 모듈(220)은 기 설정된 기준에 따라 네트워크 상의 데이터를 수집하여 데이터베이스 모듈(250)에 저장한다(S110). 데이터 수집 모듈(220)은 수집 관리 모듈(230)에서 제공한 수집 기준에 따라 뉴스, 트윗, 블로그 및 카페 등의 게시 데이터를 기간별, 미디어별, 키워드 별로 세분화하여 분산 수집하는 것이 가능하다.
형태소 분석 모듈(260)은 수집된 데이터의 형태소 데이터를 분석하여 형태소 분석 데이터를 데이터베이스 모듈(250)에 저장한다(S112). 형태소 분석 모듈(260)은 데이터베이스 모듈(250)에 저장된 소셜 미디어 데이터, 온라인 뉴스, 포털 사이트 카페 및 블로그 게시글 등의 데이터를 형태소 분석 프로그램을 이용하여 형태소 별로 구분하며 그 결과를 다시 데이터베이스 모듈(250)에 저장한다.
형태소 분석 데이터를 대용량 데이터 처리가 가능한 분산 파일 시스템(276)에 저장한다(S114). 데이터 분석 모듈(270)은 데이터베이스 모듈(250)에 저장된 형태소 분석 결과를 분산 파일 시스템(276)으로 읽어 들여 저장한다.
분산 파일 시스템(276)에 저장된 형태소 분석 데이터를 통계 분석부(272)에서 통계적인 방법으로 분석한다(S116). 데이터 분석 모듈(270)의 통계 분석부(272)는 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 변수로 지표화하여 사용할 수 있다. 또한, 통계 분석부(272)는 추출된 단어에 대한 연도별 출현빈도수(instance frequencies)로부터 단어 별 출현 빈도수의 증가율을 분석할 수 있다.
또한, 통계 분석부(272)는 연도별 출현빈도수(instance frequencies)를 연도별 해당 문서 수로 나누어 문서당 해당 단어들의 연도별 출현 빈도수를 표준화하여 해당 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 분석할 수 있다. 이러한 단어 별 출현건수의 증가율을 측정함으로써 평균 출현건수의 증가율에서 벗어나는 변화를 감지할 수 있다. 또한, 통계 분석부(272)는 단어-단어 간 동시 출현 건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 분석할 수 있다.
통계 분석부(272)는 분석결과에 따라 위크시그널을 도출한다(S118). 통계 분석부(272)는 표준화된 단어 별 출현 빈도수 증가율 및 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 위크시그널로 판단할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 정형 데이터는 물론 비정형 데이터까지 포함하는 빅데이터를 대상으로 수집, 저장 및 분석과정을 자동으로 수행하여 위크시그널을 계량적으로 분석할 수 있는 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법을 제공하는 데에 이용될 수 있다.
10 : 이용자 단말 100 : 서비스 서버
200 : 위크시그널 도출 시스템 210 : 데이터 소스 모듈
220 : 데이터 수집 모듈 230 : 수집 관리 모듈
240 : 저장 어댑터 모듈 250 : 데이터베이스 모듈
260 : 형태소 분석 모듈 270 : 데이터 분석 모듈
272 : 통계 데이터 분석부 274 : 데이터 처리부
276 : 분산 파일 시스템

Claims (10)

  1. 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;
    상기 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;
    상기 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및
    상기 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하고, 상기 가상화 데이터베이스 인터페이스를 통해 상기 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 상기 통계값에 따라 위크시그널을 출력하는 데이터 분석 모듈을 포함하되,
    상기 통계 분석 알고리즘은 기술 및 시장 예측 모형에 활용되는 지표를 산출하기 위한 알고리즘인 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 시스템.
  2. 제1항에 있어서,
    상기 데이터 분석 모듈은,
    상기 형태소 분석 데이터를 저장하는 분산 파일 시스템;
    상기 분산 파일 시스템에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하는 데이터 처리부; 및
    상기 데이터 처리부가 제공하는 가상화 데이터베이스 인터페이스를 통해 통계분석 알고리즘을 실행하여, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출현 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 통계 분석부를 포함하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 시스템.
  3. 제2항에 있어서,
    상기 통계 분석부는,
    상기 통계 분석부는 상기 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수에 기초하여 단어 별 출현 빈도수 증가율을 산출하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 시스템.
  4. 제3항에 있어서,
    상기 통계 분석부는,
    상기 연도별 출현빈도수(instance frequencies)를 연도별 문서수로 나누어 문서당 상기 단어들의 연도별 출현 빈도수를 표준화하여 상기 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 산출하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 시스템.
  5. 제4항에 있어서,
    상기 통계 분석부는,
    단어-단어 간 동시 출현 건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 산출하고, 상기 표준화된 단어 별 출현 빈도수 증가율 및 상기 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 위크시그널로 도출하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 시스템.
  6. 제1항에 있어서,
    상기 데이터 수집 모듈은,
    이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 시스템.
  7. (A) 데이터 수집 모듈이 기 설정된 수집 기준에 따라 네트워크를 통해 빅데이터를 수집하여 저장하는 단계;
    (B) 형태소 분석 모듈이 상기 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 단계;
    (C) 데이터 분석 모듈이 상기 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하고, 상기 가상화 데이터베이스 인터페이스를 통해 상기 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하는 단계; 및
    (D) 상기 데이터 분석 모듈이 상기 통계값에 따라 위크시그널을 출력하는 단계를 포함하되,
    상기 통계 분석 알고리즘은 기술 및 시장 예측 모형에 활용되는 지표를 산출하기 위한 알고리즘인 것을 특징으로 빅데이터 분석 기반의 위크시그널 도출 방법.
  8. 제7항에 있어서,
    상기 (A) 단계는,
    수집 관리 모듈이 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 단계를 포함하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 방법.
  9. 제7항에 있어서,
    상기 (A) 단계는,
    상기 데이터 수집 모듈이, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 방법.
  10. 제7항에 있어서,
    상기 (C) 단계는,
    상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출현 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 단계를 포함하는 것을 특징으로 하는 빅데이터 분석 기반의 위크시그널 도출 방법.
KR1020130140531A 2013-11-19 2013-11-19 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법 KR101611166B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130140531A KR101611166B1 (ko) 2013-11-19 2013-11-19 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130140531A KR101611166B1 (ko) 2013-11-19 2013-11-19 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20150057322A KR20150057322A (ko) 2015-05-28
KR101611166B1 true KR101611166B1 (ko) 2016-04-11

Family

ID=53392210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130140531A KR101611166B1 (ko) 2013-11-19 2013-11-19 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101611166B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102375962B1 (ko) * 2021-11-24 2022-03-18 박경진 유저중심의 학습공간 매칭 통합관리 시스템
KR102382741B1 (ko) * 2021-09-16 2022-04-11 김윤환 골프 연습장 무인 관리 시스템
KR102496970B1 (ko) * 2021-11-24 2023-02-07 주식회사 멍이마켓 Ai를 기반으로 한 반려동물 자동 배차 시스템

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101773910B1 (ko) * 2016-02-24 2017-09-01 주식회사 케이앤컴퍼니 위치 기반 빅데이터 시스템
CN110032672A (zh) * 2019-04-03 2019-07-19 湖南科技学院 一种基于大数据的计算机数据分析管理系统
KR102112846B1 (ko) * 2019-12-17 2020-05-19 서울특별시 서초구 서초 스마트 시니어 키오스크 교육시스템
KR102182722B1 (ko) * 2020-01-21 2020-11-24 주식회사 병원어디가 병원 인력 매칭 시스템 및 전문인력 4시간 단위 파견대행 서비스
CN112069036B (zh) * 2020-11-10 2021-09-03 南京信易达计算技术有限公司 基于集群计算的管理与监控系统
KR102344075B1 (ko) * 2021-07-08 2021-12-29 이인익 데이터 마이닝기반 온라인 마케팅 플랫폼
KR102333492B1 (ko) * 2021-07-16 2021-12-01 주식회사 엔터즈컴퍼니 미디어 기반의 챗봇 서비스 제공 시스템
KR102355787B1 (ko) * 2021-07-26 2022-02-08 해봄테크 주식회사 화면 요구사항 수집 및 절차 관리 방법
KR102355791B1 (ko) * 2021-07-26 2022-02-08 해봄테크 주식회사 화면 요구사항 스펙 작성 도구
KR102334255B1 (ko) * 2021-08-31 2021-12-02 (주)네오플로우 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
KR102334236B1 (ko) * 2021-08-31 2021-12-02 (주)네오플로우 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR102375955B1 (ko) * 2021-11-24 2022-03-18 케이디시스 주식회사 보안성이 향상된 데이터 백업 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101418744B1 (ko) 2013-06-24 2014-07-11 한국과학기술정보연구원 위크 시그널 탐색 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101418744B1 (ko) 2013-06-24 2014-07-11 한국과학기술정보연구원 위크 시그널 탐색 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
유선희 외 2명. "계량정보분석을 활용한 기술혁신의 Weak Signal 탐색에 관한 연구". 기술경영경제학회 <기술혁신연구> 17권 2호, 2009.*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102382741B1 (ko) * 2021-09-16 2022-04-11 김윤환 골프 연습장 무인 관리 시스템
KR102375962B1 (ko) * 2021-11-24 2022-03-18 박경진 유저중심의 학습공간 매칭 통합관리 시스템
KR102496970B1 (ko) * 2021-11-24 2023-02-07 주식회사 멍이마켓 Ai를 기반으로 한 반려동물 자동 배차 시스템

Also Published As

Publication number Publication date
KR20150057322A (ko) 2015-05-28

Similar Documents

Publication Publication Date Title
KR101611166B1 (ko) 빅데이터 분석 기반의 위크시그널 도출 시스템 및 그 방법
Mehmood et al. Implementing big data lake for heterogeneous data sources
US20210256047A1 (en) System and method for providing technology assisted data review with optimizing features
Culotta Towards detecting influenza epidemics by analyzing Twitter messages
CN109388637B (zh) 数据仓库信息处理方法、装置、系统、介质
US8442863B2 (en) Real-time-ready behavioral targeting in a large-scale advertisement system
JP5715261B2 (ja) 時系列データ管理システム,および方法
Zhang et al. Data quality management in the internet of things
CN104951539A (zh) 互联网数据中心有害信息监测系统
CN107862022A (zh) 文化资源推荐系统
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN104756106A (zh) 表征数据存储系统中的数据源
US20190073406A1 (en) Processing of computer log messages for visualization and retrieval
CN106021583B (zh) 页面流量数据的统计方法及其系统
RU2716029C1 (ru) Система мониторинга качества и процессов на базе машинного обучения
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
US11550937B2 (en) Privacy trustworthiness based API access
KR101982756B1 (ko) 분산인메모리기반 복합형스트림 데이터처리시스템 및 방법
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
Egri et al. Cross-correlation based clustering and dimension reduction of multivariate time series
Lehmann et al. Big Data architecture for intelligent maintenance: a focus on query processing and machine learning algorithms
Diván et al. Process view for a data stream processing strategy based on measurement metadata
Diaconita Processing unstructured documents and social media using Big Data techniques
US11954945B2 (en) Systems and methods for analyzing machine performance
CN114518988B (zh) 资源容量系统及其控制方法和计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant