KR102396413B1 - 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템 - Google Patents

빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템 Download PDF

Info

Publication number
KR102396413B1
KR102396413B1 KR1020200077721A KR20200077721A KR102396413B1 KR 102396413 B1 KR102396413 B1 KR 102396413B1 KR 1020200077721 A KR1020200077721 A KR 1020200077721A KR 20200077721 A KR20200077721 A KR 20200077721A KR 102396413 B1 KR102396413 B1 KR 102396413B1
Authority
KR
South Korea
Prior art keywords
data
analysis
social
big data
server
Prior art date
Application number
KR1020200077721A
Other languages
English (en)
Other versions
KR20220000436A (ko
Inventor
윤성종
Original Assignee
윤성종
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤성종 filed Critical 윤성종
Priority to KR1020200077721A priority Critical patent/KR102396413B1/ko
Publication of KR20220000436A publication Critical patent/KR20220000436A/ko
Application granted granted Critical
Publication of KR102396413B1 publication Critical patent/KR102396413B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템은 인공지능을 기반으로 실시간으로 빅데이터를 분석하여 유의미한 데이터들을 추출 및 분석하고, 분석 결과에 대한 통합 보고서를 자동 생성하여 제공하기 위한 기술에 관한 것이다.
본 발명의 일측면에 따르면, 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템은 온라인을 통해 지속적으로 소셜 데이터를 실시간 수집하는 데이터 수집서버, 상기 데이터 수집서버를 통해 수집된 각종 소셜 데이터들을 이용하여 데이터베이스(DB)를 구축하고 저장, 관리하는 데이터 저장서버, 특정 검색어에 대하여 감성분석, 유의미한 키워드 추출, 버즈량 예측, 화제어 추출 및 데이터 정제 분석을 수행하는 데이터 분석서버 및 상기 데이터 분석서버를 통해 분석된 결과 정보들을 이용하여 분석보고서를 자동으로 생성하여 온라인 웹을 통해 사용자에게 제공하는 분석보고서 제공서버를 포함하여 구성되며, 상기 데이터 분석서버는 인공지능(AI)을 기반으로 하는 것을 특징으로 한다.

Description

빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템{SOCIAL BIG DATA ANALYSIS REPORT AUTOMATIC PROVISION SYSTEM USING BIG DATA AND ARTIFICIAL INTELLIGENCE}
본 발명에 따른 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템은 인공지능을 기반으로 실시간으로 빅데이터를 분석하여 유의미한 데이터들을 추출 및 분석하고, 분석 결과에 대한 통합 보고서를 자동 생성하여 제공하기 위한 기술에 관한 것이다.
최근 빅데이터와 인공지능의 발전은 사회 전반에 걸쳐, 데이터를 활용한 의사 결정이 매우 중요한 화두로 떠오르고 있다. 이러한 이유로 많은 기업과 기관을 중심으로 기업과 상품 브랜드 및 기관에 대한 여론 동향을 파악하고 의사결정에 활용하기 위해 소셜 미디어 분석을 적극적으로 활용하는 것이 요구되고 있는 실정이다.
한편 현재의 빅데이터 관련 업체들에서는 자체적으로 빅데이터 수집 및 분석 솔루션을 보유하고 있지 않기 때문에, 빅데이터를 활용한 컨설팅에 분명한 한계가 있었고, 이러한 한계는 급변하는 시장 환경에서 고객의 분석 니즈를 일정 수준 충족시키기에 어려움을 느끼고 있다.
즉, 현재까지 국내의 소셜 빅데이터 분석 기술 중, 대량의 데이터에서 실시간으로 분석 결과를 제공할 수 있는 솔루션 기술은 거의 전무한 수준이며, 때문에 대부분의 빅데이터 분석 회사들은 역으로 문의업체에게서 몇 가지의 키워드를 받은 후에, 데이터를 모으고 분석을 진행하고 있으나, 이러한 경우에는 데이터 분석의 자유도가 떨어지고, 예측을 기반으로 한 한정된 데이터에서 분석을 진행하다 보니, 인위적인 해석이 들어갈 때가 많다는 단점이 있다.
또한, 기존 소셜 빅데이터 솔루션 업체들은 대부분 SI 회사 또는 개발 회사가 보유기술을 바탕으로 사업 영역을 컨설팅까지 확장한 경우가 대부분이기 때문에, 개발자 중심으로 빠르게 데이터를 처리하고 결과를 도출하는 데에 신경을 쓰다 보니, 정작 데이터를 분석만 해야 하는 분석 인력들이 부정확하거나 불필요한 데이터들을 가려내는 데이터 재정제 작업에 분석보다 더 많은 시간을 사용하게 된다.
이와 같이 전문 인력 없이는 분석 보고서 작성이 불가하기 때문에 분석 보고서 작성을 위해서는 비싼 컨설팅 비용이 발생되고 나아가 고객에게 부담을 주게 되어, 일반 기업들이 소셜 빅데이터를 활용하여 컨설팅을 받는 것은 현실적으로 어렵다는 문제점이 있다.
한편, 현재까지 개발된 빅데이터 분석 보고서 자동 생성 기술은, 분석 방법과 보고서 템플릿만이 미리 설정되어, 분석 결과에 관계없이 분석된 내용이 모두 보고서로 출력되어 필요치 않은 과도하게 많은 양의 보고서가 생성된다는 단점이 있다.
또한, 수요자가 분석된 보고서를 확인 후, 분석 결과에 따라 필요로 하는 정보 종류만을 별도로 설정하여 보고서의 내용을 변경하고자 하면, 다른 복잡한 보고서 생성 프로그램을 별도로 마련해야 한다는 문제가 있다.
이러한 문제점을 해결하기 위해, 현재 한국등록특허 제10-2022944호의 빅데이터 분석 보고서를 자동으로 생성하는 방법 및 이를 수행하는 장치에서와 같이, 분석 결과에 대해 중요도를 계산하고, 중요도가 높은 순서에 따라 보고서에 포함될 분석 결과를 채택하여, 이를 기반으로 보고서가 작성됨으로써, 수요자가 필요로 하는 정보만이 포함된 빅데이터 분석 보고서가 신속하고 정확하게 자동 생성될 수 있도록 하는 기술이 개발되어 있다.
그러나, 이와 같은 빅데이터 분석 보고서 자동 생성 기술은 데이터 간 상호 계층 관계 또는 연관 관계를 형성하여 중요도 순위 산출을 이용한 단순 통계적인 접근을 통해 분석보고서를 생성하고 있는 바, 중요도 순위를 산출하기 위한 분석데이터 수집시, 별도의 빅데이터 정보의 정제화가 수행되지 않고 있어, 불필요한 데이터가 분석데이터에 포함되어 그 분석 신뢰도가 떨어지는 문제가 발생할 수 있다.
따라서, 인공지능을 기반으로 하여 실시간 빅데이터 수집, 재가공 및 분석을 수행하여, 데이터 처리에 들어가는 인적, 시간적 낭비를 줄이면서도 데이터의 신뢰도 및 정확도를 높이고, 소셜 빅데이터의 분석 결과에 대한 보고서를 자동으로 작성하여 제공할 수 있는 시스템 기술 개발이 요구된다.
한국등록특허 제10-2022944호
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로 주기적으로 데이터 크롤링을 통해 블로그와 커뮤니티 등의 소셜데이터들에서 분석데이터를 수집하고, 중복 정보, 광고 등의 불필요한 정보를 필터링하여 이슈키워드와 연관성 높은 데이터만을 선별적으로 수집함으로써, 분석 데이터의 신뢰도를 높이고자 한다.
특히, 인공지능을 기반으로 하여 수집된 소셜미디어 기반 데이터들을 정제화하고, 정제된 데이터를 활용해 정형화된 통합분석 보고서 형태로 자동 작성하여 사용자에게 제공하는 것을 목적으로 한다.
본 발명의 일측면에 따르면, 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템은 온라인을 통해 지속적으로 소셜 데이터를 실시간 수집하는 데이터 수집서버, 상기 데이터 수집서버를 통해 수집된 각종 소셜 데이터들을 이용하여 데이터베이스(DB)를 구축하고 저장, 관리하는 데이터 저장서버, 특정 검색어에 대하여 감성분석, 유의미한 키워드 추출, 버즈량 예측, 화제어 추출 및 데이터 정제 분석을 수행하는 데이터 분석서버 및 상기 데이터 분석서버를 통해 분석된 결과 정보들을 이용하여 분석보고서를 자동으로 생성하여 온라인 웹을 통해 사용자에게 제공하는 분석보고서 제공서버를 포함하여 구성되며, 상기 데이터 분석서버는 인공지능(AI)을 기반으로 하는 것을 특징으로 한다.
본 발명에 따른 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템은 소셜 빅데이터 분석에 있어 가장 시간이 오래 소요되는 데이터 전처리 및 분석 보고서작성 과정을 인공지능을 통해서 유의미한 데이터들을 추출한 후, 추출된 데이터를 기초로 자동적으로 분석 보고서를 작성하여 제공할 수 있도록 함으로써, 소셜 빅데이터의 분석을 더욱 정확하고 신속하게 수행할 수 있는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템의 구성을 보여주는 시스템도.
도 2는 본 발명의 일실시예에 따른 데이터 분석서버의 감성분석 과정을 설명하기 위한 도면.
도 3은 본 발명의 일실시예에 따른 데이터 분석서버의 유의미한 키워드 추출 과정을 설명하기 위한 도면.
도 4는 본 발명의 일실시예에 따른 데이터 분석서버의 버즈량 예측 과정을 설명하기 위한 도면.
도 5는 본 발명의 일실시예에 따른 데이터 분석서버의 화제어 추출 과정을 설명하기 위한 도면.
도 6은 본 발명의 일실시예에 따른 데이터 분석서버의 데이터 정제 과정을 설명하기 위한 도면.
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템의 구성을 보여주는 시스템도이며, 도 2는 본 발명의 일실시예에 따른 데이터 분석서버의 감성분석 과정을 설명하기 위한 도면이며, 도 3은 본 발명의 일실시예에 따른 데이터 분석서버의 유의미한 키워드 추출 과정을 설명하기 위한 도면이며, 도 4는 본 발명의 일실시예에 따른 데이터 분석서버의 버즈량 예측 과정을 설명하기 위한 도면이며, 도 5는 본 발명의 일실시예에 따른 데이터 분석서버의 화제어 추출 과정을 설명하기 위한 도면이며, 도 6은 본 발명의 일실시예에 따른 데이터 분석서버의 데이터 정제 과정을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템(100)은 데이터 수집서버(110), 데이터 저장서버(120), 데이터 분석서버(130) 및 분석보고서 제공서버(140)로 구성된다.
데이터 수집서버(110)는 수집 모듈(111) 및 관리 모듈(113)을 포함하여 이루어지며 온라인을 통해 지속적으로 소셜 데이터를 실시간 수집하는 역할을 수행한다.
수집 모듈(111)은 소셜 네트워크를 통한 온라인 웹 상에서 검색어에 대한 소셜 데이터를 수집하고, 관리모듈(113)은 기설정된 주기에 따라 수집된 소셜 데이터를 관리한다.
즉, 데이터 수집 서버(110)는 블로그 커뮤니티 등의 SNS 웹페이지 상에서 실시간으로 크롤링(crawling) 구동을 통해 지속적으로 소셜 데이터를 수집함으로써, 소셜 데이터를 제공하는 사이트의 갑작스런 변경이 발생하더라도 다양한 소셜 데이터를 효율적으로 수집할 수 있어 데이터 수집의 한계를 극복할 수 있는 특징이 있다.
또한, 데이터 수집 서버(110)에는 별도의 정제 모듈(112)이 구비될 수 있으며, 이를 통해 상기 수집 모듈(111)로부터 수집된 소셜 데이터들을 기설정된 정제 프로그램을 통해 노이즈 정보를 제거함으로써 데이터를 정제 및 관리할 수도 있다.
데이터 저장 서버(120)는 상기 데이터 수집서버(110)를 통해 수집된 각종 소셜 데이터들을 이용하여 데이터베이스(DB)를 구축하고 저장, 관리한다. 여기서, 데이터 저장 서버(120)는 온톨로지, 불용어사전 및 연관어 사전을 DB로 구축화하여 저장하고, 상기 수집 모듈(110)을 통해 수집되는 소셜 데이터를 저장한다.
또한, 데이터 저장 서버(120)는 NoSQL에 기반을 둔 데이터베이스일 수 있으며, 데이터 저장 시 json 파일 및 pandas 파일 형태로 저장할 수 있다.
데이터 분석서버(130)는 인공지능(AI)을 기반으로 하여 입력되는 특정 검색어에 대하여 감성분석, 유의미한 키워드 추출, 버즈량 예측, 화제어 추출 및 데이터 정제 분석을 수행할 수 있다.
도 2를 참조하면, 데이터 분석서버(130)는 감성 분석 시, 수집된 소셜 데이터를 가져와서 자연어처리 기반으로 형태소 분석을 하여 품사별로 태깅을 하고, 기설정된 신경망 모델을 이용해 텍스트 마이닝(워드 임베딩(word Embedding))하여 LSTM(Long Short Term Memory) 모델을 기반으로 머신러닝 학습을 수행한다.
즉, 기설정된 신경망 모델은 추론기반 기법(Word2Vec)으로, 맥락을 입력하면 모델이 각 단어의 출현 확률을 출력할 수 있으며, 이러한 추론기반 기법(Word2Vec)에서 사용되는 신경망으로는 CBOW 모델과 skip-gram 모델이 있다.
이후, 마지막 레이어에서 완전 연결된(Fully Connected) 데이터를 Softmax 함수 처리를 하여 분류 예측 모델(Binary Clasification)을 수행한 후 그 결과값이 0.5보다 이상이면 예측값을 긍정으로, 0.5보다 이하면 부정으로 출력함으로써 입력 데이터에 대한 긍정/부정 감성을 분석할 수 있다.
도 3을 참조하면, 데이터 분석서버(130)는 유의미한 키워드 추출 시, 소셜 데이터의 문장을 자연어처리를 통해 형태소 분석을 하여, 기설정된 규칙 혹은 머신러닝에 기반한 품사 부착으로 이루어진다.
여기서, 전처리를 통해 보정한 후 자연어처리(NLP, Natural Language Processing) 기반으로 형태소 분석 및 구문 분석을 하며, 특정 키워드간 언급 개수를 카운팅하여, 카운팅 개수가 가장 많은 키워드를 추출함으로써 유의미한 키워드를 추출할 수 있게 된다.
즉, 특정 키워드 간 언급된 개수를 분석하여 키워드간의 연관성을 분석하여, 가장 많은 연관성을 가진 키워드를 기반으로 연관데이터 정보를 관리할 수 있다.
이때, 전처리 과정은 오타, 띄워쓰기 등의 교정 작업이 이루어지며, 자연어 처리 과정은 형태소 분석, 구문 분석, 개체명 분석, 화행 분석, 대화 분석 및 의미 정보 추출 단계를 거쳐 이루어질 수 있다.
형태소 분석은 문장을 구성하는 단어 열들로부터 최소 의미단위인 형태소들을 분리해 내고 각 형태소들의 문법적 기능에 따라 적절한 품사를 부착할 수 있다.
구문 분석은 형태소분석 결과를 기반으로 문장을 이루고 있는 명사구, 동사구, 부사구 등의 구문들을 묶어주는 것 뿐만 아니라, 주어, 술어, 목적어 등과 같은 주요한 문장 구성성분을 밝혀내고 그들 사이의 구문관계를 분석하여 문장의 문법적 구조를 결정할 수 있다.
개체명 분석은 사람, 시간, 날짜, 장소 등 특정한 의미를 가지고 있는 단어를 인식할 수 있다.
화행 분석은 단편적으로는 문장을 구성하는 단어들의 의미를 구분하고, 통합적으로는 문장 구성 성분들 사이의 의미적 관계를 논리적으로 밝혀내어 문장의 전체적 의미를 파악할 수 있다.
대화 분석은 문서단위로 이루어지는 것이 보편적이며, 여러 문장 간의 연관관계 및 전후 문맥을 고려하여 문장간의 의미관계를 분석한다. 이는 전후 문맥을 참조하여 해당 문장에 쓰인 대용어들(이것, 저것)이 구체적으로 가리키는 것을 찾아내는 것 뿐만 아니라 해당 문서 내에서 문장의 의도를 파악할 수 있으며, 의미 정보 추출은 문장에서 의미있는 정보, 유의미한 정보를 추출할 수 있다.
도 4를 참조하면, 데이터 분석서버(130)는 버즈량 예측 시, 버즈량 분석에 필요한 키워드를 입력받아, 소셜 데이터에 언급된 문장을 선별한다.
이후, 선별된 문장의 키워드를 카운팅하여 누적된 데이터의 총갯수를 구하고, Dictionary 기반으로 누적된 버즈량 빈도를 구하여 버즈량 빈도수를 구하여, 시계열적으로 버즈량 빈도수 데이터가 쌓이면 회귀(regresion) 분석을 통해 버즈량 예측값을 구할 수 있다.
도 5를 참조하면, 데이터 분석서버(130)는 화제어 추출 시, 수집된 소셜 데이터를 가져와서 kkma, hannanum, twitter, komoran와 같은 자연어처리 모듈을 통해 형태소를 분석하며, 형태소 분석에서 의미가 없는 불용어나 스탑워드를 필터링하여 제거하고, Counter 객체를 통해 키워드별 개수를 구한다.
이후, Dictionary 기반으로 누적된 키워드의 빈도수를 구하고, 가장 많이 발생한 키워드별로 워드크라우드 형태로 화제어를 보여줄 수 있다.
또한, 시계열적으로 화제어의 누적결과치가 쌓이면 회귀(regresion) 분석을 통해 화재어 예측값을 구할 수 있다.
도 6을 참조하면, 데이터 분석서버(130)는 데이터 정제 분석 시, 전처리를 통해 입력된 소셜 데이터를 교정하고, 토큰화를 통해 NLP 기반으로 형태소를 분석하며, 출현 빈도수가 일정 개수 이상인 주요 키워드를 선별하여 특징값을 추출하여 추출된 특징값을 미리 설정된 학습 알고리즘에 학습시켜 데이터 정제용 모델을 형성한다.
이후, 입력되는 소셜 데이터를 상기 데이터 정제용 모델을 통해 노이즈 데이터 또는 유효 데이터를 분류하여 노이즈 데이터를 삭제할 수 있다.
이때, 데이터 정제용 모델은 기설정된 광고 관련 텍스트 정보, 종교 관련 텍스트 정보 및 상업 관련 텍스트 정보를 포함하는 데이터 정제용 DB를 기반으로 하여 형성될 수 있다. 일 예로, '블록체인'이라는 검색어에 대한 광고성 불용어로 '해피, 감사하다, 판치다, 사랑, Decenter, 엑스포, ABF'를 설정할 수 있다.
따라서, 소셜 데이터 정보가 종교/광고/상업적인 경우, 무의미한 분석을 최소화하기 위해 데이터를 필터링하여 해당글을 삭제할 수 있다.
상술한 바와 같이 데이터 분석서버는 인공지능(AI)을 기반으로 하여 다양한 소셜 데이터 즉, 빅데이터를 활용하여 입력되는 특정 키워드에 대해 분석을 수행하는 바, 이를 통해 이슈키워드와 연관성 높은 데이터만을 선별적으로 수집함으로써, 분석 데이터의 신뢰도를 높일 수 있는 특징이 있다.
분석보고서 제공서버(140)는 상기 데이터 분석서버(130)를 통해 분석된 결과 정보들을 이용하여 분석보고서를 자동으로 생성하여 온라인 웹을 통해 사용자에게 제공한다.
이러한 분석보고서 제공서버(140)는 보고서 생성모듈(141), 시각화 모듈(142) 및 웹 서비스 모듈(143)로 구성될 수 있다.
보고서 생성모듈(141)은 상기 데이터 분석서버(130)를 통해 제공되는 분석 결과 정보를 하나 이상의 정형화된 포맷 형식의 통합 분석보고서를 자동 생성할 수 있다.
또한, 보고서 생성모듈(141)은 통합분석보고서를 파일형식으로 출력하고, 분석이력을 관리할 수 있다.
시각화 모듈(142)은 상기 데이터 분석서버(130)를 통해 제공되는 분석 결과 정보를 시각화 처리하며, 상기 분석 결과 정보를 파이그래프, 라인그래프, 버블그래프 및 바그래프 형태로 시각화하는 기본 모듈 및 D3(Data - Driven - Documents) 기술을 활용하여 동적으로 시각화하는 고급 모듈로 구성될 수 있다.
웹 서비스 모듈(143)은 입력모듈 및 출력모듈을 구비하여, 입력모듈을 통해 사용자의 입력 정보를 입력받고, 출력 모듈을 통해 상기 보고서 생성모듈 및 시각화 모듈로부터 생성되는 문서, 그래프 및 이미지를 포함하는 각종 정보들은 온라인 웹을 통해 사용자에게 디스플레이할 수 있으며, 인쇄 기능을 통해 분석 결과 정보를 출력해줄 수도 있다.
이와 같이, 본 발명에 따른 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템(100)은 소셜 빅데이터 분석에 있어 가장 시간이 오래 소요되는 데이터 전처리 및 분석 보고서작성 과정을 인공지능을 통해서 유의미한 데이터들을 추출한 후, 추출된 데이터를 기초로 자동적으로 분석 보고서를 작성하여 제공할 수 있도록 함으로써, 소셜 빅데이터의 분석을 더욱 정확하고 신속하게 수행할 수 있는 있다.
또한, 이러한 기술을 통해 실제 분석을 진행하는 분석가 중심의 기능 개선과 소비자에게 제공되는 마지막 단계인 보고서 작성을 자동으로 수행하여, 비전문가도 쉽게 유의미한 보고서를 작성이 가능하도록 할 수 있는 장점이 있다.
상기한 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.
100 : 소셜 빅데이터 분석보고서 자동 제공 시스템
110 : 데이터 수집 서버
111 : 수집 모듈
112 : 정제 모듈
113 : 관리 모듈
120 : 데이터 저장 서버
130 : 데이터 분석 서버
140 : 분석보고서 제공 서버
141 : 보고서 생성모듈
142 : 가시화 모듈
143 : 웹 서비스 모듈

Claims (15)

  1. 온라인을 통해 지속적으로 소셜 데이터를 실시간 수집하는 데이터 수집서버;
    상기 데이터 수집서버를 통해 수집된 각종 소셜 데이터들을 이용하여 데이터베이스(DB)를 구축하고 저장, 관리하는 데이터 저장서버;
    특정 검색어에 대하여 감성분석, 유의미한 키워드 추출, 버즈량 예측, 화제어 추출 및 데이터 정제 분석을 수행하는 데이터 분석서버; 및
    상기 데이터 분석서버를 통해 분석된 결과 정보들을 이용하여 분석보고서를 자동으로 생성하여 온라인 웹을 통해 사용자에게 제공하는 분석보고서 제공서버;
    를 포함하여 구성되며,
    상기 데이터 분석서버는 인공지능(AI)을 기반으로 하되,
    상기 데이터 분석서버의 감정 분석은,
    수집된 소셜 데이터를 자연어처리 기반으로 형태소 분석을 하여 품사별로 태깅하며, 기설정된 추론기반 기법(Word2Vec) 신경망 모델을 이용해 텍스트 마이닝하여 LSTM(Long Short Term Memory) 모델을 기반으로 머신러닝 학습을 수행하며, 마지막 레이어에서 완전 연결된(Fully Connected) 데이터를 Softmax 함수 처리를 하여 분류 예측 모델(Binary Clasification)을 수행한 후 그 결과값이 0.5보다 이상이면 예측값을 긍정으로, 0.5보다 이하면 부정으로 출력하며,
    상기 분석보고서 제공서버는,
    상기 데이터 분석서버를 통해 제공되는 분석 결과 정보를 하나 이상의 정형화된 포맷 형식의 통합 분석보고서를 자동 생성하는 보고서 생성모듈; 및
    상기 데이터 분석서버를 통해 제공되는 분석 결과 정보를 온라인 웹 상에 시각화하여 제공하는 시각화 모듈;을 포함하여 구성되며,
    상기 시각화 모듈은,
    상기 분석 결과 정보를 파이그래프, 라인그래프, 버블그래프 및 바그래프 형태로 시각화하는 기본 모듈 및 D3(Data - Driven - Documents) 기술을 활용하여 동적으로 시각화하는 고급 모듈을 포함하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  2. 제 1항에 있어서,
    상기 데이터 수집 서버는,
    소셜 네트워크를 통한 온라인 웹 상에서 특정 검색어에 대한 소셜 데이터를 수집하는 수집 모듈;
    기설정된 주기에 따라 수집된 소셜 데이터를 관리하는 관리 모듈;
    을 포함하여 구성되는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  3. 제 2항에 있어서,
    상기 데이터 수집 서버는 상기 수집 모듈로부터 수집된 소셜 데이터들을 기설정된 정제 프로그램을 통해 노이즈 정보를 제거함으로써 데이터를 정제하는 정제 모듈이 포함될 수 있는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  4. 제 1항에 있어서,
    데이터 저장서버는,
    온톨로지, 불용어사전 및 연관어 사전을 DB로 구축화하여 저장하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  5. 삭제
  6. 삭제
  7. 제 1항에 있어서,
    상기 데이터 분석서버의 유의미한 키워드 추출은,
    소셜 데이터의 문장을 자연어처리를 통해 형태소 분석을 하여, 기설정된 규칙 혹은 머신러닝에 기반한 품사 부착으로 이루어지며, 전처리를 통해 보정한 후 NLP 기반으로 형태소 분석 및 구문 분석을 하며, 특정 키워드간 언급 개수를 카운팅하여, 카운팅 개수가 가장 많은 키워드를 추출하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  8. 제 1항에 있어서,
    상기 데이터 분석서버의 버즈량 예측은,
    버즈량 분석에 필요한 키워드를 입력받아, 소셜 데이터에서 키워드가 언급된 문장을 선별하고, 선별된 문장에서 키워드를 카운팅하여 카운팅 갯수를 산출하여 버즈량 빈도수를 산출하고, 누적되는 버즈량 빈도수 데이터를 시계열적으로 나열하여 회귀(regression) 분석을 통해 버즈량 예측값을 구하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  9. 제 1항에 있어서,
    상기 데이터 분석서버의 화제어 추출은,
    수집된 소셜 데이터를 자연어처리 모듈을 통해 형태소를 분석하고, 형태소 분석에서 기설정된 불용어를 필터링하여 제거하며, 입력되는 키워드별 카운팅을 수행하여, 키워드별 카운팅 개수를 산출한 후, 카운팅 개수가 높은 키워드별로 워드크라우드 형태로 화제어를 추출하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  10. 제 9항에 있어서,
    상기 화제어의 누적 결과치가 시계열적으로 쌓이면 회귀(regression) 분석을 통해 화제어 예측값을 산출할 수 있는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  11. 제 1항에 있어서,
    상기 데이터 분석서버의 데이터 정제 분석은,
    전처리를 통해 입력된 소셜 데이터를 교정하고, 토큰화를 통해 NLP 기반으로 형태소를 분석하며, 출현 빈도수가 일정 개수 이상인 주요 키워드를 선별하여 특징값을 추출하여 추출된 특징값을 미리 설정된 학습 알고리즘에 학습시켜 데이터 정제용 모델을 형성하고, 입력되는 소셜 데이터를 상기 데이터 정제용 모델을 통해 노이즈 데이터 또는 유효 데이터를 분류하여 노이즈 데이터를 삭제하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  12. 제 11항에 있어서,
    상기 데이터 정제용 모델은 기설정된 광고 관련 텍스트 정보, 종교 관련 텍스트 정보 및 상업 관련 텍스트 정보를 포함하는 데이터 정제용 DB를 기반으로 하여 형성되는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
  13. 삭제
  14. 삭제
  15. 제 1항에 있어서,
    입력모듈 및 출력모듈을 구비하여, 입력모듈을 통해 사용자의 입력 정보를 입력받고, 출력모듈을 통해 보고서 생성모듈 및 시각화 모듈로부터 생성되는 문서, 그래프 및 이미지를 포함하는 각종 정보들은 온라인 웹을 통해 사용자에게 디스플레이 제공하는 것을 특징으로 하는 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템.
KR1020200077721A 2020-06-25 2020-06-25 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템 KR102396413B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200077721A KR102396413B1 (ko) 2020-06-25 2020-06-25 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200077721A KR102396413B1 (ko) 2020-06-25 2020-06-25 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템

Publications (2)

Publication Number Publication Date
KR20220000436A KR20220000436A (ko) 2022-01-04
KR102396413B1 true KR102396413B1 (ko) 2022-05-09

Family

ID=79342393

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200077721A KR102396413B1 (ko) 2020-06-25 2020-06-25 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템

Country Status (1)

Country Link
KR (1) KR102396413B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102544313B1 (ko) * 2022-12-23 2023-06-16 주식회사 유알피 딥러닝 모델 기반 이벤트, 이슈 상황 인지 관리 시스템 및 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102464117B1 (ko) * 2022-03-18 2022-11-07 에쓰오씨소프트 주식회사 인공지능을 활용하여 공공기관 빅데이터 포털의 콘텐츠를 분석 및 관리하는 방법 및 장치
KR102465711B1 (ko) * 2022-05-26 2022-11-11 주식회사 씨지인사이드 소셜 데이터 분석을 이용한 법률안의 국회 본회의 통과가능성 동적 예측 서비스 제공 시스템
KR102571350B1 (ko) * 2023-03-24 2023-08-29 (주)유알피 딥러닝 모델 기반 태깅 기술을 활용한 맞춤형 분석보고서 제공방법 및 그 장치
CN116663664A (zh) * 2023-05-25 2023-08-29 沈阳林科信息技术有限公司 一种基于nlp算法的客户营销场景数据分析系统及方法
CN116842211B (zh) * 2023-07-05 2024-03-15 北京能量时光教育科技有限公司 基于直播大数据的用户分析方法及系统
KR102658456B1 (ko) * 2023-11-28 2024-04-18 주식회사 에스티이노베이션 대규모 언어 서베이 모델 기반 조사분석보고서 자동생성 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101628738B1 (ko) * 2014-10-29 2016-06-09 (주)타파크로스 학습형 룰베이스 방식의 부정적 이슈 감지 방법 및 시스템
KR101808642B1 (ko) * 2016-02-11 2017-12-14 유넷시스템주식회사 빅데이터 로그 예측분석시스템
KR102022944B1 (ko) * 2017-05-02 2019-09-20 비씨카드(주) 빅데이터 분석 보고서를 자동으로 생성하는 방법 및 이를 수행하는 장치
KR102179890B1 (ko) * 2017-12-07 2020-11-17 최윤진 텍스트 데이터 수집 및 분석을 위한 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102544313B1 (ko) * 2022-12-23 2023-06-16 주식회사 유알피 딥러닝 모델 기반 이벤트, 이슈 상황 인지 관리 시스템 및 방법

Also Published As

Publication number Publication date
KR20220000436A (ko) 2022-01-04

Similar Documents

Publication Publication Date Title
KR102396413B1 (ko) 빅데이터와 인공지능을 활용한 소셜 빅데이터 분석보고서 자동 제공 시스템
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
CN113704451B (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
Galitsky et al. Using generalization of syntactic parse trees for taxonomy capture on the web
Petchler et al. Automated content analysis of online political communication
CN117009524B (zh) 一种基于舆情情感分析的互联网大数据分析方法及系统
Tang et al. Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching
Javed et al. Normalization of unstructured and informal text in sentiment analysis
Zhang et al. A hybrid neural network approach for fine-grained emotion classification and computing
Kochuieva et al. Usage of Sentiment Analysis to Tracking Public Opinion.
Rony et al. ClaimViz: Visual analytics for identifying and verifying factual claims
Maladry et al. The limitations of irony detection in dutch social media
Nguyen et al. Analyzing customer experience in hotel services using topic modeling
Perikos et al. Opinion mining and visualization of online users reviews: a case study in Booking. com
Deshpande et al. BI and sentiment analysis
Aleebrahim et al. Sentiment classification of online product reviews using product features
Musso et al. Opinion mining of online product reviews using a lexicon-based algorithm
Spies et al. Big textual data analytics and knowledge management
Ferati Text mining in financial industry: implementing text mining techniques on bank policies
Magnini et al. Entailment graphs for text analytics in the excitement project
Ilias et al. Exploring an In-house Online Reputation Monitoring Implementation
Guidi Extracting information from social media to track financial markets
Dwivedi et al. Twitter Bot For Consumer Feedback Analysis
Ceross et al. Topic Modelling for Risk Identification in Data Protection Act Judgements
Seitlheko Design and implementation of an intelligent requirements engineering tool for internet of things applications in an agile environment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant