KR102245942B1 - 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법 - Google Patents

비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법 Download PDF

Info

Publication number
KR102245942B1
KR102245942B1 KR1020190108852A KR20190108852A KR102245942B1 KR 102245942 B1 KR102245942 B1 KR 102245942B1 KR 1020190108852 A KR1020190108852 A KR 1020190108852A KR 20190108852 A KR20190108852 A KR 20190108852A KR 102245942 B1 KR102245942 B1 KR 102245942B1
Authority
KR
South Korea
Prior art keywords
news
keyword
data
server
internet
Prior art date
Application number
KR1020190108852A
Other languages
English (en)
Other versions
KR20210027853A (ko
Inventor
최광진
박현준
신소정
Original Assignee
삼육대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼육대학교산학협력단 filed Critical 삼육대학교산학협력단
Priority to KR1020190108852A priority Critical patent/KR102245942B1/ko
Publication of KR20210027853A publication Critical patent/KR20210027853A/ko
Application granted granted Critical
Publication of KR102245942B1 publication Critical patent/KR102245942B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법에 관한 것이다. 본 발명은, 뉴스 데이터 분석 서버(300)가 사용자 스마트 디바이스(100)에 의해 웹브라우저를 이용한 각종 뉴스 제공 서버(500)로의 액세스를 통한 검색 데이터를 사용자 스마트 디바이스(100)로부터 네트워크(200)를 통해 수신하여 데이터베이스(330)에 저장하는 제 1 단계; 및 뉴스 데이터 분석 서버(300)가 데이터베이스(330)에 저장된 검색 데이터를 데이터 마이닝(data mining : 데이터를 목적에 맞게 정제)을 통해 시각화를 수행하여 각 키워드별 빈도 그래프로 표현시, 각 기사 키워드와 검색 키워드 중 유사성을 갖는 그룹끼리 묶고, 각 키워드 그룹의 빈도수를 추출하는 제 2 단계; 를 포함하는 것을 특징으로 한다.
이에 의해, 뉴스 맞춤 추천을 통해서 개개인 맞춤 추천을 통해서 사용자의 선호를 잘 파악하고, 양질의 뉴스 기사를 추천해 이용자 편의를 추구할 수 있고, 공공성이 희박할 수 있는 포털과 다르게 뉴스의 공익성을 살릴 수 있을 뿐만 아니라, 추천 사이트이기에 한 가지의 사건(사례)에 여러 가지 관점(시각)에서 볼 수 있기에 뉴스에 대해 좀 더 객관적으로 바라볼 수 있도록 하는 효과를 제공한다.

Description

비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법{News data analysis system for non-experts, and method thereof}
본 발명은 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법에 관한 것으로, 보다 구체적으로는, 뉴스 맞춤 추천을 통해서 개개인 맞춤 추천을 통해서 사용자의 선호를 잘 파악하고, 양질의 뉴스 기사를 추천해 이용자 편의를 추구할 수 있고, 공공성이 희박할 수 있는 포털과 다르게 뉴스의 공익성을 살릴 수 있을 뿐만 아니라, 추천 사이트이기에 한 가지의 사건(사례)에 여러 가지 관점(시각)에서 볼 수 있기에 뉴스에 대해 좀 더 객관적으로 바라볼 수 있도록 하기 위한 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법에 관한 것이다.
오늘날 인터넷의 활성화로 인해 가입자는 인터넷을 통해 실시간으로 뉴스를 확인하고 있으며, 특히 스마트폰과 같은 이동통신단말기를 이용하여 이동 중에도 인터넷 뉴스를 제공받고 있다.
그러나 인터넷 뉴스를 구독하기 위해서는 사용자가 인터넷 매체에 접속한 후 자신이 원하는 주제의 뉴스를 직접 검색해야 하므로 바쁜 현대인으로 하여금 뉴스를 검색하기 위한 시간을 투자하게 하는 문제점이 있다.
대한민국 특허출원 출원번호 제10-2015-0094515(2015.07.02)호 "빅 데이터 기술에 기반한 기업 뉴스 검색 기술을 이용한 기업 신용 위험도 예측 장치 및 방법(Apparatus and method for predicting degree of corporation credit risk using corporation news searching technology based on big data technology)"
본 발명은 상기의 문제점을 해결하기 위한 것으로, 뉴스 맞춤 추천을 통해서 개개인 맞춤 추천을 통해서 사용자의 선호를 잘 파악하고, 양질의 뉴스 기사를 추천해 이용자 편의를 추구할 수 있고, 공공성이 희박할 수 있는 포털과 다르게 뉴스의 공익성을 살릴 수 있을 뿐만 아니라, 추천 사이트이기에 한 가지의 사건(사례)에 여러 가지 관점(시각)에서 볼 수 있기에 뉴스에 대해 좀 더 객관적으로 바라볼 수 있도록 하기 위한 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법을 제공하기 위한 것이다.
또한, 본 발명은 기존의 맞춤 검색에 더해 크롤링을 통해 데이터를 추출하고 키워드 간의 연관성을 분석 가능하게 하고, 과거 뉴스들의 흐름을 통해 향후 이슈화될 키워드를 예측 가능하도록 하며, 관련 지식이나 기술 및 시간이 부족한 비전문가들이 필요로 하는 데이터 분석 기술을 제공하도록 하기 위한 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법을 제공하기 위한 것이다.
그러나 본 발명의 목적들은 상기에 언급된 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기의 목적을 달성하기 위해 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 방법은, 뉴스 데이터 분석 서버(300)가 사용자 스마트 디바이스(100)에 의해 웹브라우저를 이용한 각종 뉴스 제공 서버(500)로의 액세스를 통한 검색 데이터를 사용자 스마트 디바이스(100)로부터 네트워크(200)를 통해 수신하여 데이터베이스(330)에 저장하는 제 1 단계; 및 뉴스 데이터 분석 서버(300)가 데이터베이스(330)에 저장된 검색 데이터를 데이터 마이닝(data mining : 데이터를 목적에 맞게 정제)을 통해 시각화를 수행하여 각 키워드별 빈도 그래프로 표현시, 각 기사 키워드와 검색 키워드 중 유사성을 갖는 그룹끼리 묶고, 각 키워드 그룹의 빈도수를 추출하는 제 2 단계; 를 포함하는 것을 특징으로 한다.
이때, 뉴스 데이터 분석 서버(300)가, 상기 제 2 단계에 의해 분석된 키워드 그룹 중 미리 설정된 빈도수 이상의 키워드 그룹을 추출한 뒤, 추출된 키워드 그룹을 네트워크(200)를 통해 빅데이터 서버(400)로 액세스하여 빅데이터 서버(400)에 의한 각 추출된 키워드 그룹과 각 키워드 그룹에 속한 키워드들 간의 연관성 분석에 따라 연관 키워드를 빅데이터 서버(400)로부터 수신하는 제 3 단계; 를 더 포함하는 것을 특징으로 한다.
또한, 상기 제 3 단계 이후, 뉴스 데이터 분석 서버(300)가 적어도 하나 이상의 연관 키워드를 빅데이터 서버(400)로부터 제공받은 뒤, 데이터베이스(330)에 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 함께 저장하는 제 4 단계; 를 더 포함하는 것을 특징으로 한다.
또한, 상기 제 4 단계 이후, 뉴스 데이터 분석 서버(300)가 사용자 스마트 디바이스(100) 상에서 웹브라우저에 대한 실행 요청이 있는 경우, 사용자 스마트 디바이스(100)의 웹브라우저에 의한 자동적인 네트워크(200)를 통한 액세스를 허여하도록 송수신부(310)를 제어한 뒤, 웹브라우저로부터 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)를 수신하는 제 5 단계; 를 더 포함하는 것을 특징으로 한다.
또한, 상기 제 5 단계 이후, 뉴스 데이터 분석 서버(300)가 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 매칭되는 적어도 하나 이상의 연관 키워드를 데이터베이스(330)로부터 추출한 뒤, 네트워크(200)를 통해 빅데이터 서버(400)로 연관 뉴스 데이터 추출 요청을 전송하는 제 6 단계; 를 더 포함하는 것을 특징으로 한다.
상기의 목적을 달성하기 위해 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템은, 사용자 스마트 디바이스(100); 및 사용자 스마트 디바이스(100)에 의해 웹브라우저를 이용한 각종 뉴스 제공 서버(500)로의 액세스를 통한 검색 데이터를 사용자 스마트 디바이스(100)로부터 네트워크(200)를 통해 수신하여 데이터베이스(330)에 저장하고, 데이터베이스(330)에 저장된 검색 데이터를 데이터 마이닝(data mining : 데이터를 목적에 맞게 정제)을 통해 시각화를 수행하여 각 키워드별 빈도 그래프로 표현시, 각 기사 키워드와 검색 키워드 중 유사성을 갖는 그룹끼리 묶고, 각 키워드 그룹의 빈도수를 추출하는 뉴스 데이터 분석 서버(300); 를 포함하는 것을 특징으로 한다.
이때, 뉴스 데이터 분석 서버(300)는, 분석된 키워드 그룹 중 미리 설정된 빈도수 이상의 키워드 그룹을 추출한 뒤, 추출된 키워드 그룹을 네트워크(200)를 통해 빅데이터 서버(400)로 액세스하여 빅데이터 서버(400)에 의한 각 추출된 키워드 그룹과 각 키워드 그룹에 속한 키워드들 간의 연관성 분석에 따라 연관 키워드를 빅데이터 서버(400)로부터 수신하는 것을 특징으로 한다.
또한, 뉴스 데이터 분석 서버(300)는, 적어도 하나 이상의 연관 키워드를 빅데이터 서버(400)로부터 제공받은 뒤, 데이터베이스(330)에 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 함께 저장하는 것을 특징으로 한다.
또한, 뉴스 데이터 분석 서버(300)는, 사용자 스마트 디바이스(100) 상에서 웹브라우저에 대한 실행 요청이 있는 경우, 사용자 스마트 디바이스(100)의 웹브라우저에 의한 자동적인 네트워크(200)를 통한 액세스를 허여하도록 송수신부(310)를 제어한 뒤, 웹브라우저로부터 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)를 수신하는 것을 특징으로 한다.
또한, 뉴스 데이터 분석 서버(300)는, 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 매칭되는 적어도 하나 이상의 연관 키워드를 데이터베이스(330)로부터 추출한 뒤, 네트워크(200)를 통해 빅데이터 서버(400)로 연관 뉴스 데이터 추출 요청을 전송하는 것을 특징으로 한다.
본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법은, 뉴스 맞춤 추천을 통해서 개개인 맞춤 추천을 통해서 사용자의 선호를 잘 파악하고, 양질의 뉴스 기사를 추천해 이용자 편의를 추구할 수 있고, 공공성이 희박할 수 있는 포털과 다르게 뉴스의 공익성을 살릴 수 있을 뿐만 아니라, 추천 사이트이기에 한 가지의 사건(사례)에 여러 가지 관점(시각)에서 볼 수 있기에 뉴스에 대해 좀 더 객관적으로 바라볼 수 있도록 하는 효과를 제공한다.
뿐만 아니라, 본 발명의 다른 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법은, 기존의 맞춤 검색에 더해 크롤링을 통해 데이터를 추출하고 키워드 간의 연관성을 분석 가능하게 하고, 과거 뉴스들의 흐름을 통해 향후 이슈화될 키워드를 예측 가능하도록 하며, 관련 지식이나 기술 및 시간이 부족한 비전문가들이 필요로 하는 데이터 분석 기술을 제공할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템(1)을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템(1) 중 뉴스 데이터 분석 서버(300)의 구성요소를 나타내는 블록도이다.
도 3 및 도 4는 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템(1)에 의해 수행되는 뉴스 데이터 분석 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 방법을 나타내는 흐름도이다.
이하, 본 발명의 바람직한 실시예의 상세한 설명은 첨부된 도면들을 참조하여 설명할 것이다. 하기에서 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 '전송'하는 경우에는 구성요소는 다른 구성요소로 직접 상기 데이터 또는 신호를 전송할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 데이터 또는 신호를 다른 구성요소로 전송할 수 있음을 의미한다.
도 1은 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템(1)을 나타내는 도면이다. 도 1을 참조하면, 비전문가를 위한 뉴스 데이터 분석 시스템(1)은 복수의 사용자 스마트 디바이스(100)로 이루어진 사용자 스마트 디바이스 그룹(100g), 네트워크(200), 뉴스 데이터 분석 서버(300), 빅데이터 서버(400), 복수의 뉴스 제공 서버(500)로 이루어진 뉴스 제공 서버 그룹(500g)을 포함함으로써, 뉴스 데이터 분석 서버(300)에 의해 데이터 처리가 서툰 비전문가가 운영하는 각 사용자 스마트 디바이스(100)에서 제공되는 검색 데이터를 시각화하고, 시각화된 키워드 간의 연관성을 분석하고, 분석에 따라 맞춤형 뉴스 데이터를 분석하여 제공함으로써, 비전문가의 뉴스 검색의 편의성 측면을 향상시킬 수 있다.
네트워크(200)는 대용량, 장거리 음성 및 데이터 서비스가 가능한 대형 통신망의 고속 기간 망인 통신망이며, 인터넷(Internet) 또는 고속의 멀티미디어 서비스를 제공하기 위한 차세대 유선 및 무선 망일 수 있다. 네트워크(200)가 이동통신망일 경우 동기식 이동 통신망일 수도 있고, 비동기식 이동 통신망일 수도 있다. 비동기식 이동 통신망의 일 실시 예로서, WCDMA(Wideband Code Division Multiple Access) 방식의 통신망을 들 수 있다. 이 경우 도면에 도시되진 않았지만, 네트워크(200)는 RNC(Radio Network Controller)을 포함할 수 있다. 한편, WCDMA망을 일 예로 들었지만, 3G LTE망, 4G망 그 밖의 5G 등 차세대 통신망, 그 밖의 IP를 기반으로 한 IP망일 수 있다. 네트워크(200)는 복수의 사용자 스마트 디바이스(100)로 이루어진 사용자 스마트 디바이스 그룹(100g), 뉴스 데이터 분석 서버(300), 빅데이터 서버(400), 복수의 뉴스 제공 서버(500)로 이루어진 뉴스 제공 서버 그룹(500g), 그 밖의 시스템 상호 간의 신호 및 데이터를 상호 전달하는 역할을 한다.
뉴스 제공 서버 그룹(500g)을 이루는 각 복수의 뉴스 제공 서버(500)는 네트워크(200)를 통해 빅데이터 서버(400)로 인터넷 기사, 그리고 각 인터넷 기사에 대해 설정된 태그 정보를 제공할 수 있다.
도 2는 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템(1) 중 뉴스 데이터 분석 서버(300)의 구성요소를 나타내는 블록도이다. 도 3 및 도 4는 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 시스템(1)에 의해 수행되는 뉴스 데이터 분석 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 뉴스 데이터 분석 서버(300)는 송수신부(310), 제어부(320) 및 데이터베이스(330)를 포함할 수 있다.
제어부(320)는 데이터 수집 모듈(321), 데이터 마이닝 모듈(322), 연관성 제공 모듈(323), 뉴스 데이터 제공 모듈(324)을 포함할 수 있다.
데이터 수집 모듈(321)은 사용자 스마트 디바이스(100)에 의해 웹브라우저를 이용한 각종 뉴스 제공 서버(500)로의 액세스를 통한 검색 데이터를 사용자 스마트 디바이스(100)로부터 네트워크(200)를 통해 수신하도록 송수신부(310)를 제어할 수 있다.
여기서, 데이터 수집 모듈(321)은 스마트 디바이스(100)에 의해 제공되는 각 URL 정보를 이용해 URL 정보에 포함되는 인터넷 기사에 대해서 크롤링(crawling: 웹 페이지를 그대로 가져와 거기서 데이터를 추출해 내는 행위) 수행에 따라 각 인터넷 기사의 기사 키워드 추출에 따른 "기사 키워드"와, 스마트 디바이스(100)에 의해 인터넷 기사 검색시 사용된 "검색 키워드"를 하나의 단위 유닛으로 검색 데이터를 생성하여 데이터베이스(330)에 저장할 수 있다.
데이터 마이닝 모듈(322)은 데이터베이스(330)에 저장된 검색 데이터를 데이터 마이닝(data mining : 데이터를 목적에 맞게 정제)을 통해 시각화를 수행할 수 있다.
보다 구체적으로 데이터 마이닝 모듈(322)은 시각화를 통해 도 3a 내지 도 3e와 같이 각 키워드별 막대 그래프, 단어 구름, SNA, 버블차트, 박스 플롯(box plot), 파이 그래프(pie graph) 등으로 표현한 뒤, 각 기사 키워드와 검색 키워드 중 유사성을 갖는 그룹끼리 묶고, 각 키워드 그룹간의 빈도수를 추출할 수 있다.
여기서 기사 키워드와 검색 키워드 간의 유사성은, 빅데이터 서버(400) 상의 전자 사전상의 동일어, 유사어 검색을 통해 수행하거나, 단어에 포함된 단어간의 띄어쓰기차이, 빅데이터 서버(400) 상의 외국어의 유사 발음 사전 검색을 통해 수행될 수 있다.
연관성 제공 모듈(323)은 데이터 마이닝 모듈(322)에 의해 분석된 키워드 그룹 중 미리 설정된 빈도수 이상의 키워드 그룹을 추출한 뒤, 추출된 키워드 그룹을 네트워크(200)를 통해 빅데이터 서버(400)로 액세스하여 각 추출된 키워드 그룹과 각 키워드 그룹에 속한 키워드들 간의 연관성 분석에 따라 연관 키워드를 반환받을 수 있다.
즉, 빅데이터 서버(400)는 각 키워드 그룹 간의 연관성 분석시, 각 URL 정보에 포함되는 인터넷 기사를 제공한 인터넷 기자가 태그 정보로 제공한 단어에 해당하는 키워드 그룹에 대해서는 성공 키워드 그룹으로 설정하고, 각 URL 정보에 포함되는 인터넷 기사를 제공한 인터넷 기자가 태그 정보로 제공한 단어에 해당하는 않는 키워드 그룹에 대해서는 실패 키워드 그룹으로 설정할 수 있다.
또한, 빅데이터 서버(400)는 성공 키워드 그룹에 속한 각 키워드 간의 연관성 분석시, 각 URL 정보에 포함되는 인터넷 기사에서 보다 많은 횟수로 언급된 키워드를 연관 키워드로 추출할 수 있다.
뉴스 데이터 제공 모듈(324)은 적어도 하나 이상의 연관 키워드를 빅데이터 서버(400)로부터 제공받은 뒤, 데이터베이스(330)에 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 함께 저장할 수 있다.
이후, 뉴스 데이터 제공 모듈(324)은 사용자 스마트 디바이스(100) 상에서 웹브라우저에 대한 실행 요청이 있는 경우, 사용자 스마트 디바이스(100)의 웹브라우저에 의한 자동적인 네트워크(200)를 통한 액세스를 허여하도록 송수신부(310)를 제어한 뒤,웹브라우저로부터 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)를 수신하도록 송수신부(310)를 제어할 수 있다.
이에 따라, 뉴스 데이터 제공 모듈(324)은 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 매칭되는 적어도 하나 이상의 연관 키워드를 데이터베이스(330)로부터 추출한 뒤, 네트워크(200)를 통해 빅데이터 서버(400)로 연관 뉴스 데이터 추출 요청을 전송하도록 송수신부(310)를 제어할 수 있다.
본 발명의 다른 실시예로, 뉴스 데이터 제공 모듈(324)은 사용자 스마트 디바이스(100) 상에서 웹브라우저에 대한 실행 요청이 있는 경우 사용자 스마트 디바이스(100)의 웹브라우저에 의한 자동적인 네트워크(200)를 통한 액세스를 허여하도록 송수신부(310)를 제어한 뒤, 데이터베이스(330)에 저장된 복수의 연관 키워드 중 하나에 대한 사용자 스마트 디바이스(100)에 대한 선택 요청을 전송한 뒤, 선택된 연관 키워드를 네트워크(200)를 통해 빅데이터 서버(400)로 연관 뉴스 데이터 추출 요청을 전송하도록 송수신부(310)를 제어할 수 있다.
이에 따라, 빅데이터 서버(400)는 AI 기반으로 빅데이터 서버(400)에 저장된 인터넷 기사 중 인터넷 기사를 제공한 인터넷 기자가 태그 정보로 제공한 단어와 각 연관 키워드가 매칭되고, 각 연관 키워드가 인터넷 기사에 미리 설정된 횟수 이상 있는 인터넷 기사를 추출하여, 각 추출된 인터넷 기사를 네트워크(200)를 통해 뉴스 데이터 분석 서버(300), 보다 구체적으로는 뉴스 데이터 제공 모듈(324)로 제공할 수 있다.
보다 구체적으로, 빅데이터 서버(400)는 각 연관 키워드와 태그 정보 간의 매칭 여부를 머신러닝 및 딥러닝 기반으로 수행할 수 있으며 머신러닝 알고리즘을 활용시 분산 저장된 태그 정보를 머신러닝 알고리즘을 통해 분석하고 연관 키워드와 매칭 여부를 분석할 수 있다. 보다 구체적으로, 빅데이터 서버(400)에서 사용되는 머신러닝 알고리즘은 결정 트리(DT, Decision Tree) 분류 알고리즘, 랜덤 포레스트 분류 알고리즘, SVM(Support Vector Machine) 분류 알고리즘 중 하나일 수 있다.
빅데이터 서버(400)는 분산 저장된 태그 정보를 분석하여 그 분석한 결과로 각 분산 저장된 태그 정보와 연관 키워드 간의 적어도 하나 이상의 문자 매칭을 추출하고 추출된 문자 정보를 복수의 머신러닝 알고리즘 중 적어도 하나 이상을 이용하여 학습하여 학습한 결과로 매칭 여부를 판단할 수 있다.
즉, 빅데이터 서버(400)는 매칭 여부 판단 결과의 정확도 향상을 위해 다수의 상호 보완적인 머신러닝 알고리즘들로 구성된 앙상블 구조를 적용할 수 있다.
결정 트리 분류 알고리즘은 트리 구조로 학습하여 결과를 도출하는 방식으로 결과 해석 및 이해가 용이하고, 데이터 처리 속도가 빠르며 탐색 트리 기반으로 룰 도출이 가능할 수 있다. DT의 낮은 분류 정확도를 개선하기 위한 방안으로 RF를 적용할 수 있다. 랜덤 포레스트 분류 알고리즘은 다수의 DT를 앙상블로 학습한 결과를 도축하는 방식으로, DT보다 결과 이해가 어려우나 DT보다 결과 정확도가 높을 수 있다. DT 또는 RF 학습을 통해 발생 가능한 과적합의 개선 방안으로 SVM을 적용할 수 있다. SVM 분류 알고리즘은 서로 다른 분류에 속한 데이터를 평면 기반으로 분류하는 방식으로, 일반적으로 높은 정확도를 갖고, 구조적으로 과적합(overfitting)에 낮은 민감도를 가질 수 있다.
또한, 빅데이터 서버(400)는 각 연관 키워드와 태그 정보 간의 매칭 여부를 머신러닝 방식으로 학습한 뒤, 정제된 데이터를 활용해 딥러닝을 수행할 수 있다. 여기서 딥러닝 방식은 빅데이터 서버(400)에 의한 각 연관 키워드와 태그 정보 간의 매칭 여부를 분석하여 형성된 패턴 데이터별 반복 작업시 하나의 전체 프로세스에 소요되는 시간인 사이클 타임(Cycle time)과, 각 매칭 여부 판단 시간의 최대 시간인 택트 타임(Tact time)의 감소를 최소화하는 방식으로 각 각 연관 키워드와 태그 정보를 포함하는 문자에 대한 딥러닝 알고리즘 프로그램의 변환 및 적용에 따라 수행될 수 있다.
최종적으로, 뉴스 데이터 제공 모듈(324)은 빅데이터 서버(400)로부터 제공된 각 인터넷 기사를 도 4와 같이 각 인터넷 기사의 제목을 포함하는 유저인터페이스(User Interface, "UI") 화면으로 생성한 뒤, 네트워크(200)를 통해 사용자 스마트 디바이스(100)로 전송하도록 송수신부(310)를 제어할 수 있다.
도 5는 본 발명의 실시예에 따른 비전문가를 위한 뉴스 데이터 분석 방법을 나타내는 흐름도이다. 도 5를 참조하면, 뉴스 데이터 분석 서버(300)는 사용자 스마트 디바이스(100)에 의해 웹브라우저를 이용한 각종 뉴스 제공 서버(500)로의 액세스를 통한 검색 데이터를 사용자 스마트 디바이스(100)로부터 네트워크(200)를 통해 수신하여 데이터베이스(330)에 저장한다(S11).
단계(S11) 이후, 뉴스 데이터 분석 서버(300)는 데이터베이스(330)에 저장된 검색 데이터를 데이터 마이닝(data mining : 데이터를 목적에 맞게 정제)을 통해 시각화를 수행하여 각 키워드별 빈도 그래프로 표현시, 각 기사 키워드와 검색 키워드 중 유사성을 갖는 그룹끼리 묶고, 각 키워드 그룹의 빈도수를 추출한다(S12).
단계(S12) 이후, 뉴스 데이터 분석 서버(300)는 단계(S12)에 의해 분석된 키워드 그룹 중 미리 설정된 빈도수 이상의 키워드 그룹을 추출한 뒤, 추출된 키워드 그룹을 네트워크(200)를 통해 빅데이터 서버(400)로 액세스하여 각 추출된 키워드 그룹과 각 키워드 그룹에 속한 키워드들 간의 연관성 분석에 따라 연관 키워드를 수신한다(S13).
단계(S13) 이후, 뉴스 데이터 분석 서버(300)는 적어도 하나 이상의 연관 키워드를 빅데이터 서버(400)로부터 제공받은 뒤, 데이터베이스(330)에 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 함께 저장한다(S14).
단계(S14) 이후, 뉴스 데이터 분석 서버(300)는 사용자 스마트 디바이스(100) 상에서 웹브라우저에 대한 실행 요청이 있는 경우, 사용자 스마트 디바이스(100)의 웹브라우저에 의한 자동적인 네트워크(200)를 통한 액세스를 허여하도록 송수신부(310)를 제어한 뒤, 웹브라우저로부터 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)를 수신한다(S15).
단계(S15) 이후, 뉴스 데이터 분석 서버(300)는 사용자 스마트 디바이스(100)의 단말식별번호(IMEI)와 매칭되는 적어도 하나 이상의 연관 키워드를 데이터베이스(330)로부터 추출한 뒤, 네트워크(200)를 통해 빅데이터 서버(400)로 연관 뉴스 데이터 추출 요청을 전송한다(S16).
단계(S17) 이후, 뉴스 데이터 분석 서버(300)는 AI 기반의 연관 뉴스 데이터 추출된 따라 추출된 각 추출된 인터넷 기사를 네트워크(200)를 통해 빅데이터 서버(400)로부터 수신한다(S17).
단계(S17) 이후, 뉴스 데이터 분석 서버(300)는 빅데이터 서버(400)로부터 제공된 각 인터넷 기사를 각 인터넷 기사의 제목을 포함하는 유저인터페이스(User Interface, "UI") 화면으로 생성한 뒤, 네트워크(200)를 통해 사용자 스마트 디바이스(100)로 전송한다(S18).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
1 : 비전문가를 위한 뉴스 데이터 분석 시스템
100 : 사용자 스마트 디바이스
100g : 사용자 스마트 디바이스 그룹
200 : 네트워크
300 : 뉴스 데이터 분석 서버
310 : 송수신부
320 : 제어부
321 : 데이터 수집 모듈
322 : 데이터 마이닝 모듈
323 : 연관성 제공 모듈
324 : 뉴스 데이터 제공 모듈
330 : 데이터베이스
400 : 빅데이터 서버
500 : 뉴스 제공 서버

Claims (10)

  1. 복수의 사용자 스마트 디바이스(100)로 이루어진 사용자 스마트 디바이스 그룹(100g), 네트워크(200), 뉴스 데이터 분석 서버(300), 빅데이터 서버(400), 복수의 뉴스 제공 서버(500)로 이루어진 뉴스 제공 서버 그룹(500g)을 포함함으로써, 뉴스 데이터 분석 서버(300)에 의해 데이터 처리가 서툰 비전문가가 운영하는 각 사용자 스마트 디바이스(100)에서 제공되는 검색 데이터를 시각화하고, 시각화된 키워드 간의 연관성을 분석하고, 분석에 따라 맞춤형 뉴스 데이터를 분석하여 제공함으로써, 비전문가의 뉴스 검색의 편의성을 향상시키는 비전문가를 위한 뉴스 데이터 분석 시스템(1)에 있어서,
    뉴스 제공 서버 그룹(500g)을 이루는 각 복수의 뉴스 제공 서버(500)는,
    네트워크(200)를 통해 빅데이터 서버(400)로 인터넷 기사, 그리고 각 인터넷 기사에 대해 설정된 태그 정보를 제공하며,
    뉴스 데이터 분석 서버(300)는, 송수신부(310), 제어부(320) 및 데이터베이스(330)를 포함하며, 제어부(320)는, 데이터 수집 모듈(321), 데이터 마이닝 모듈(322), 연관성 제공 모듈(323), 뉴스 데이터 제공 모듈(324)을 포함하며 구성되며,
    데이터 수집 모듈(321)은,
    사용자 스마트 디바이스(100)에 의해 웹브라우저를 이용한 각종 뉴스 제공 서버(500)로의 액세스를 통한 검색 데이터를 사용자 스마트 디바이스(100)로부터 네트워크(200)를 통해 수신하도록 송수신부(310)를 제어하며,
    스마트 디바이스(100)에 의해 제공되는 각 URL 정보를 이용해 URL 정보에 포함되는 인터넷 기사에 대해서 크롤링(crawling: 웹 페이지를 그대로 가져와 거기서 데이터를 추출해 내는 행위) 수행에 따라 각 인터넷 기사의 기사 키워드 추출에 따른 "기사 키워드"와, 스마트 디바이스(100)에 의해 인터넷 기사 검색시 사용된 "검색 키워드"를 하나의 단위 유닛으로 검색 데이터를 생성하여 데이터베이스(330)에 저장하며,
    데이터 마이닝 모듈(322)은,
    데이터베이스(330)에 저장된 검색 데이터를 데이터 마이닝(data mining : 데이터를 목적에 맞게 정제)을 통해 시각화를 수행하며,
    시각화를 통해 각 키워드별 막대 그래프, 단어 구름, SNA, 버블차트, 박스 플롯(box plot), 파이 그래프(pie graph) 중 적어도 하나 이상으로 표현한 뒤, 각 기사 키워드와 검색 키워드 중 유사성을 갖는 그룹끼리 묶고, 각 키워드 그룹간의 빈도수를 추출하고,
    기사 키워드와 검색 키워드 간의 유사성을, 빅데이터 서버(400) 상의 전자 사전상의 동일어, 유사어 검색을 통해 수행하거나, 단어에 포함된 단어간의 띄어쓰기차이, 빅데이터 서버(400) 상의 외국어의 유사 발음 사전 검색을 통해 분석하며,
    연관성 제공 모듈(323)은,
    데이터 마이닝 모듈(322)에 의해 분석된 키워드 그룹 중 미리 설정된 빈도수 이상의 키워드 그룹을 추출한 뒤, 추출된 키워드 그룹을 네트워크(200)를 통해 빅데이터 서버(400)로 액세스하여 각 추출된 키워드 그룹과 각 키워드 그룹에 속한 키워드들 간의 연관성 분석에 따라 연관 키워드를 반환받으며,
    빅데이터 서버(400)는,
    각 키워드 그룹 간의 연관성 분석시, 각 URL 정보에 포함되는 인터넷 기사를 제공한 인터넷 기자가 태그 정보로 제공한 단어에 해당하는 키워드 그룹에 대해서는 성공 키워드 그룹으로 설정하고, 각 URL 정보에 포함되는 인터넷 기사를 제공한 인터넷 기자가 태그 정보로 제공한 단어에 해당하는 않는 키워드 그룹에 대해서는 실패 키워드 그룹으로 설정하고,
    성공 키워드 그룹에 속한 각 키워드 간의 연관성 분석시, 각 URL 정보에 포함되는 인터넷 기사에서 보다 많은 횟수로 언급된 키워드를 연관 키워드로 추출하며,
    뉴스 데이터 제공 모듈(324)은,
    사용자 스마트 디바이스(100) 상에서 웹브라우저에 대한 실행 요청이 있는 경우 사용자 스마트 디바이스(100)의 웹브라우저에 의한 자동적인 네트워크(200)를 통한 액세스를 허여하도록 송수신부(310)를 제어한 뒤, 데이터베이스(330)에 저장된 복수의 연관 키워드 중 하나에 대한 사용자 스마트 디바이스(100)에 대한 선택 요청을 전송한 뒤, 선택된 연관 키워드를 네트워크(200)를 통해 빅데이터 서버(400)로 연관 뉴스 데이터 추출 요청을 전송하도록 송수신부(310)를 제어하며,
    빅데이터 서버(400)는,
    AI 기반으로 빅데이터 서버(400)에 저장된 인터넷 기사 중 인터넷 기사를 제공한 인터넷 기자가 태그 정보로 제공한 단어와 각 연관 키워드가 매칭되고, 각 연관 키워드가 인터넷 기사에 미리 설정된 횟수 이상 있는 인터넷 기사를 추출하여, 각 추출된 인터넷 기사를 네트워크(200)를 통해 뉴스 데이터 분석 서버(300), 보다 구체적으로는 뉴스 데이터 제공 모듈(324)로 제공하되,
    각 연관 키워드와 태그 정보 간의 매칭 여부를 머신러닝 및 딥러닝 기반으로 수행할 수 있으며 머신러닝 알고리즘을 활용시 분산 저장된 태그 정보를 머신러닝 알고리즘을 통해 분석하고 연관 키워드와 매칭 여부를 분석하며,
    분산 저장된 태그 정보를 분석하여 분석한 결과로 각 분산 저장된 태그 정보와 연관 키워드 간의 적어도 하나 이상의 문자 매칭을 추출하고 추출된 문자 정보를 복수의 머신러닝 알고리즘 중 적어도 하나 이상을 이용하여 학습하여 학습한 결과로 매칭 여부를 판단하며,
    뉴스 데이터 제공 모듈(324)은,
    빅데이터 서버(400)로부터 제공된 각 인터넷 기사를 각 인터넷 기사의 제목을 포함하는 유저인터페이스(User Interface, "UI") 화면으로 생성한 뒤, 네트워크(200)를 통해 사용자 스마트 디바이스(100)로 전송하도록 송수신부(310)를 제어하는 것을 특징으로 하는 비전문가를 위한 뉴스 데이터 분석 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020190108852A 2019-09-03 2019-09-03 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법 KR102245942B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190108852A KR102245942B1 (ko) 2019-09-03 2019-09-03 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190108852A KR102245942B1 (ko) 2019-09-03 2019-09-03 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20210027853A KR20210027853A (ko) 2021-03-11
KR102245942B1 true KR102245942B1 (ko) 2021-04-28

Family

ID=75143298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190108852A KR102245942B1 (ko) 2019-09-03 2019-09-03 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102245942B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240049930A (ko) * 2022-10-11 2024-04-18 전정욱 빅데이터 기반 업무 관리 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100273775B1 (ko) * 1998-11-06 2000-12-15 이계철 정보 서비스 장치 및 그 방법
JP2007034466A (ja) 2005-07-25 2007-02-08 Yafoo Japan Corp 情報検索システム、情報検索プログラム
KR101651780B1 (ko) 2015-04-15 2016-08-29 한양대학교 에리카산학협력단 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180034946A (ko) * 2016-09-28 2018-04-05 이종한 인사이트 아이 언론사 및 소셜네트워크 데이터 분석과 시각화를 통한 마케팅 솔루션 소프트웨어

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100273775B1 (ko) * 1998-11-06 2000-12-15 이계철 정보 서비스 장치 및 그 방법
JP2007034466A (ja) 2005-07-25 2007-02-08 Yafoo Japan Corp 情報検索システム、情報検索プログラム
KR101651780B1 (ko) 2015-04-15 2016-08-29 한양대학교 에리카산학협력단 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240049930A (ko) * 2022-10-11 2024-04-18 전정욱 빅데이터 기반 업무 관리 시스템 및 방법
KR102662916B1 (ko) * 2022-10-11 2024-05-03 전정욱 빅데이터 기반 업무 관리 시스템 및 방법

Also Published As

Publication number Publication date
KR20210027853A (ko) 2021-03-11

Similar Documents

Publication Publication Date Title
CN105654950B (zh) 自适应语音反馈方法和装置
US10922355B2 (en) Method and apparatus for recommending news
CN107832468B (zh) 需求识别方法和装置
EP3579124A1 (en) Method and apparatus for providing search results
WO2017113645A1 (zh) 信息提取方法和装置
WO2017071251A1 (zh) 信息推送方法和装置
US8315430B2 (en) Object recognition and database population for video indexing
CN107241260B (zh) 基于人工智能的新闻推送的方法和装置
WO2018213326A1 (en) Predicting intent of a search for a particular context
KR102348084B1 (ko) 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US11741094B2 (en) Method and system for identifying core product terms
CN105224554A (zh) 推荐搜索词进行搜索的方法、系统、服务器和智能终端
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN113806588B (zh) 搜索视频的方法和装置
CN113239275B (zh) 信息推送方法、装置、电子设备和存储介质
US11106756B2 (en) Enhanced browser tab management
EP4134921A1 (en) Method for training video label recommendation model, and method for determining video label
CN107977678A (zh) 用于输出信息的方法和装置
CN103970791A (zh) 一种从视频库推荐视频的方法、装置
CN110990598A (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN110750707A (zh) 关键词推荐方法、装置和电子设备
CN106021319A (zh) 语音交互方法、装置及系统
KR102245942B1 (ko) 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법
CN110245357A (zh) 主实体识别方法和装置
US20140223466A1 (en) Method and Apparatus for Recommending Video from Video Library

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant