KR20230025200A - 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템 - Google Patents

국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템 Download PDF

Info

Publication number
KR20230025200A
KR20230025200A KR1020210107429A KR20210107429A KR20230025200A KR 20230025200 A KR20230025200 A KR 20230025200A KR 1020210107429 A KR1020210107429 A KR 1020210107429A KR 20210107429 A KR20210107429 A KR 20210107429A KR 20230025200 A KR20230025200 A KR 20230025200A
Authority
KR
South Korea
Prior art keywords
news
information
articles
domestic
foreign
Prior art date
Application number
KR1020210107429A
Other languages
English (en)
Inventor
노기섭
박지용
이현무
Original Assignee
청주대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 청주대학교 산학협력단 filed Critical 청주대학교 산학협력단
Priority to KR1020210107429A priority Critical patent/KR20230025200A/ko
Publication of KR20230025200A publication Critical patent/KR20230025200A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • G06F16/90328Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 뉴스와 같은 언론보도나 매체(media)의 영향력 및 그 전파특성을 분석하고 평가하기 위한 장치 및 방법에 관한 것으로, 본 발명에 따르면, 텍스트 마이닝(Text Mining) 기법을 이용하여 각 국가별로 언론사에 대하여 동일한 키워드에 대한 기사를 수집하고, 외국의 기사와 관련있는 국내 기사에 대한 이분 그래프(Bipartite graph)를 작성하며, 작성된 이분 그래프에 근거하여 날짜순으로 빈도수를 측정하여 그래프를 생성하고 관련 기사가 폭증한 날짜들을 피크(peak) 날짜로 선정하여 추출하며, 각 피크 날짜별 이슈들에 대하여 기사들의 단어 빈도수를 그래프로 나타내고 연관성을 분석하는 것에 의해 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악할 수 있는 동시에, 외국 기사들과 연관성이 있는 기사를 작성한 국내 언론사를 조사하여 어느 국내 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템이 제공된다.

Description

국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템{Method for analyzing propagation characteristics of cross-border news influence and information analysis system using thereof}
본 발명은 뉴스와 같은 언론보도나 매체(media)의 영향력 및 그 전파특성을 분석하고 평가하기 위한 장치 및 방법에 관한 것으로, 더 상세하게는, 외국에서 발생한 주요 이슈가 해당 국가의 언론을 통해 정보 형태로 생성되고 국내 언론으로 전파되어 정치, 사회 경제 등 다양한 분야에 영향을 미치게 되나, 이와 같이 외국 언론에서 생성되는 국가간 주요 이슈에 대한 정보가 어떠한 정보전달 특성과 전파속도를 가지는지를 분석하여 외국 언론이 국내 언론에 미치는 영향력 및 전파 특성을 파악할 수 있는 방법은 제시된 바 없었던 기존의 뉴스 데이터 수집 및 분석방법들의 문제점을 해결하기 위해, 비정형(Unstructured) 및 반정형(Semi structured)의 텍스트 데이터로부터 자연어 처리 기술(Natural Language Processing)을 통해 이전에 알려지지 않은 새로운 정보를 발견하는 기술인 텍스트 마이닝(Text Mining) 기법을 이용하여, 외국 언론의 기사가 국내 언론사의 기사에 어떤 영향을 미치는지를 수치화하고, 연결망 시각화, 트렌드 및 이슈 분석, 정보전달 속도 측정, 핵심 키워드 등장 및 소멸 패턴 분석을 수행하는 것에 의해, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하여 정보전달 분석의 기초 프레임을 제공할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템에 관한 것이다.
또한, 본 발명은, 상기한 바와 같이 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 분석하기 위해, 텍스트 마이닝 기법을 이용하여 각 국가별로 언론사에 대하여 동일한 키워드에 대한 기사를 수집하고, 외국의 기사와 관련있는 국내 기사에 대한 이분 그래프(Bipartite graph)를 작성하며, 작성된 이분 그래프에 근거하여 날짜순으로 빈도수를 측정하여 그래프를 생성하고 관련 기사가 폭증한 날짜들을 피크(peak) 날짜로 선정하여 추출하며, 각 피크 날짜별 이슈들에 대하여 기사들의 단어 빈도수를 그래프로 나타내고 연관성을 분석하는 것에 의해 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악할 수 있는 동시에, 외국 기사들과 연관성이 있는 기사를 작성한 국내 언론사를 조사하여 어느 국내 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템에 관한 것이다.
최근, 인터넷이 발달함에 따라 뉴스나 각종 미디어들도 기존의 종이신문이나 공중파 방송의 형태에서 벗어나 디지털 기술에 기반한 다양한 경로 및 형태로 각종 뉴스 및 정보를 전달하고 있다.
아울러, 이와 같은 추세에 따라 뉴스나 정보를 생산하고 전달하는 주체인 언론이나 각종 매체들의 수도 크게 증가하고 있으며, 이에, 무분별한 정보생성 및 전달로 인한 폐해를 방지하기 위해 언론보도나 매체의 영향력을 객관적으로 정확하게 분석하고 평가하는 것이 요구되고 있다.
여기서, 상기한 바와 같이 언론보도나 매체의 영향력을 분석하고 평가하기 위한 장치 및 방법에 대한 종래기술의 예로는, 먼저, 예를 들면, 한국 등록특허공보 제10-2250281호에 제시된 바와 같은 "이슈에 대한 미디어지수를 산출하는 장치 및 방법"이 있다.
더 상세하게는, 상기한 한국 등록특허공보 제10-2250281호는, 매체가 이슈에 대하여 보도하는 단위 보도물들의 집합인 이슈보도정보를 수집하는 이슈보도정보 수집부; 및 매체가 이슈보도정보를 구성하는 단위 보도물들을 보도하는 비중을 기준으로 부여된 보도비중계수(Q), 매체가 단위 보도물들을 보도하는 태도를 기준으로 부여된 보도태도계수(A), 매체의 영향력을 기준으로 부여된 매체특성계수(G)를 곱하여 단위 보도물들에 대한 단위 미디어지수들을 계산하고, 단위 미디어지수들을 합산한 값을 이슈보도정보에 대한 수집일수로 나누어 이슈에 대한 미디어지수를 추출하는 미디어지수 추출부를 포함하여, 언론보도를 통한 사회적인 이슈 확산정도를 체계적이고 객관적으로 판단하기 위한 개량화된 척도를 제공할 수 있으며, 언론 매체가 사회 구성원에 미치는 영향력, 언론 매체가 이슈를 보도하는 비중, 언론 매체의 보도 태도 등을 전체적으로 고려하여 이슈에 대한 미디어지수를 산출함으로써 이슈에 대한 평가 신뢰성을 향상시킬 수 있도록 구성되는 미디어지수 산출장치 및 방법에 관한 것이다.
또한, 상기한 바와 같이 언론보도나 매체의 영향력을 분석하고 평가하기 위한 장치 및 방법에 대한 종래기술의 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1316318호에 제시된 바와 같은 "방송 컨텐츠 평가 시스템"이 있다.
더 상세하게는, 상기한 한국 등록특허공보 제10-1316318호는, CPI(컨텐츠 정량 지수 ; Consumer's Content Power Indicator) 연산모듈; CVI(컨텐츠 정성 지수 ; Consumer's Content Value Index) 연산모듈; 및 CPI 연산모듈 및 CVI 연산모듈과 연결되는 CoB(컨텐츠 평가 지수 ; Consumer's Content Consuming Behavior) 연산모듈을 포함하여, 지상파 TV, CATV, IPTV의 시청자수 조사에 그쳤던 종래의 조사방법을 N-screen 영역으로 확대시키고, 방송 컨텐츠로 인하여 유발되는 다양한 시청자 행동들을 체계적으로 조사하여 그 결과를 반영함으로써 방송 컨텐츠의 평가를 보다 종합적이고 객관적으로 평가할 수 있도록 구성되는 방송 컨텐츠 평가 시스템에 관한 것이다.
상기한 바와 같이, 종래, 언론보도나 매체의 영향력을 분석하고 평가하기 위해 다양한 장치 및 방법들이 제시된 바 있으나, 상기한 바와 같은 종래기술의 내용들은 다음과 같은 한계가 있는 것이었다.
즉, 예를 들면, 미국 대통령 선거 등과 같이, 현대 사회에서는 외국에서 주요 이슈가 발생하면 해당 국가의 언론을 통해 국내 언론으로 전파되고, 그 내용에 따라서는 국내의 정치, 사회 경제 등 다양한 분야에도 큰 영향을 미치고 있다.
이에, 수시로 변화하는 국제 정세에 적절하게 대응하기 위하여는 외국 언론에서 생성되는 주요 이슈에 대한 정보가 어떠한 정보전달 특성과 전파속도를 가지는지를 분석하여 외국 언론이 국내 언론에 미치는 영향력 및 전파 특성을 객관적으로 정확히 파악하는 것이 요구되나, 상기한 바와 같은 종래기술의 내용들은 일반적으로 국내 언론이나 매체들을 대상으로 하고 있는 것이 대부분으로, 상기한 바와 같이 국가간에 전달되는 뉴스정보의 영향력 및 전파 특성을 분석할 수 있는 방법은 제시된 바 없었다.
따라서 상기한 바와 같은 종래기술의 문제점을 해결하기 위하여는, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하여 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악하고 어느 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있도록 구성되는 새로운 구성의 국가간 뉴스정보 분석방법 및 장치를 제시하는 것이 바람직하나, 아직까지 그러한 요구를 모두 만족시키는 장치나 방법은 제시되지 못하고 있는 실정이다.
한국 등록특허공보 제10-2250281호 (2021.05.03.) 한국 등록특허공보 제10-1316318호 (2013.10.01.)
본 발명은 상기한 바와 같은 종래기술의 문제점을 해결하고자 하는 것으로, 따라서 본 발명의 목적은, 외국에서 발생한 주요 이슈가 해당 국가의 언론을 통해 정보 형태로 생성되고 국내 언론으로 전파되어 정치, 사회 경제 등 다양한 분야에 영향을 미치게 되나, 이와 같이 외국 언론에서 생성되는 국가간 주요 이슈에 대한 정보가 어떠한 정보전달 특성과 전파속도를 가지는지를 분석하여 외국 언론이 국내 언론에 미치는 영향력 및 전파 특성을 파악할 수 있는 방법은 제시된 바 없었던 기존의 뉴스 데이터 수집 및 분석방법들의 문제점을 해결하기 위해, 비정형(Unstructured) 및 반정형(Semi structured)의 텍스트 데이터로부터 자연어 처리 기술(Natural Language Processing)을 통해 이전에 알려지지 않은 새로운 정보를 발견하는 기술인 텍스트 마이닝(Text Mining) 기법을 이용하여, 외국 언론의 기사가 국내 언론사의 기사에 어떤 영향을 미치는지를 수치화하고, 연결망 시각화, 트렌드 및 이슈 분석, 정보전달 속도 측정, 핵심 키워드 등장 및 소멸 패턴 분석을 수행하는 것에 의해, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하여 정보전달 분석의 기초 프레임을 제공할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템을 제시하고자 하는 것이다.
또한, 본 발명의 다른 목적은, 상기한 바와 같이 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 분석하기 위해, 텍스트 마이닝 기법을 이용하여 각 국가별로 언론사에 대하여 동일한 키워드에 대한 기사를 수집하고, 외국의 기사와 관련있는 국내 기사에 대한 이분 그래프(Bipartite graph)를 작성하며, 작성된 이분 그래프에 근거하여 날짜순으로 빈도수를 측정하여 그래프를 생성하고 관련 기사가 폭증한 날짜들을 피크(peak) 날짜로 선정하여 추출하며, 각 피크 날짜별 이슈들에 대하여 기사들의 단어 빈도수를 그래프로 나타내고 연관성을 분석하는 것에 의해 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악할 수 있는 동시에, 외국 기사들과 연관성이 있는 기사를 작성한 국내 언론사를 조사하여 어느 국내 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템을 제시하고자 하는 것이다.
상기한 바와 같은 목적을 달성하기 위해, 본 발명에 따르면, 국가간 뉴스정보 영향력 전파특성 분석방법에 있어서, 분석하고자 하는 주요 이슈에 관련된 뉴스기사에 대한 데이터를 수집하는 처리가 수행되는 데이터 수집단계; 상기 데이터 수집단계에서 수집된 각각의 뉴스기사 데이터간의 연결성을 고려하여 외국 기사와 국내 기사를 연결하는 연결 네트워크를 구축하고 이분 그래프(Bipartite graph)를 생성하는 처리가 수행되는 전처리단계; 상기 데이터 수집단계에서 수집된 각각의 뉴스기사 데이터 및 상기 전처리단계의 처리결과에 근거하여, 상기 주요 이슈에 대한 뉴스기사의 국가간 전달특성 및 전파속도를 분석하는 처리가 수행되는 전파속도 분석단계; 및 상기 데이터 수집단계, 상기 전처리단계, 상기 전달특성 분석단계 및 상기 전파속도 분석단계의 처리결과 및 동작을 포함하는 각종 데이터를 별도의 표시수단을 통해 표시하는 처리가 수행되는 출력단계를 포함하는 처리가 컴퓨터나 전용의 하드웨어에 의해 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법이 제공된다.
여기서, 상기 데이터 수집단계는, 분석대상 이슈와 데이터 수집을 위한 목표 플랫폼 및 키워드를 선정하고 데이터를 수집할 기간을 설정하는 처리가 수행되는 설정단계; 및 상기 설정단계에서 결정된 내용에 근거하여 분석하고자 하는 이슈에 관련된 뉴스기사에 대한 데이터를 수집하는 처리가 수행되는 수집단계를 포함하여 구성되는 것을 특징으로 한다.
또한, 상기 수집단계는, 각각의 목표 플랫폼별로 미리 구축된 데이터 크롤러(Crawler) 프로그램을 이용하여, 입력된 키워드에 근거하여 각각의 상기 목표 플랫폼으로부터 미리 설정된 수집기간에 해당하는 모든 뉴스기사를 자동으로 수집하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
아울러, 상기 전처리단계는, 외국 뉴스기사를 국내 뉴스기사와 연결하기 위해 각각의 뉴스기사에 대하여 미리 정해진 언어로 번역을 수행하여 언어를 통일하는 처리가 수행되는 번역단계; 상기 번역단계를 통해 언어가 통일된 각각의 해외 뉴스기사와 국내 뉴스기사사이의 연결성을 분석하여 연결망을 구축하는 처리가 수행되는 연결단계; 및 상기 연결단계의 처리결과에 근거하여, 해외 뉴스기사와 국내 뉴스기사의 연결 네트워크를 나타내는 이분 그래프(Bipartite Graph)를 생성하는 처리가 수행되는 네트워크 생성단계를 포함하여 구성되는 것을 특징으로 한다.
여기서, 상기 번역단계는, 구글의 Transformer 자동번역 알고리즘을 이용한 자동번역 시스템을 통하여 각각의 뉴스기사에 대한 번역작업이 자동으로 이루어지도록 구성되는 것을 특징으로 한다.
더욱이, 상기 연결단계는, 각각의 뉴스기사의 생성시간을 나타내는 생성정보에 근거하여, 해외 기사보다 생성시간이 빠른 국내 기사를 분석대상에서 제외하고, 특정 해외 뉴스기사가 국내에 영향을 미치는 시간에 대한 임계값(Threshold)을 나타내는 지연정보에 근거하여, 미리 정해진 기준값이 경과한 이후에 국내 언론에서 생성된 뉴스기사를 분석대상에서 제거하며, 해외 뉴스기사와 국내 뉴스기사의 연결을 위한 기준 단어 수를 나타내는 언어정보에 근거하여, 해외 뉴스기사의 제목과 국내 뉴스기사의 제목에 동일한 단어가 상기 언어정보에 설정된 개수 이상 포함되어 있는 경우 해당 뉴스기사들을 서로 연결하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
또한, 상기 네트워크 생성단계는, 상기 번역단계에서 번역된 각각의 뉴스기사 파일에 대하여 해외 뉴스기사의 작성날짜로부터 상기 지연정보에 설정된 미리 정해진 기준값 이내에 작성된 국내 뉴스기사들을 추출하고, 각각의 해외 뉴스기사와 국내 뉴스기사의 제목에 대하여 명사 추출을 수행하여 동일한 명사가 상기 언어정보에 설정된 개수 이상 포함된 국내 기사들을 해당 해외 뉴스기사 노드에 간선으로 연결하며, 각각의 노드(해외, 국내 뉴스기사) 정보와 간선(뉴스간 연결) 정보에 근거하여 상기 이분 그래프를 생성하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
아울러, 상기 분석단계는, 해외 뉴스기사로부터 영향을 받은 국내 뉴스기사의 수를 날짜별로 나타내고 최대-최소 정규화 방법을 통해 정규화하여, 특정 날짜에 특정 뉴스기사의 빈도 수가 증가하는 피크(peak) 현상의 발생 시점과 간격 및 강도에 대한 분석과, 각 피크에 영향을 받은 국내 기사에서 빈도 수가 높은 키워드를 추출하여 각 피크간 연결특성을 분석하는 것에 의해 주요 이슈의 국가간 전달특성을 분석하는 처리가 수행되는 전달특성 분석단계; 및 상기 전처리단계에서 생성된 이분 그래프에 근거하여 날짜별로 해외 뉴스기사가 생성된 시간과 해당 뉴스기사에 관련된 국내 뉴스기사가 생성된 시간 사이의 시차평균을 산출하고, 해외 뉴스기사가 작성된 후 해당 뉴스기사에 관련된 국내 뉴스기사가 생성되기까지의 소요 시간을 분석하는 것에 의해 국가간 뉴스정보 영향력의 전파속도를 분석하는 처리가 수행되는 전파속도 분석단계를 포함하여 구성되는 것을 특징으로 한다.
여기서, 상기 전달특성 분석단계는, 해외 뉴스기사로부터 영향을 받은 국내 연관 뉴스기사들의 빈도 수를 최대-최소 정규화 방법을 통해 날짜별로 정리하여 그래프로 나타내고, 각각의 피크(peak)에서 해외 뉴스기사에 영향을 받은 국내 뉴스기사의 본문에서 빈도 수가 높은 키워드를 미리 정해진 순위까지 날짜별로 추출하며, 추출된 키워드를 이전 피크(peak)에서 현재 피크(peak) 사이에 새로 진입한 키워드와 소멸된 키워드 및 계속 존재하는 키워드로 각각 구분하여 시각적으로 표시하는 것에 의해 각 피크(peak)와 피크(peak) 사이의 연결특성을 나타내는 처리가 수행되도록 구성됨으로써, 상기 주요 이슈에 대하여 해외 뉴스기사의 영향에 따른 국내 뉴스기사의 관심도 변화와, 국내 뉴스기사에 대한 해외 뉴스기사의 영향력 및 뉴스기사의 국가간 전달특성에 대한 분석이 이루어질 수 있도록 구성되는 것을 특징으로 한다.
더욱이, 상기 전파속도 분석단계는, 상기 전처리단계를 통하여 생성된 상기 이분 그래프에 근거하여, 날짜별로 해당 날짜에 생성된 해외 뉴스기사와 해당 뉴스기사에 영향받은 국내 뉴스기사들이 생성된 시간정보를 이용하여 해외 뉴스기사와 국내 뉴스기사 사이의 시차를 산출하고 국가간 시차평균을 구하여 그래프를 생성하며, 계산결과에 근거하여, 상기 주요 이슈에 관한 해외 뉴스기사가 작성된 후 해당 뉴스기사에 관련된 국내 뉴스기사가 생성되기까지의 소요시간을 산출하고, 해외 뉴스기사와 국내 뉴스기사 사이의 최대 시차, 최소 시차, 평균 시차를 각각 산출하여 국가간 뉴스정보의 전파속도 및 전파속도에 따른 영향력에 대한 분석을 수행하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
또한, 상기 전파속도 분석단계는, 국제 표준시인 그리니치 시간 GMT+00을 기준으로 각각의 시간정보를 통일하여 상기 시차 및 상기 국가간 시차평균을 각각 계산하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
아울러, 상기 출력단계는, 상기 데이터 수집단계, 상기 전처리단계, 상기 전달특성 분석단계 및 상기 전파속도 분석단계의 처리과정 및 처리결과를 포함하는 각종 데이터와 동작상태를 포함하는 각종 데이터를 모니터나 디스플레이를 포함하는 별도의 표시수단을 통해 표시하는 동시에, 각 처리단계에서 처리되는 각종 데이터를 별도의 데이터 저장수단에 저장하고 별도의 유, 무선 통신수단을 통하여 외부 기기나 서버로 전송하는 처리가 수행되도록 구성되는 것을 특징으로 한다.
더욱이, 본 발명에 따르면, 국가간 뉴스정보 영향력 전파특성 분석을 위한 처리가 수행되도록 구성되는 정보분석 시스템에 있어서, 사용자에 의해 입력 또는 미리 설정된 주요 이슈에 대하여 국내외 뉴스기사를 수집하고 국가간 전달특성 및 전파속도를 분석하는 처리가 수행되는 정보분석부; 및 상기 정보분석부에 의해 처리된 분석결과를 표시수단을 통해 시각적으로 표시하고 유, 무선 통신수단을 통하여 외부로 전송하는 처리가 수행되는 정보제공부를 포함하여 구성되고, 상기 정보분석부는, 상기에 기재된 국가간 뉴스정보 영향력 전파특성 분석방법을 이용하여 분석작업이 수행되도록 구성되는 것을 특징으로 하는 정보분석 시스템이 제공된다.
여기서, 상기 정보분석부 및 상기 정보제공부는, 서버나 PC를 포함하는 정보처리장치를 이용하여 각각 구성되거나, 또는, 스마트폰이나 태블릿 PC 및 노트북을 포함하는 개인이 휴대가능한 정보통신 단말장치에 전용의 어플리케이션 프로그램을 설치하여 각각 구성되는 것을 특징으로 한다.
상기한 바와 같이, 본 발명에 따르면, 비정형(Unstructured) 및 반정형(Semi structured)의 텍스트 데이터로부터 자연어 처리 기술(Natural Language Processing)을 통해 이전에 알려지지 않은 새로운 정보를 발견하는 기술인 텍스트 마이닝(Text Mining) 기법을 이용하여, 외국 언론의 기사가 국내 언론사의 기사에 어떤 영향을 미치는지를 수치화하고, 연결망 시각화, 트렌드 및 이슈 분석, 정보전달 속도 측정, 핵심 키워드 등장 및 소멸 패턴 분석을 수행하는 것에 의해, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하여 정보전달 분석의 기초 프레임을 제공할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템이 제공됨으로써, 외국에서 발생한 주요 이슈가 해당 국가의 언론을 통해 정보 형태로 생성되고 국내 언론으로 전파되어 정치, 사회 경제 등 다양한 분야에 영향을 미치게 되나, 외국 언론에서 생성되는 국가간 주요 이슈에 대한 정보가 어떠한 정보전달 특성과 전파속도를 가지는지를 분석하여 외국 언론이 국내 언론에 미치는 영향력 및 전파 특성을 파악할 수 있는 방법은 제시된 바 없었던 기존의 뉴스 데이터 수집 및 분석방법들의 문제점을 해결할 수 있다.
또한, 본 발명에 따르면, 상기한 바와 같이 텍스트 마이닝 기법을 이용하여 각 국가별로 언론사에 대하여 동일한 키워드에 대한 기사를 수집하고, 외국의 기사와 관련있는 국내 기사에 대한 이분 그래프(Bipartite graph)를 작성하며, 작성된 이분 그래프에 근거하여 날짜순으로 빈도수를 측정하여 그래프를 생성하고 관련 기사가 폭증한 날짜들을 피크(peak) 날짜로 선정하여 추출하며, 각 피크 날짜별 이슈들에 대하여 기사들의 단어 빈도수를 그래프로 나타내고 연관성을 분석하는 것에 의해 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 분석하고 판단할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템이 제공됨으로써, 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악할 수 있는 동시에, 외국 기사들과 연관성이 있는 기사를 작성한 국내 언론사를 조사하여 어느 국내 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있다.
도 1은 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법의 전체적인 구성을 개략적으로 나타내는 플로차트이다.
도 2는 본 발명의 실시예에 적용된 정보수집 크롤러로서 워싱턴포스트(Washington Post)에 대한 정보수집 크롤러의 전체적인 처리과정을 개략적으로 나타내는 플로차트이다.
도 3은 본 발명의 실시예에 적용된 정보수집 크롤러로서 뉴욕타임즈(New York Times)에 대한 정보수집 크롤러의 전체적인 처리과정을 개략적으로 나타내는 플로차트이다.
도 4는 본 발명의 실시예에 적용된 정보수집 크롤러로서 빅카인즈(BIGKinds)에 대한 정보수집 크롤러의 전체적인 처리과정을 개략적으로 나타내는 플로차트이다.
도 5는 각각의 정보수집 크롤러에 의해 수집된 뉴스기사의 수집 결과를 표로 정리하여 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법에 의해 생성된 미국 기사와 한국 기사의 연관성을 나타내는 이분 그래프(Bipartite graph)이다.
도 7은 해외 뉴스기사(워싱턴포스트)로부터 영향을 받은 국내 연관기사들의 빈도 수를 날짜별로 정리하여 그래프로 나타낸 도면이다.
도 8은 주요 피크(peak)에서의 연관기사의 수를 날짜별로 정리하여 표로 나타낸 도면이다.
도 9는 각각의 피크(peak)에 대하여 날짜별로 상위 20개의 키워드를 추출한 결과를 나타내는 도면이다.
도 10은 미국 뉴스기사와 국내 뉴스기사 사이의 시차를 그래프로 정리하여 나타낸 도면이다.
도 11은 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법을 이용한 정보분석 시스템의 전체적인 구성을 개략적으로 나타내는 블록도이다.
이하, 첨부된 도면을 참조하여, 본 발명에 따른 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템의 구체적인 실시예에 대하여 설명한다.
여기서, 이하에 설명하는 내용은 본 발명을 실시하기 위한 하나의 실시예일 뿐이며, 본 발명은 이하에 설명하는 실시예의 내용으로만 한정되는 것은 아니라는 사실에 유념해야 한다.
또한, 이하의 본 발명의 실시예에 대한 설명에 있어서, 종래기술의 내용과 동일 또는 유사하거나 당업자의 수준에서 용이하게 이해하고 실시할 수 있다고 판단되는 부분에 대하여는, 설명을 간략히 하기 위해 그 상세한 설명을 생략하였음에 유념해야 한다.
즉, 본 발명은, 후술하는 바와 같이, 외국에서 발생한 주요 이슈가 해당 국가의 언론을 통해 정보 형태로 생성되고 국내 언론으로 전파되어 정치, 사회 경제 등 다양한 분야에 영향을 미치게 되나, 이와 같이 외국 언론에서 생성되는 국가간 주요 이슈에 대한 정보가 어떠한 정보전달 특성과 전파속도를 가지는지를 분석하여 외국 언론이 국내 언론에 미치는 영향력 및 전파 특성을 파악할 수 있는 방법은 제시된 바 없었던 기존의 뉴스 데이터 수집 및 분석방법들의 문제점을 해결하기 위해, 비정형(Unstructured) 및 반정형(Semi structured)의 텍스트 데이터로부터 자연어 처리 기술(Natural Language Processing)을 통해 이전에 알려지지 않은 새로운 정보를 발견하는 기술인 텍스트 마이닝(Text Mining) 기법을 이용하여, 외국 언론의 기사가 국내 언론사의 기사에 어떤 영향을 미치는지를 수치화하고, 연결망 시각화, 트렌드 및 이슈 분석, 정보전달 속도 측정, 핵심 키워드 등장 및 소멸 패턴 분석을 수행하는 것에 의해, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하여 정보전달 분석의 기초 프레임을 제공할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템에 관한 것이다.
아울러, 본 발명은, 후술하는 바와 같이, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 분석하기 위해, 텍스트 마이닝 기법을 이용하여 각 국가별로 언론사에 대하여 동일한 키워드에 대한 기사를 수집하고, 외국의 기사와 관련있는 국내 기사에 대한 이분 그래프(Bipartite graph)를 작성하며, 작성된 이분 그래프에 근거하여 날짜순으로 빈도수를 측정하여 그래프를 생성하고 관련 기사가 폭증한 날짜들을 피크(peak) 날짜로 선정하여 추출하며, 각 피크 날짜별 이슈들에 대하여 기사들의 단어 빈도수를 그래프로 나타내고 연관성을 분석하는 것에 의해 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악할 수 있는 동시에, 외국 기사들과 연관성이 있는 기사를 작성한 국내 언론사를 조사하여 어느 국내 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템에 관한 것이다.
계속해서, 도면을 참조하여, 본 발명에 따른 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템의 구체적인 내용에 대하여 설명한다.
더 상세하게는, 먼저, 도 1을 참조하면, 도 1은 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법의 전체적인 구성을 개략적으로 나타내는 플로차트이다.
도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법은, 크게 나누어, 데이터 수집을 위한 목표 플랫폼 및 분석대상 이슈를 선정하고 데이터를 수집할 기간을 설정하여 분석하고자 하는 이슈에 관련된 뉴스기사에 대한 데이터를 수집하는 처리가 수행되는 데이터 수집단계(S10)와, 데이터 수집단계(S10)에서 수집된 각각의 뉴스기사 데이터간의 연결성을 고려하여 외국 기사와 국내 기사를 연결하는 연결 네트워크를 구축하고 이분 그래프(Bipartite graph)를 생성하는 처리가 수행되는 전처리단계(S20)와, 날짜별 연관기사의 빈도수를 정규화한 그래프에 근거하여 피크(peak) 발생시점과 간격, 강도 및 각 피크간 연결특성을 분석하여 주요 이슈에 대한 국가간 전달특성을 분석하는 처리가 수행되는 전달특성 분석단계(S30)와, 전처리단계(S20)에서 생성된 이분 그래프에 근거하여 날짜별로 외국 기사와 관련된 국내 기사의 시차에 대한 평균 그래프를 생성하고 외국 기사가 국내 언론에 영향을 미치기까지의 소요시간을 파악하여 국가간 정보 영향력 전파속도에 대한 분석을 행하는 처리가 수행되는 전파속도 분석단계(S40) 및 상기한 전달특성 분석단계(S30) 및 전파속도 분석단계(S40)의 처리결과를 포함하는 각종 데이터를 모니터 등과 같은 별도의 표시수단을 통해 표시하거나 사용자 단말기 및 서버 등과 같은 외부 기기로 전송하고 별도의 저장수단에 저장하는 처리가 수행되는 출력단계(S50)를 포함하는 일련의 처리과정이 컴퓨터나 전용의 하드웨어에 의해 수행되도록 구성될 수 있다.
여기서, 상기한 데이터 수집단계(S10)는, 후술하는 바와 같이 하여, 미리 구축된 데이터 크롤러(Crawler) 프로그램을 통해 목표 플랫폼으로부터 설정된 수집기간에 해당하는 모든 언론 정보(뉴스기사)를 자동으로 수집하는 처리가 수행되도록 구성될 수 있다.
또한, 상기한 전처리단계(S20)는, 후술하는 바와 같이 하여, 먼저, 외국 뉴스기사를 국내 뉴스기사와 연결하기 위해 번역을 수행하여 언어를 통일하고, 시간과 언어 정보를 동시에 고려하여 번역된 외국 기사를 국내 기사와 연결하여 외국 뉴스기사와 국내 뉴스기사의 연결 네트워크를 구축하는 것에 의해 이분 그래프(Bipartite Graph)를 생성하는 처리가 수행되도록 구성될 수 있다.
아울러, 상기한 전달특성 분석단계(S30)는, 후술하는 바와 같이 하여, 외국 뉴스기사로부터 영향을 받은 국내 뉴스기사의 수를 날짜별로 나타내고 최대-최소 정규화 방법을 통해 정규화하여, 특정 날짜에 뉴스기사 수가 높아지는 피크(peak) 현상의 발생 시점과 간격 및 강도에 대한 분석과, 각 피크에 영향을 받은 국내 기사에서 빈도수가 높은 키워드를 추출하여 각 피크간 연결특성을 분석하는 것에 의해 주요 이슈의 국가간 전달특성을 분석하는 처리가 수행되도록 구성될 수 있다.
더욱이, 상기한 전파속도 분석단계(S40)는, 후술하는 바와 같이 하여, 전처리단계(S20)에서 생성된 이분 그래프를 분석하여 날짜별로 외국 기사가 생성된 시간과 해당 기사에 관련된 국내 기사가 생성된 시간 사이의 시차평균을 산출하고 외국 기사가 작성되어 해당 기사가 국내 언론에 미치기까지의 소요 시간을 파악하는 것에 의해 국가간 뉴스정보 영향력의 전파속도를 분석하는 처리가 수행되도록 구성될 수 있다.
또한, 상기한 출력단계(S50)는, 상기한 각 단계(S10 ~ S40)의 처리과정 및 처리결과를 포함하는 각종 데이터와 동작상태 등의 정보를 모니터나 디스플레이 등의 표시수단을 통해 사용자에게 표시하는 처리가 수행되도록 구성될 수 있으며, 이에 더하여, 상기한 각 처리단계에서 처리되는 각종 데이터를 별도의 데이터 저장수단에 저장하고 별도의 유선 및/또는 무선 통신수단을 통하여 PC와 같은 외부 기기나 스마트폰 또는 태블릿 PC 등과 같은 사용자 단말기 및 서버 등에 각종 데이터를 전송하는 처리가 필요에 따라 수행되도록 구성될 수 있다.
계속해서, 상기한 바와 같이 하여 구성되는 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법을 이용하여 실제로 외국 언론이 국내 언론에 미치는 영향을 분석한 내용을 통하여 상기한 각 처리단계의 보다 구체적인 구성에 대하여 설명한다.
여기서, 이하에 설명하는 본 발명의 실시예에서는, 2020년 미국 대통령 선거와 관련하여 미국 대선후보가 대한민국 언론에 끼치는 영향을 텍스트 마이닝 기법을 통해 분석한 내용을 예로 하여 본 발명을 설명하였으나, 본 발명은 반드시 이하에 제시된 실시예의 내용으로만 한정되는 것은 아니며, 즉, 본 발명은, 본 발명의 취지 및 본질을 벗어나지 않는 범위 내에서 당업자에 의해 필요에 따라 다양하게 수정 및 변경하여 적용될 수 있는 것임에 유념해야 한다.
더 상세하게는, 예를 들면, 미국의 대통령 선거와 같이, 해외의 주요 이슈는 일반적으로 해당 국가의 언론을 통해 정보 형태로 생성된 후 국내 언론으로 전파되어 정치, 사회 경제 등 국내의 다양한 분야에 영향을 미치게 된다.
또한, 미국의 대통령 선거는 세계 각국에 영향을 미치는 주요 행사이며, 이에, 종래, 미국 대선이 한국에 미치는 영향에 관해 많은 연구가 진행되었으나, 종래의 연구들은 주로 미국 대선이 특정 분야에 미치는 영향을 분석한 것에만 그치는 것이 대부분이었다.
즉, 종래, 예를 들면, 미국 대선과 한미관계, 미국 대선 결과가 한국의 보험산업에 미치는 영향, 한반도 외교 전략에 미치는 영향 등에 대한 연구가 진행된 바 있으나, 미국의 대선 결과는 이보다 훨씬 다양한 분야에 영향을 미치고 있으므로 그 영향력을 보다 정확히 파악하기 위하여는 데이터 기반의 종합적 접근 방식이 필요하다.
이에, 본 발명자들은, 후술하는 바와 같이, 미국의 대선이 국내의 다양한 영역에 영향을 미칠 것이라는 가정하에 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 측정하고 분석하였다.
이를 위해, 본 발명에서는, 수많은 미국 기사와 국내 기사들과의 연관성을 통해 미국 대선이 국내 언론사에 미치는 영향을 파악하기 위해 2020년 미국 대선에 관한 기사들로 텍스트 마이닝(Text Mining)을 진행하였다.
여기서, 텍스트 마이닝이란, 비정형(Unstructured) 및 반정형(Semi structured)의 텍스트 데이터로부터 자연어 처리 기술(Natural Language Processing)을 통해 이전에 알려지지 않은 새로운 정보를 발견하는 기술이며, 본 발명에서는 한국 기사와 미국 기사간의 이분 그래프(Bipartite Graph)를 생성하여 미국 기사가 한국 기사에 끼치는 영향에 대해 분석하였다.
아울러, 본 발명에서는, 기사의 작성시간, 대선후보들 간의 연관기사와 관련기사를 많이 작성한 언론사 등 여러가지 정보를 도출하여 미국 대선후보에 관한 기사가 한국 기사에 어떤 영향을 미치는지 수치화하고, (1) 연결망 시각화, (2) 트렌드 및 이슈 분석, (3) 정보전달 속도 측정, (4) 핵심 키워드 등장 소멸 패턴 분석을 수행하였다.
따라서 이러한 과정을 통하여, 본 발명에 따르면, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하고 정보전달 분석의 기초 프레임을 제공할 수 있을 것으로 기대된다.
계속해서, 상기한 바와 같이 하여 구성되는 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법에 있어서, 먼저, 데이터 수집을 위한 목표 플랫폼을 선정하는 과정의 구체적인 내용에 대하여 설명한다.
즉, 본 발명자들은 미국 대선후보가 언론에 미치는 영향을 파악하기 위해 미국 언론의 뉴스기사를 수집하였으며, 이를 위해, 미국 언론 플랫폼으로서 미국의 10대 일간지중 The Washington Post와 The New York Times를 선정하였고, 한국 국내 언론정보를 분석하기 위한 데이터를 확보하기 위해 국내 54개 언론사 뉴스를 수집, 저장하여 전국민이 사용할 수 있도록 제공하고 국내 최대규모 DB를 사용하는 대표적인 뉴스 빅데이터 수집/분석/제공 서비스 플랫폼인 빅카인즈(BIGKinds)를 선정하였다.
다음으로, 분석대상 이슈 선정 및 데이터 수집기간 설정에 대하여 설명하면, 미국의 주요 이슈가 미국 뉴스정보로 생성되어 한국 언론으로 전파되는 데이터 기반 특성을 파악하기 위해서는 미국의 분석대상 이슈를 선정해야 하며, 이에, 본 발명자들은, 미국의 대선 관련 이슈를 목표 분석대상 이슈로 선정하였다.
아울러, 미국 대선 이슈 관련기사 수집은 미국 대선이 시작하는 2020년 11월 3일부터 대통령 취임식인 2021년 1월 20일까지의 데이터를 수집하였고, 해당 기간(총 79일)의 뉴스 데이터를 목표 플랫폼인 워싱턴포스트, 뉴욕타임즈, 빅카인즈에서 수집하였다.
더 상세하게는, 본 발명자들은 상기한 3개의 목표 플랫폼의 자료수집을 위해 파이썬(Python) 프로그래밍 언어를 사용하여 크롤러(Crawler) 프로그램을 직접 구현하였고, 데이터 크롤러를 통해 목표 플랫폼으로부터 설정된 수집기간에 해당하는 모든 언론정보(뉴스기사)를 자동으로 수집하였다.
이때, 3개의 목표 플랫폼은 뉴스 제공형태가 서로 상이하므로 데이터 크롤러를 각각 구현하였으며, 최종적으로 미국용 2개 및 국내용 크롤러 1개의 크롤러가 구현되었고, 이를 실행하여 자료수집을 자동화하였다.
즉, 도 2 내지 도 4를 참조하면, 도 2 내지 도 4는 상기한 각각의 정보수집 크롤러의 전체적인 처리과정을 개략적으로 나타내는 플로차트로서, 도 2는 워싱턴포스트(Washington Post), 도 3은 뉴욕타임즈(New York Times), 도 4는 빅카인즈(BIGKinds)에 대한 정보수집 크롤러의 동작을 각각 나타내고 있다.
도 2 내지 도 4에 나타낸 바와 같이, 먼저, 미국 언론 플랫폼인 워싱턴포스트와 뉴욕타임즈의 경우, 뉴스기사 링크 수집을 위해 Selenium 라이브러리를 통해 2020년 미국 대선 후보인 "Trump"와 "Biden" 키워드를 파라미터로 전달하여 반환되는 모든 뉴스정보를 각각 수집하였고, 목표 수집기간인 20.11.03. ~ 2021.01.20. 사이의(79일간) 뉴스기사 중 제목에 "Trump"와 "Biden" 키워드를 반드시 포함하는 기사들의 링크에 대해 grequests 라이브러리를 통해 비동기적 요청으로 페이지를 반환받았으며, 이후 BeautifulSoup 라이브러리를 이용해 기사 링크, 기사 제목, 기사 날짜, 기자 이름, 기사 본문을 추출하여 json 형식 파일로 각각 저장하였다.
또한, 한국 언론 플랫폼 빅카인즈의 경우 웹사이트 내부적으로 기사 ID를 요청하는 API URL이 존재하므로, 먼저, 미국 대선후보 "트럼프", "바이든"을 키워드로 하고 수집기간은 2020.11.03. ~ 2021.01.20.(79일간)로 하여 검색조건들을 설정한 페이로드(Payload)를 구성하였다.
여기서, 페이로드(Payload)란, 인터넷을 통해 전송되는 데이터 중 패킷의 소스와 목적지를 식별하는 헤더정보를 제외한 실제 데이터를 의미하며, 헤더정보는 전송 프로세서에서만 사용되고 목적지에 도달하면 패킷에서 제거되므로 페이로드(Payload)는 대상 시스템에서 수신하는 유일한 데이터가 된다.
따라서 해당 API URL에 수집조건 페이로드(Payload)를 포함하여 POST 요청을 보내 기사 ID들을 수집하였고, 기사 본문 URL의 기사 ID 부분에 수집한 기사 ID를 넣고 GET Request를 전송하여 기사 ID, 기사 제목, 기사 날짜, 기자 이름, 언론사, 기사 본문 내용을 수집하여 JSON(Java Script Object Notation) 형식의 파일로 저장하였다.
즉, 도 5를 참조하면, 도 5는 상기한 바와 같이 하여 각각의 정보수집 크롤러에 의해 수집된 뉴스기사의 수집 결과를 표로 정리하여 나타낸 도면이다.
도 5에 나타낸 바와 같이, 2020년 미국 대선후보 트럼프와 바이든의 키워드에 대해 미국 플랫폼과 한국 플랫폼에서 각각 데이터를 수집한 결과 총 3개의 json 형식 파일이 생성되었다.
더 상세하게는, JSON 파일구조를 구체적으로 설명하면, 도 5의 표에서 "Washington Post"는 1개의 파일에 총 10,588개의 뉴스기사 정보가 포함되어 있고, 10,588개 각각의 뉴스기사 정보에는 기사 ID, 기사 제목, 기사 날짜, 기자 이름, 언론사, 기사 본문 내용이 포함되어 있다.
또한, 도 5의 표에 나타낸 바와 같이, 전체 데이터는 3개의 파일로 되어 있으며, 3개의 파일에는 "트럼프"와 "바이든"에 관련된 29,338개의 뉴스기사 각각에 대한 세부 정보가 포함되어 있다.
상기한 바와 같이 하여 미국 언론 정보 데이터를 수집한 후에는 각각의 미국 뉴스기사와 연관이 있는 국내 기사를 찾아야 하며, 이를 통해 미국 기사와 한국 기사의 연결상태를 구축하고 분석할 수 있다.
이에, 본 발명에서는, 미국과 국내 뉴스기사의 연결상태를 후술하는 바와 같이 3단계로 구축하였으며, 계속해서, 상기한 바와 같이 하여 수집된 데이터에 대한 데이터 전처리 과정의 구체적인 내용에 대하여 설명한다.
먼저, 미국 뉴스기사를 국내 뉴스기사와 연결하기 위한 전처리 방법의 첫번째 단계는, 번역을 수행하여 영어 또는 한국어를 기준으로 언어를 통일하는 작업을 수행하는 단계이다.
여기서, 본 실시예에서는 미국 이슈가 국내에 전파되는 특징을 파악하고자 하는 것이므로 영어를 기준으로 언어를 통일하였고, 자동번역 시스템을 구축하기 위하여 구글에서 제시한 Transformer를 자동번역 알고리즘으로 선정하였다.
즉, Transformer 아키텍처는 현재까지 가장 성능이 높은 번역 알고리즘으로 알려져 있으며, 일반적으로 "구글번역"이라는 명칭으로 상용화에 성공한 기술이나, 상용화된 구글번역 API에는 단어수, 일일 호출 횟수 등에 제약이 있으므로, 이에, 본 발명자들은, 이미 상용화된 구글번역 서비스를 무제한 활용하기 위하여 웹기반 구글번역에 접속하여 결과를 반환받는 프로그램을 구현하였다.
더 상세하게는, Selenium 라이브러리의 "동적 번역 크롤러"를 통해 번역 프로그램을 구현하였으며, 이와 같이 하여 구현된 동적 번역 크롤러는 각각 "Trump", "Biden"의 워싱턴포스트 기사 JSON 파일을 로딩하고 제목을 한국어로 번역하여 새로운 JSON 형식 파일로 저장하는 작업을 수행하도록 구성된다.
다음으로, 미국 뉴스기사를 국내 뉴스기사와 연결하기 위한 전처리 방법의 두 번째 단계는 번역된 미국 기사를 한국 기사와 연결하는 처리가 수행되는 단계로서, 본 실시예에서는, 후술하는 바와 같이 생성정보, 지연정보, 언어정보를 통해 시간과 언어를 동시에 고려하여 미국 뉴스기사를 한국 뉴스기사와 연결하도록 구성된다.
더 상세하게는, 먼저, 첫번째 고려사항으로, 미국 뉴스기사가 한국에 영향을 미치는 특성을 파악하는 것이므로 한국 기사는 미국 기사보다 생성시간이 빠를 수 없으며, 이를 위해, 기사의 생성시간을 나타내는 생성정보를 이용하도록 구성될 수 있다.
두번째 고려사항으로, 예를 들면, 미국 워싱턴포스트에서 특정 정보를 포함한 뉴스가 생성되고 1년 후에 한국 언론에서 해당 정보를 포함한 뉴스가 생성되었다면 해당 뉴스정보가 국내에 직접적인 영향을 주었다고 판단하기는 어려운 경우와 같이, 특정 해외 기사 정보가 국내에 영향을 주는 시간을 고려해야 한다.
아울러, 이를 위해서는 시간에 따른 적절한 가중치(Decay Weight) 또는 임계값(Threshold)의 설정이 필요하며, 본 실시예에서는 임계값(Threshold) 방식을 채택하였다.
즉, 상기한 지연정보는 각각의 기사정보에 대하여 고려대상에서 제외 여부를 판단하기 위해 미리 정해진 기준값으로 구성될 수 있으며, 예를 들면, 기준값을 2일로 지정하는 경우, 미국에서 뉴스가 생성되고 2일이 지난 이후에 한국 언론에서 생성된 뉴스는 영향성 고려대상에서 제거하도록 구성될 수 있다.
세번째 고려사항으로, 상기한 바와 같이 언어정보가 다른 미국 뉴스기사 제목을 한국어로 번역하더라도 한국 기사 제목과 정확히 일치할 수 없으므로, 이에, 상기한 언어정보로서 연결을 위한 "단어 수"의 기준을 설정하여 자동으로 연결망을 구축하도록 구성될 수 있다.
여기서, 상기한 고려사항 중 지연정보(기준값)와 언어정보(단어 수)는 하이퍼파라미터(Hyper-parameter)이므로 트레이드오프(Tradeoff)가 존재하게 된다.
즉, 지연정보(기준값)의 경우 네트워크 연결 기준시간을 길게 하면 많은 정보가 포함되지만 잡음(noise) 정보가 증가하는 반면, 기준시간을 줄이면 정보 전파속도를 예리하게 측정할 수 있지만 필요한 데이터가 제거(filter-out)되어 정확도가 떨어질 수 있으므로, 이에, 본 실시예에서는, 상기한 지연정보의 기준값을 2일(48시간)로 설정하였다.
더욱이, 언어정보에서 단어 수를 증가시키면 미국 기사와 일치성을 증가시킬 수 있으나, 높은 유사도를 가진 기사를 제거하여 정확도가 떨어지게(false negative 증가 성향) 되고, 반대로 단어 수를 줄이면 미국 기사와 연관성이 적은 한국 기사도 연결되어 정확도가 떨어지게(false positive 증가 성향) 된다.
이에, 본 실시예에서는, 미국과 한국의 뉴스기사를 연결하기 위한 기준으로 한국어로 번역된 미국 뉴스기사 제목에 포함된 단어 수를 3개로 선정하였다.
또한, 상기한 바와 같은 세 가지 고려사항을 반영하면 하나의 미국 뉴스에 다수의 한국 기사가 연결될 수 있으며, 이러한 상황의 예로는, 예를 들면, 뉴욕타임스에서 트럼프 관련기사를 생성하면 한국의 다수 언론사가 인용뉴스나 분석기사를 생성하는 경우로 해석할 수 있다.
아울러, 상기한 고려사항 중 지연정보(기준값)와 언어정보(단어 수)의 경우, 예를 들면, 딥러닝(Deep Learning) 이나 머신러닝(Machine Learning) 등과 같은 인공지능 알고리즘 및 인공신경망(Artificial Neural Network ; ANN) 등을 이용하여, 데이터가 충분히 누적된 이후 생성되는 연결 네트워크 크기와 내부특성 및 정성적 평가 등을 통해 하이퍼파라미터 튜닝(tunning)이 자동으로 수행되도록 구성될 수 있으며, 이와 같이 하여 장기간의 과정을 반복하면서 특성을 추출하는 것에 의해 학습 가능한 파라미터로 설정하여 자동 업데이트가 가능하도록 구성될 수 있다.
계속해서, 미국 뉴스기사를 국내 뉴스기사와 연결하기 위한 전처리 방법의 세 번째 단계는 미국 뉴스기사와 국내 뉴스기사의 연결 네트워크를 나타내는 이분 그래프(Bipartite Graph)를 생성하는 처리가 수행되는 정보연결 네트워크 생성단계이다.
여기서, 이분 그래프란, 그래프에서 정점 집합을 두 개의 그룹으로 나누었을 때 모든 간선의 양 끝 정점이 서로 다른 그룹에 속하는 형태의 그래프이며, 본 발명자들은, 후술하는 바와 같이 미국 기사와 관련있는 한국 기사들을 연관짓고 이분 그래프를 생성하여 분석하는 처리과정을 자동화할 수 있도록 하기 위한 프로그램을 구현하였다.
더 상세하게는, 본 실시예에서는, 명사 추출을 위해 Python Konlpy 라이브러리의 Mecab 형태소 분석 모듈을 사용하였으며, networkx 라이브러리를 사용하여 이분 그래프 자동생성 프로그램을 직접 구현하였고, 이러한 정보연결 네트워크(이분 그래프) 생성 프로그램의 작동순서는 다음과 같다.
(1) 번역된 미국과 국내 뉴스기사 JSON 파일을 불러와 사전(Dictionary) 자료형에 저장한다.
(2) 미국 기사를 한 개씩 읽으면서 미국 기사 날짜로부터 2일 이내에 작성된 한국 기사들의 리스트를 추출한다.
(3) 미국 기사 제목과 한국 기사 제목에 대하여 명사 추출을 수행하고, 동일 명사가 3개 이상 포함된 한국 기사들을 해당 미국 기사 노드에 간선으로 연결한다.
(4) 노드(미국, 국내 뉴스)와 간선(뉴스간 연결) 정보를 활용하여 이분 그래프를 생성한다.
즉, 도 6을 참조하면, 도 6은 상기한 바와 같은 본 발명의 실시예에 따른 방법에 의해 생성된 이분 그래프를 나타내는 도면으로, 미국 기사와 한국 기사의 연관성을 나타내는 이분 그래프이다.
여기서, 도 6에 나타낸 이분 그래프는 지면 관계상 뉴욕타임스와 국내 뉴스 정보간의 연결정보만 나타내고 있음에 유념해야 한다.
다음으로, 상기한 바와 같이 하여 수행된 전처리 단계의 처리결과에 근거하여 주요 이슈의 국가간 전달특성을 분석하는 처리가 수행되는 전달특성 분석단계(S30) 및 국가간 정보 영향력 전파속도에 대한 분석을 행하는 처리가 수행되는 전파속도 분석단계(S40)의 구체적인 내용에 대하여 설명한다,
먼저, 도 7을 참조하면, 도 7은 해외 뉴스기사(워싱턴포스트)로부터 영향을 받은 국내 연관기사들의 빈도 수를 날짜별로 정리하여 그래프로 나타낸 도면이다.
여기서, 도 7에 있어서, X축은 날짜를 나타내고 Y축은 해당 날짜에서 Trump와 Biden의 기사 수를 상대비율로 정규화한 것이며, 이때, 정규화 방법은 최대-최소 정규화 방법을 사용하였다.
또한, 도 7에 있어서, Trump가 우세한 날짜는 빨간색으로, Biden이 우세한 경우는 파란색으로 나타내었으며, 도 7에 나타낸 결과로부터 키워드 Trump에 대한 강도가 지속적으로 높게 유지되었고 간헐적으로 Biden 키워드가 일부 Trump를 역전하는 경향을 나타내는 것을 확인할 수 있다.
아울러, 분석대상 기간 중 Trump가 현직 미국 대통령이었던 점을 고려하면 해당 기간에 Trump에 관한 뉴스의 빈도가 높았던 것으로 추측할 수 있으나, 키워드 우세에 대한 보다 세부적인 분석은 정치적, 사회적 전문가의 분석이 필요하며, 본 발명의 궁극적인 목적은 국가간 정보의 전달의 자동화된 분석을 통해 데이터 기반 정량적 분석방법 및 장치를 제공하는 것임에 유념해야 한다.
더욱이, 도 7에 나타낸 바와 같이, 특정 날짜에 뉴스기사의 빈도 수가 높아지는 이른바 "피크(peak)" 현상이 발생하며, 이러한 피크(peak) 발생시점에서는 미국에서 대선과 관련된 사회적 이슈가 발생한 것을 확인하였다.
즉, 예를 들면, 도 7의 첫 번째 피크(peak)에 해당하는 2020년 11월 4일은 미국 트럼프 대통령의 대선결과 불복을 시사하는 발언이 있었던 날로, 해당 이슈는 미국 언론에 의해 뉴스라는 형태로 정보생성이 이루어지고 국내에는 영향을 받은 국내 언론을 통해 수용 → 재생성 → 전파의 과정을 통하여 전파되었으며, 본 발명의 실시예에서 제시된 자동화 및 시각화 방법을 이용하여 재생산된 피크(peak)의 발생 간격과 강도를 분석한다면 보다 많은 발견이 가능할 것으로 기대된다.
더 상세하게는, 본 발명자들은, 각 피크(peak)와 피크(peak) 사이의 연결특성을 파악하기 위하여 해당 피크(peak)에서 영향을 받은 국내 뉴스기사의 본문에서 빈도수가 높은 키워드 상위 20개(top 20)를 추출하였다.
이때, 키워드 빈도 수는 각 피크(peak) 날짜에 영향을 받은 국내 기사들의 본문을 하나의 텍스트 파일로 병합하여 명사만 추출하였고, 해당 명사 리스트에 대하여 불용어를 제거한 다음 Python Pandas 라이브러리를 통해 명사 빈도수 상위 20개를 추출하였다.
즉, 도 8을 참조하면, 도 8은 주요 피크(peak)에서의 연관기사의 수를 날짜별로 정리하여 표로 나타낸 도면이다.
여기서, 도 8에 나타낸 표에 있어서, "Birth"는 새롭게 top 20으로 진입하는 키워드이고, "Death"는 top 20에서 소멸하는 키워드이며, "Maintain"은 이전 피크(peak)에서 현재 피크(peak)까지 top 20에 계속 존재하는 키워드를 각각 나타내고 있표다.
아울러, 도 9를 참조하면, 도 9는 도 8에 나타낸 표의 내용을 시각화하여 나타낸 도면이다.
도 9에 있어서, 초록색 또는 빨간색 화살표 수가 증가하는 피크(peak) 간 연결은 미국의 뉴스에서 영향을 받은 국내 언론의 관심이 변화하고 있는 것으로 해석할 수 있고, 반면, 도 9의 마지막 3개의 피크(peak)처럼 파란색 화살표가 우세할 경우는 해당 이슈에 대한 관심이 계속 유지되고 있는 것으로 해석할 수 있다.
따라서 상기한 바와 같이 하여 해외 기사에 영향받은 국내 연관기사의 빈도 수에 대한 피크(peak)의 연결 특성을 분석하는 것에 의해 해외 기사의 영향력을 파악하고 주요 이슈에 대한 국가간 전달특성을 판단할 수 있다.
다음으로, 주요 이슈에 대한 국가간 전파속도를 분석하는 과정에 대하여 설명한다.
대선후보에 관한 미국 기사가 작성되고 해당 기사가 한국 언론에 미치기까지의 소요시간을 파악하기 위해, 본 발명자들은, 상기한 바와 같이 전처리 과정을 통하여 생성된 이분 그래프를 분석하여 날짜별로 미국 기사와 관련있는 한국 기사 사이의 시차를 산출하고 평균을 구하여 그래프를 생성하였다.
이때, 국가간 시차평균은 해당 날짜에 생성된 미국 뉴스와 그 뉴스에 영향받은 한국 뉴스들이 생성된 시간정보를 이용하였고, 미국과 한국은 시차가 존재함으로 인해 시간 기준의 설정이 필요하므로 국제 표준시인 그리니치 시간 GMT+00을 기준으로 통일하여 국가간 정보생성 시차를 계산하였다.
즉, 도 10을 참조하면, 도 10은 미국 뉴스기사와 국내 뉴스기사 사이의 시차를 그래프로 정리하여 나타낸 도면이다.
여기서, 도 10에 있어서, 도 10에 나타낸 결과는 New York Times에 대한 결과를 막대그래프로 나타낸 것이며, 도 10에서 X축은 날짜, Y축은 시차평균을 각각 시간 단위로 나타내고 있다.
도 10에 나타낸 바와 같이, 79일의 데이터 수집기간 동안 New York Times는 미국 대선후보에 관한 기사가 작성되고 나서 평균 11.5시간 후에 한국 언론에 영향을 미친 것으로 확인되었다.
또한, 도시되지는 않았으나, 수집된 데이터를 통해 Washington Post는 미국 대선후보에 관한 뉴스정보가 생성된 이후 평균 11.4시간 뒤에 한국 언론에 영향을 미치는 것으로 나타났다.
아울러, 상기한 바와 같이 하여 국가간 정보 영향력 전파속도를 분석한 결과 최대 시차는 21.2시간, 최소 시차는 6.8시간, 평균 시차는 11.45시간인 것으로 나타났고, 이러한 결과로부터, 미국의 경우 기사가 작성된 후 하루 이내에 국내에 연관 기사가 작성된다는 것을 알 수 있으며, 평균적으로 미국의 주요 이슈는 약 11시간 ~ 12시간 사이에 국내 언론의 뉴스정보 재생산 또는 가공을 통해 한국에 영향을 미치는 것으로 판단할 수 있다.
상기한 바와 같이, 본 발명에서는, 국가간 주요 이슈가 어떠한 정보전달 특성과 속전파도를 가지는지를 파악하기 위하여 미국에서 발생한 주요 이슈가 국내에 전달되는 과정을 데이터 기반으로 분석하였으며, 이를 위해, 3개의 크롤링 프로그램과, 이분 그래프 생성 프로그램 및 주요 이슈 시각화 프로그램을 직접 구현하였다.
또한, 본 발명에서는, 미국의 주요 이슈 중 대통령 선거를 관찰목표로 선정하여 "Trump"와 "Biden"을 키워드로 선정하고, 자료수집 프로그램(크롤러)을 통해 29,333개의 뉴스기사를 확보하였으며, 분석 프로그램 및 시각화 프로그램을 통해 국내 뉴스정보에서 피크(peak) 현상을 발견하고, 피크(peak) 간에 새로운 관심도로 표현되는 키워드의 생성-소멸-유지 패턴을 분석하였다.
아울러, 본 발명에서는, 국가간 정보 전파시간을 측정하여 미국의 주요 이슈는 평균적으로 약 11.45시간의 시차를 가지고 한국에 영향을 미치고 있으며, 대략 24시간 이내에 국내로 영향력이 전달됨을 데이터 기반으로 확인하였다.
더욱이, 상기한 본 발명의 실시예에서는 국가간 정보 영향력 및 전달특성을 파악하기 위해 데이터 기반의 자동화된 정략적 분석에 초점을 맞추어 본 발명을 나타내었으나, 본 발명은 반드시 이러한 구성으로만 한정되는 것이 아니며, 즉, 본 발명은, 예를 들면, 대상 이슈 및 적용 분야(domain)에 대한 전문가 분석을 통해 정성적 분석이 수행되도록 구성될 수도 있고, 또는, 인공지능 알고리즘 등을 통해 하이퍼파라미터 튜닝 및 각종 설정의 자동화가 가능하도록 구성될 수도 있는 등, 본 발명의 취지 및 본질을 벗어나지 않는 범위 내에서 필요에 따라 당업자에 의해 다양하게 수정 및 변경하여 구성될 수 있는 것임에 유념해야 한다.
또한, 본 발명에 따르면, 상기한 바와 같이 하여 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법을 이용하여, 국가간 뉴스정보 영향력 전파특성 분석을 위한 처리가 수행되도록 구성되는 정보분석 시스템을 용이하게 구현할 수 있다.
즉, 도 11을 참조하면, 도 11은 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법을 이용한 정보분석 시스템의 전체적인 구성을 개략적으로 나타내는 블록도이다.
도 11에 나타낸 바와 같이, 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석을 위한 정보분석 시스템(10)은, 크게 나누어, 사용자에 의해 입력 또는 미리 설정된 주요 이슈에 대하여 국내외 뉴스기사를 수집하고 국가간 전달특성 및 전파속도를 분석하는 처리가 수행되는 정보분석부(11) 및 정보분석부(11)에 의해 처리된 분석결과를 표시수단을 통해 시각적으로 표시하고, 유선 및/또는 무선 통신수단을 통하여 외부로 전송하는 처리가 수행되는 정보제공부(12)를 포함하여 구성될 수 있다.
여기서, 상기한 정보분석부(11)는, 도 1 내지 도 10을 참조하여 상기에 기재된 국가간 뉴스정보 영향력 전파특성 분석방법을 이용하여 분석작업이 수행되도록 구성될 수 있다.
아울러, 상기한 정보분석부(11) 및 정보제공부(12)는, 예를 들면, 서버나 PC 등과 같은 정보처리장치를 이용하여 각종 데이터 및 분석결과를 송수신하도록 각각 구성될 수 있고, 또는, 바람직하게는, 예를 들면, 스마트폰이나 태블릿 PC 및 노트북 등과 같이, 개인이 휴대 가능한 정보통신 단말장치로 이루어지는 사용자 단말기에 전용의 어플리케이션 프로그램을 설치하여, 각종 입력 데이터를 정보분석부(11)에 전송하고 정보분석부(11)로부터 분석결과 및 원하는 정보를 수신하는 처리가 수행되는 동시에, 전체적인 시스템(10)의 동작을 원격으로 제어 가능하도록 구성될 수 있다.
따라서 상기한 바와 같이 하여 본 발명의 실시예에 따른 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템을 구현할 수 있으며, 그것에 의해, 본 발명에 따르면, 비정형(Unstructured) 및 반정형(Semi structured)의 텍스트 데이터로부터 자연어 처리 기술(Natural Language Processing)을 통해 이전에 알려지지 않은 새로운 정보를 발견하는 기술인 텍스트 마이닝(Text Mining) 기법을 이용하여, 외국 언론의 기사가 국내 언론사의 기사에 어떤 영향을 미치는지를 수치화하고, 연결망 시각화, 트렌드 및 이슈 분석, 정보전달 속도 측정, 핵심 키워드 등장 및 소멸 패턴 분석을 수행하는 것에 의해, 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 데이터 기반으로 분석하여 정보전달 분석의 기초 프레임을 제공할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템이 제공됨으로써, 외국에서 발생한 주요 이슈가 해당 국가의 언론을 통해 정보 형태로 생성되고 국내 언론으로 전파되어 정치, 사회 경제 등 다양한 분야에 영향을 미치게 되나, 외국 언론에서 생성되는 국가간 주요 이슈에 대한 정보가 어떠한 정보전달 특성과 전파속도를 가지는지를 분석하여 외국 언론이 국내 언론에 미치는 영향력 및 전파 특성을 파악할 수 있는 방법은 제시된 바 없었던 기존의 뉴스 데이터 수집 및 분석방법들의 문제점을 해결할 수 있다.
또한, 본 발명에 따르면, 상기한 바와 같이 텍스트 마이닝 기법을 이용하여 각 국가별로 언론사에 대하여 동일한 키워드에 대한 기사를 수집하고, 외국의 기사와 관련있는 국내 기사에 대한 이분 그래프(Bipartite graph)를 작성하며, 작성된 이분 그래프에 근거하여 날짜순으로 빈도수를 측정하여 그래프를 생성하고 관련 기사가 폭증한 날짜들을 피크(peak) 날짜로 선정하여 추출하며, 각 피크 날짜별 이슈들에 대하여 기사들의 단어 빈도수를 그래프로 나타내고 연관성을 분석하는 것에 의해 외국의 주요 핵심 이슈가 국내 언론을 통해 전파되는 특성을 분석하고 판단할 수 있도록 구성되는 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템이 제공됨으로써, 새로운 이슈의 생성과 소멸에 따라 발생하는 뉴스정보의 영향력이 국가간에 얼마나 빠르게 전파되는지를 파악할 수 있는 동시에, 외국 기사들과 연관성이 있는 기사를 작성한 국내 언론사를 조사하여 어느 국내 언론사가 외국 언론에 얼마나 민감한지를 판단할 수 있다.
이상, 상기한 바와 같은 본 발명의 실시예를 통하여 본 발명에 따른 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템의 상세한 내용에 대하여 설명하였으나, 본 발명은 상기한 실시예에 기재된 내용으로만 한정되는 것은 아니며, 따라서 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 설계상의 필요 및 기타 다양한 요인에 따라 여러 가지 수정, 변경, 결합 및 대체 등이 가능한 것임은 당연한 일이라 하겠다.
10. 국가간 뉴스정보 영향력 전파특성 분석을 위한 정보분석 시스템
11. 정보분석부
12. 정보제공부

Claims (14)

  1. 국가간 뉴스정보 영향력 전파특성 분석방법에 있어서,
    분석하고자 하는 주요 이슈에 관련된 뉴스기사에 대한 데이터를 수집하는 처리가 수행되는 데이터 수집단계;
    상기 데이터 수집단계에서 수집된 각각의 뉴스기사 데이터간의 연결성을 고려하여 외국 기사와 국내 기사를 연결하는 연결 네트워크를 구축하고 이분 그래프(Bipartite graph)를 생성하는 처리가 수행되는 전처리단계;
    상기 데이터 수집단계에서 수집된 각각의 뉴스기사 데이터 및 상기 전처리단계의 처리결과에 근거하여, 상기 주요 이슈에 대한 뉴스기사의 국가간 전달특성 및 전파속도를 분석하는 처리가 수행되는 전파속도 분석단계; 및
    상기 데이터 수집단계, 상기 전처리단계, 상기 전달특성 분석단계 및 상기 전파속도 분석단계의 처리결과 및 동작을 포함하는 각종 데이터를 별도의 표시수단을 통해 표시하는 처리가 수행되는 출력단계를 포함하는 처리가 컴퓨터나 전용의 하드웨어에 의해 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  2. 제 1항에 있어서,
    상기 데이터 수집단계는,
    분석대상 이슈와 데이터 수집을 위한 목표 플랫폼 및 키워드를 선정하고 데이터를 수집할 기간을 설정하는 처리가 수행되는 설정단계; 및
    상기 설정단계에서 결정된 내용에 근거하여 분석하고자 하는 이슈에 관련된 뉴스기사에 대한 데이터를 수집하는 처리가 수행되는 수집단계를 포함하여 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  3. 제 2항에 있어서,
    상기 수집단계는,
    각각의 목표 플랫폼별로 미리 구축된 데이터 크롤러(Crawler) 프로그램을 이용하여, 입력된 키워드에 근거하여 각각의 상기 목표 플랫폼으로부터 미리 설정된 수집기간에 해당하는 모든 뉴스기사를 자동으로 수집하는 처리가 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  4. 제 1항에 있어서,
    상기 전처리단계는,
    외국 뉴스기사를 국내 뉴스기사와 연결하기 위해 각각의 뉴스기사에 대하여 미리 정해진 언어로 번역을 수행하여 언어를 통일하는 처리가 수행되는 번역단계;
    상기 번역단계를 통해 언어가 통일된 각각의 해외 뉴스기사와 국내 뉴스기사사이의 연결성을 분석하여 연결망을 구축하는 처리가 수행되는 연결단계; 및
    상기 연결단계의 처리결과에 근거하여, 해외 뉴스기사와 국내 뉴스기사의 연결 네트워크를 나타내는 이분 그래프(Bipartite Graph)를 생성하는 처리가 수행되는 네트워크 생성단계를 포함하여 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  5. 제 4항에 있어서,
    상기 번역단계는,
    구글의 Transformer 자동번역 알고리즘을 이용한 자동번역 시스템을 통하여 각각의 뉴스기사에 대한 번역작업이 자동으로 이루어지도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  6. 제 4항에 있어서,
    상기 연결단계는,
    각각의 뉴스기사의 생성시간을 나타내는 생성정보에 근거하여, 해외 기사보다 생성시간이 빠른 국내 기사를 분석대상에서 제외하고,
    특정 해외 뉴스기사가 국내에 영향을 미치는 시간에 대한 임계값(Threshold)을 나타내는 지연정보에 근거하여, 미리 정해진 기준값이 경과한 이후에 국내 언론에서 생성된 뉴스기사를 분석대상에서 제거하며,
    해외 뉴스기사와 국내 뉴스기사의 연결을 위한 기준 단어 수를 나타내는 언어정보에 근거하여, 해외 뉴스기사의 제목과 국내 뉴스기사의 제목에 동일한 단어가 상기 언어정보에 설정된 개수 이상 포함되어 있는 경우 해당 뉴스기사들을 서로 연결하는 처리가 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  7. 제 6항에 있어서,
    상기 네트워크 생성단계는,
    상기 번역단계에서 번역된 각각의 뉴스기사 파일에 대하여 해외 뉴스기사의 작성날짜로부터 상기 지연정보에 설정된 미리 정해진 기준값 이내에 작성된 국내 뉴스기사들을 추출하고,
    각각의 해외 뉴스기사와 국내 뉴스기사의 제목에 대하여 명사 추출을 수행하여 동일한 명사가 상기 언어정보에 설정된 개수 이상 포함된 국내 기사들을 해당 해외 뉴스기사 노드에 간선으로 연결하며,
    각각의 노드(해외, 국내 뉴스기사) 정보와 간선(뉴스간 연결) 정보에 근거하여 상기 이분 그래프를 생성하는 처리가 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  8. 제 1항에 있어서,
    상기 분석단계는,
    해외 뉴스기사로부터 영향을 받은 국내 뉴스기사의 수를 날짜별로 나타내고 최대-최소 정규화 방법을 통해 정규화하여, 특정 날짜에 특정 뉴스기사의 빈도 수가 증가하는 피크(peak) 현상의 발생 시점과 간격 및 강도에 대한 분석과, 각 피크에 영향을 받은 국내 기사에서 빈도 수가 높은 키워드를 추출하여 각 피크간 연결특성을 분석하는 것에 의해 주요 이슈의 국가간 전달특성을 분석하는 처리가 수행되는 전달특성 분석단계; 및
    상기 전처리단계에서 생성된 이분 그래프에 근거하여 날짜별로 해외 뉴스기사가 생성된 시간과 해당 뉴스기사에 관련된 국내 뉴스기사가 생성된 시간 사이의 시차평균을 산출하고, 해외 뉴스기사가 작성된 후 해당 뉴스기사에 관련된 국내 뉴스기사가 생성되기까지의 소요 시간을 분석하는 것에 의해 국가간 뉴스정보 영향력의 전파속도를 분석하는 처리가 수행되는 전파속도 분석단계를 포함하여 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  9. 제 8항에 있어서,
    상기 전달특성 분석단계는,
    해외 뉴스기사로부터 영향을 받은 국내 연관 뉴스기사들의 빈도 수를 최대-최소 정규화 방법을 통해 날짜별로 정리하여 그래프로 나타내고,
    각각의 피크(peak)에서 해외 뉴스기사에 영향을 받은 국내 뉴스기사의 본문에서 빈도 수가 높은 키워드를 미리 정해진 순위까지 날짜별로 추출하며,
    추출된 키워드를 이전 피크(peak)에서 현재 피크(peak) 사이에 새로 진입한 키워드와 소멸된 키워드 및 계속 존재하는 키워드로 각각 구분하여 시각적으로 표시하는 것에 의해 각 피크(peak)와 피크(peak) 사이의 연결특성을 나타내는 처리가 수행되도록 구성됨으로써,
    상기 주요 이슈에 대하여 해외 뉴스기사의 영향에 따른 국내 뉴스기사의 관심도 변화와, 국내 뉴스기사에 대한 해외 뉴스기사의 영향력 및 뉴스기사의 국가간 전달특성에 대한 분석이 이루어질 수 있도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  10. 제 8항에 있어서,
    상기 전파속도 분석단계는,
    상기 전처리단계를 통하여 생성된 상기 이분 그래프에 근거하여, 날짜별로 해당 날짜에 생성된 해외 뉴스기사와 해당 뉴스기사에 영향받은 국내 뉴스기사들이 생성된 시간정보를 이용하여 해외 뉴스기사와 국내 뉴스기사 사이의 시차를 산출하고 국가간 시차평균을 구하여 그래프를 생성하며,
    계산결과에 근거하여, 상기 주요 이슈에 관한 해외 뉴스기사가 작성된 후 해당 뉴스기사에 관련된 국내 뉴스기사가 생성되기까지의 소요시간을 산출하고, 해외 뉴스기사와 국내 뉴스기사 사이의 최대 시차, 최소 시차, 평균 시차를 각각 산출하여 국가간 뉴스정보의 전파속도 및 전파속도에 따른 영향력에 대한 분석을 수행하는 처리가 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  11. 제 10항에 있어서,
    상기 전파속도 분석단계는,
    국제 표준시인 그리니치 시간 GMT+00을 기준으로 각각의 시간정보를 통일하여 상기 시차 및 상기 국가간 시차평균을 각각 계산하는 처리가 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  12. 제 1항에 있어서,
    상기 출력단계는,
    상기 데이터 수집단계, 상기 전처리단계, 상기 전달특성 분석단계 및 상기 전파속도 분석단계의 처리과정 및 처리결과를 포함하는 각종 데이터와 동작상태를 포함하는 각종 데이터를 모니터나 디스플레이를 포함하는 별도의 표시수단을 통해 표시하는 동시에, 각 처리단계에서 처리되는 각종 데이터를 별도의 데이터 저장수단에 저장하고 별도의 유, 무선 통신수단을 통하여 외부 기기나 서버로 전송하는 처리가 수행되도록 구성되는 것을 특징으로 하는 국가간 뉴스정보 영향력 전파특성 분석방법.
  13. 국가간 뉴스정보 영향력 전파특성 분석을 위한 처리가 수행되도록 구성되는 정보분석 시스템에 있어서,
    사용자에 의해 입력 또는 미리 설정된 주요 이슈에 대하여 국내외 뉴스기사를 수집하고 국가간 전달특성 및 전파속도를 분석하는 처리가 수행되는 정보분석부; 및
    상기 정보분석부에 의해 처리된 분석결과를 표시수단을 통해 시각적으로 표시하고 유, 무선 통신수단을 통하여 외부로 전송하는 처리가 수행되는 정보제공부를 포함하여 구성되고,
    상기 정보분석부는,
    청구항 1항 내지 청구항 12항 중 어느 한 항에 기재된 국가간 뉴스정보 영향력 전파특성 분석방법을 이용하여 분석작업이 수행되도록 구성되는 것을 특징으로 하는 정보분석 시스템.
  14. 제 13항에 있어서.
    상기 정보분석부 및 상기 정보제공부는,
    서버나 PC를 포함하는 정보처리장치를 이용하여 각각 구성되거나,
    또는, 스마트폰이나 태블릿 PC 및 노트북을 포함하는 개인이 휴대가능한 정보통신 단말장치에 전용의 어플리케이션 프로그램을 설치하여 각각 구성되는 것을 특징으로 하는 정보분석 시스템.
KR1020210107429A 2021-08-13 2021-08-13 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템 KR20230025200A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210107429A KR20230025200A (ko) 2021-08-13 2021-08-13 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210107429A KR20230025200A (ko) 2021-08-13 2021-08-13 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템

Publications (1)

Publication Number Publication Date
KR20230025200A true KR20230025200A (ko) 2023-02-21

Family

ID=85328257

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210107429A KR20230025200A (ko) 2021-08-13 2021-08-13 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템

Country Status (1)

Country Link
KR (1) KR20230025200A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611374A (zh) * 2024-01-23 2024-02-27 深圳博十强志科技有限公司 一种基于多元化大数据分析的信息传播分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101316318B1 (ko) 2012-02-22 2013-10-08 씨제이이앤엠 주식회사 방송 컨텐츠 평가 시스템
KR102250281B1 (ko) 2018-10-29 2021-05-10 비플라이소프트(주) 이슈에 대한 미디어지수를 산출하는 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101316318B1 (ko) 2012-02-22 2013-10-08 씨제이이앤엠 주식회사 방송 컨텐츠 평가 시스템
KR102250281B1 (ko) 2018-10-29 2021-05-10 비플라이소프트(주) 이슈에 대한 미디어지수를 산출하는 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611374A (zh) * 2024-01-23 2024-02-27 深圳博十强志科技有限公司 一种基于多元化大数据分析的信息传播分析方法及系统
CN117611374B (zh) * 2024-01-23 2024-05-07 深圳博十强志科技有限公司 一种基于多元化大数据分析的信息传播分析方法及系统

Similar Documents

Publication Publication Date Title
US10540358B2 (en) Telemetry data contextualized across datasets
US11775501B2 (en) Trace and span sampling and analysis for instrumented software
US6542881B1 (en) System and method for revealing necessary and sufficient conditions for database analysis
US7251584B1 (en) Incremental detection and visualization of problem patterns and symptoms based monitored events
US10229210B2 (en) Search query task management for search system tuning
CN107451149B (zh) 流量数据查询任务的监控方法及其装置
US10592327B2 (en) Apparatus, system, and method for analyzing logs
US20120303661A1 (en) Systems and methods for information extraction using contextual pattern discovery
US8463811B2 (en) Automated correlation discovery for semi-structured processes
Roschke et al. A flexible and efficient alert correlation platform for distributed ids
CN107861981A (zh) 一种数据处理方法及装置
Ma et al. Discovering company revenue relations from news: A network approach
CN104657437B (zh) 推广情况数据的监测方法及装置
US7293003B2 (en) System and method for ranking objects by likelihood of possessing a property
Pereira et al. GreenHub: a large-scale collaborative dataset to battery consumption analysis of android devices
CN111460333B (zh) 一种实时搜索数据分析系统
US20180068017A1 (en) Providing known distribution patterns associated with specific measures and metrics
KR20230025200A (ko) 국가간 뉴스정보 영향력 전파특성 분석방법 및 이를 이용한 정보분석 시스템
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
CN111475643A (zh) 数据中心交换机异常日志的处理方法、装置及存储介质
JP2018081403A (ja) インシデント管理システム、インシデント管理方法およびコンピュータプログラム
CN114756301B (zh) 日志处理方法、装置和系统
Guo et al. Measuring media bias via masked language modeling
Giummolè et al. A study on microblog and search engine user behaviors: How twitter trending topics help predict google hot queries
CN113836410B (zh) 车辆声品质评估方法、装置、评估设备及存储介质