KR102285080B1 - 이슈 발생 예측 시스템 - Google Patents

이슈 발생 예측 시스템 Download PDF

Info

Publication number
KR102285080B1
KR102285080B1 KR1020190143324A KR20190143324A KR102285080B1 KR 102285080 B1 KR102285080 B1 KR 102285080B1 KR 1020190143324 A KR1020190143324 A KR 1020190143324A KR 20190143324 A KR20190143324 A KR 20190143324A KR 102285080 B1 KR102285080 B1 KR 102285080B1
Authority
KR
South Korea
Prior art keywords
prediction
time
year
occurrence
period
Prior art date
Application number
KR1020190143324A
Other languages
English (en)
Other versions
KR20210056631A (ko
Inventor
신종화
최정묵
Original Assignee
신종화
최정묵
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 신종화, 최정묵 filed Critical 신종화
Priority to KR1020190143324A priority Critical patent/KR102285080B1/ko
Publication of KR20210056631A publication Critical patent/KR20210056631A/ko
Application granted granted Critical
Publication of KR102285080B1 publication Critical patent/KR102285080B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 데이터 사이언스를 이용하여 과거의 뉴스기사로부터 키워드를 추출하여 주제어를 선정함으로써 미래에 발생할 이슈가 무엇인지 예측할 수 있는 이슈발생 예측 시스템에 관한 것입니다.

Description

이슈 발생 예측 시스템{Issue occurrence prediction system}
본 발명은 데이터 과학에 관한 것으로서, 특정 기간에 발생할 이슈가 무엇인지 예측할 수 있는 이슈 발생 예측 시스템에 관한 것이다.
미래는 언제나 미지의 영역이다. 하지만 우리는 때론 과거로부터 미래를 예측해왔다. 별과 달, 그리고 태양의 움직임을 관찰하여 달력을 만들었고, 날짜에 따라 변화하는 날씨의 변화를 관찰하여 계절을 예측했다.
하지만 여전히 내일, 또는 다음주에, 나아가 다음달에 무슨 일이 일어날지 예측하는 것은 쉽지 않다. 무엇보다 미래를 예측하는 일에서 중요한 것은 신뢰성인데, 충분한 근거없이 예측된 미래는 아무런 의미가 없다.
4차 산업혁명이 이루어지면서 데이터 과학이나 인공지능을 이용하여 미래 예측에 대한 신뢰성을 높이려는 다양한 시도가 이루어지고 있다.
등록특허 제10-2000663호는 "빅데이터 및 인공지능을 활용한 이벤트 예측 시스템 및 그 방법"에 관한 것으로서, 과거이벤트와 과거이벤트에 따른 시장 결과를 분석하여 과거이벤트와 동일한 예정이벤트가 발생한 경우에 예정이벤트에 따른 시장 결과를 예측하는 것이다. 하지만 등록특허 제10-2000663호는 특정이벤트가 발생한 경우에 그에 따른 결과를 예측하는 것으로서 특정이벤트 발생 자체를 예측할 수 없다는 문제가 있다.
이에 본 발명자는 일년을 단위로 하여 어떠한 이슈가 발생할 것인지 예측할 수 있는 이슈 발생 예측 시스템을 개발하기에 이르렀다.
본 발명의 일 목적은 특정 이슈의 발생 후에 그 따른 결과를 예측하는 것이 아닌, 특정 이슈의 발생 자체를 예측 할 수 있는 이슈 발생 예측 시스템을 제공하는 것이다.
또한, 본 발명의 다른 목적 중 하나는 이슈 발생 예측 시스템의 예측 결과의 신뢰성을 향상시킬 수 있는 방안을 제공하는 것이다.
궁극적으로 본 발명은 이슈 발생 예측 시스템을 통해 사용자에게 미리 발생할 이슈를 일자별로 알려줄 수 있는 이슈 달력을 제공하여, 각 사용자의 더 나은 삶에 기여하는 것이다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
상기 일 목적을 달성하기 위한 본 발명의 일 실시예에 따른 이슈 발생 예측 시스템은 언론사 또는 포털사이트로부터 뉴스기사를 수집하는 수집모듈; 상기 수집한 뉴스기사를 일, 주, 월 또는 년으로 정렬하는 정렬모듈; 상기 수집한 뉴스기사 중 예측시점의 년도보다 최소 3년전 이상의 년도부터 예측시점의 직전년도까지의 기간의 뉴스기사로부터 텍스트마이닝 기법을 통해 키워드를 추출하고, 예측시점의 과거 동기간의 추출한 키워드의 출현 빈도수에 따른 점수를 산출하여 주제어를 선정하는 추출모듈; 상기 추출모듈에서 선정한 주제어의 예측시점의 년도보다 최소 3년전 이상의 년도부터 예측시점의 직전년도까지의 예측시점의 과거 동기간의 연도별 출현빈도수의 증가세를 분석하여, 예측시점의 직전년도까지 증가세가 유지된 주제어를 예측시점에 발생할 이슈로 분석하는 분석모듈;을 포함하고, 상기 추출모듈은 주제어에 선정될 수 없을 정도로 점수는 낮으나 선정된 주제어와 동일한 뉴스기사에 포함된 키워드 중 어느 하나 또는 둘 이상을 연관어로 선정하고, 상기 연관어는 사용자에게 이슈예측 결과로 해당 주제어가 제공될 때 그 연관어를 함께 제공되고, 상기 분석모듈은 예측시점에 발생할 이슈로 분석된 복수개의 주제어가 서로 다른 것이되, 서로 다른 주제어에 포함된 연관어가 2개 이상 동일한 경우 그 서로 다른 주제어들을 같은 클러스터로 분류하여 사용자에게 제공하고, 예측시점에 발생할 이슈로 분석된 주제어의 최소 n년 전(단, n은 4 이상의 자연수) 이상의 기간의 수집한 뉴스기사 중에서 m년 전(단, m≤n이며, m은 1 이상의 자연수)의 주제어의 예측시점의 과거 동기간의 출현 빈도로부터 m+1년전의 주제어의 예측시점의 과거 동기간의 출현빈도수를 제하여 연도별 주제어의 예측시점의 과거 동기간의 출현빈도수의 증감폭을 계산하고, n년의 기간 동안 예측시점의 과거 동기간의 출현빈도수의 증감폭이 증가세가 지속된 경우에는 높은 신뢰성을, 증감이 반복된 경우에는 중간 신뢰성을, 감소세가 지속된 경우에는 낮은 신뢰성을 부여하는 신뢰성평가모듈을 더 포함한다.
본 발명의 일 실시예에 따른 이슈 발생 예측 시스템은 수집모듈에서 수집한 뉴스기사를 정렬모듈에서 일, 주, 월 또는 년을 기준으로 분류하고, 추출모듈에서 수집한 뉴스기사에서 키워드를 추출하고 주제어를 선정하고, 분석모듈에서 예측시점을 기준으로 최소 3년 전 이상의 기간의 수집한 뉴스기사에서 선정된 주제어들의 예측시점의 과거 동기간의 출현빈도를 분석하여 예측시점의 이슈를 예측할 수 있다.
또한, 추출모듈이 수집한 뉴스기사에서 키워드를 추출하고 주제어를 선정할 경우 추출된 키워드 중 주제어로 선정되지 아니한 키워드를 연관어로 선정하고, 사용자에게 이슈예측 결과로 해당 주제어가 제공될 때 그 연관어를 함께 제공하여 사용자의 정성적 분석을 도울 수 있다.
한편, 본 발명의 일 실시예에 따른 이슈 발생 예측 시스템은 신뢰성평가모듈을 더 포함하고, 신뢰성평가모듈은 선정된 주제어의 최소 n년 전(단, n은 4 이상의 자연수) 이상의 기간의 수집한 뉴스기사 중에서 최소 m년 전(단, m≤n이며, m은 1 이상의 자연수)부터 2년전까지의 예측시점의 출현빈도를 분석하여 도출된 1년전의 예측시점의 이슈와 실제 1년전의 이슈의 출현결과를 비교함으로써 선정된 주제어의 예측 신뢰성을 평가할 수 있다.
한편, 여기에서 명시적으로 언급되지 않은 효과라하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 일 실시예에 따른 이슈 발생 예측 시스템의 개략적 구조도이다.
도 2는 데이터 사이언스의 토픽 모델링을 통해 네이버로부터 수집한 2015년의 뉴스기사로부터 키워드를 추출하는 것이다.
도 3은 데이터 사이언스의 토픽 모델링을 통해 추출한 키워드의 빈도수를 산출하는 것이다.
도 4 및 도 5는 데이터 사이언스의 토픽 모델링을 통해 에서 추출 및 선정한 주제어와 그 출현빈도수를 분석하여, 지속적으로 출현 빈도수가 증가한 주제어를 찾는 것이다.
도 6은 10일(또는 11일) 단위로 블록화하여 2018년 10월 첫번째 블록에 이슈될 주제어와 그 연관어를 나타낸 것이다.
도 7은 도 6의 각 키워드의 주제어 출현빈도수의 증감폭을 계산한 결과이다.
본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다.
본 문서에서 “모듈”은 CPU, AP 등과 같은 연산 장치를 이용하여 데이터를 이동, 저장, 변환 등의 작업을 수행한다. 예컨대 “모듈”이나 “노드”는 서버, PC, 태블릿 PC, 스마트폰 등과 같은 장치로 구현될 수 있다.
본 발명의 이슈 발생 예측 시스템은 특정 이슈의 발생 후에 그 따른 결과를 예측하는 것이 아닌, 특정 이슈의 발생 자체를 예측 할 수 있다. 즉, 본 발명의 이슈 발생 예측 시스템은 사용자가 현재보다 미래인 예측시점에 발생할 이슈를 미리 확인할 수 있게 도와준다.
도면을 참조하여 본 발명의 일 실시예에 따른 이슈 발생 예측 시스템에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 이슈 발생 예측 시스템(100)의 개략적 구조도이다.
본 발명의 일 실시예에 따른 이슈 발생 예측 시스템(100)은 수집모듈(10), 정렬모듈(20), 추출모듈(30), 예측모듈(40)을 포함한다. 나아가 본 발명의 일 실시예에 따른 이슈발생 예측 시스템(100)은 신뢰성평가모듈(50)을 더 포함할 수 있다.
수집모듈(10)은 한겨례나 조선일보와 같은 언론사들 또는 네이버나 다음과 같은 포털사이트로부터 수신되는 뉴스기사를 수집한다. 이때 뉴스기사는 방송 뉴스, 중앙일간지, 지역신문, 주요 언론사 및 온라인 매체 등을 소스로하는 기사일 수 있으며, 수집가능한 전자문서 형태인 것을 의미한다. 예를 들어, 수집모듈(10)은 사용자가 지정한 포털사이트로부터 뉴스 데이터를 수집할 수 있다. 한편, 수집모듈(10)은 뉴스기사를 제공하는 소스와의 통신을 위한 통신부를 구비할 수 있다.
정렬모듈(20)은 수집모듈(10)에서 수집한 뉴스기사를 일, 주, 월 또는 년으로 정렬한다. 본 발명의 일 실시예에 따른 이슈발생 예측 시스템(100)은 예측시점에 어떠한 이슈가 발생할 것인지 여부를 과거의 뉴스기사로부터 본 발명의 알고리즘을 통해 도출하는 것이다. 뉴스기사의 경우 대부분 뉴스기사가 발행된 시간에 관한 정보를 포함하고 있으나, 뉴스기사마다 발행된 시간에 관한 정보의 양식에 차이가 있다. 따라서 정렬모듈(20)이 수집된 뉴스기사로부터 발행된 시간에 관한 정보를 추출하고, 시간에 관한 정보를 기준으로 수집한 뉴스기사를 정렬한다.
한편, 추출모듈(30)은 수집모듈(10)에서 수집한 뉴스기사로부터 키워드를 추출하고 주제어를 선정한다. 키워드는 텍스트마이닝 기법을 이용하여 키워드를 추출한다. 예컨대, 기사의 문장들을 띄어쓰기 및 줄바꿈을 기준으로 쪼개고, 한자나 특수문자를 제외하고, 한 글자의 글자와 각 단어의 조사를 제외하는 알고리즘을 통해 키워드를 추출한다. 이때 추출모듈(30)은 예측시점과 동일한 기간의 과거년도의 뉴스기사로 부터 키워드를 추출한다. 추출모듈(30)이 추출하는 과거년도의 뉴스기사는 예측시점의 년도보다 최소 3년전 이상의 년도부터 예측시점의 직전년도까지의 기간의 뉴스기사이다. 예컨대, 예측시점이 2018년 10월 1일 ~ 2019년 10월 10일이라면, 추출모듈(30)은 최소 과거 3개년도 동기간인 2015년부터 2017년의 10월 1일 ~ 10월 10일의 뉴스기사로부터 키워드를 추출한다.
한편, 뉴스기사는 제목과 본문으로 이루어져 있으며, 일반적으로 제목에 중요한 키워드가 포함되어 있을 가능성이 높다. 이에따라 추출모듈(30)은 주제어를 선정하는 과정에서 제목에 포함되어 있는 키워드에 다음의 식 (1)과 같이 가중치를 줄 수 있다.
[식 1]
Figure 112020100473157-pat00001
예컨대, 특정 키워드의 출현빈도수에 따른 점수(S)는 뉴스기사 i의 제목에 위치하는 특정 키워드의 수(number of keyword@title)에 가중치 p를 곱하고, 본문에 위치하는 특정 키워드의 수(number of keyword@main)에 가중치 q(단, q<p)를 곱하여 뉴스기사 i에 대한 특정키워드의 점수를 산출하고, 이를 과거 r개년도(r은 3이상의 자연수) 동기간의 다른 뉴스기사에도 수행하여 각 점수를 총합하여 높은 점수 순으로 주제어를 선정한다.
예컨대, 도 2와 같은 데이터 사이언스의 토픽 모델링을 통해 네이버로부터 수집한 2015년의 뉴스기사로부터 키워드를 추출한다(p=1, q=0). 추출한 키워드들의 빈도수는 도 3과 같은 데이터 사이언스의 토픽 모델링을 통해 획득할 수 있다. 즉, 추출모듈(30)은 상술한 과정을 통해 뉴스기사로부터 키워드를 추출하고, 각 키워드의 빈도수를 카운팅한 다음에 식 1을 이용하여 특정 키워드의 점수(S)를 산출한다. 최종적으로 추출모듈(30)은 높은 점수 순으로 주제어를 선정한다.
한편, 추출모듈(30)은 주제어에 선정될 수 없을 정도로 점수는 낮으나 선정된 주제어와 동일한 뉴스 기사에 포함된 키워드 중 점수가 높은 것은 연관어로 선정한다. 선정된 연관어는 사용자에게 이슈예측 결과로 해당 주제어가 제공될 때 그 연관어를 함께 제공하여 사용자의 정성적 분석을 도울 수 있다.
추출모듈(30)에서 주제어를 선정하게 되면 분석모듈(40)에서 예측시점의 이슈를 예측하게 된다. 분석모듈(40)은 각 연도별로 예측시점에 대한 과거 동기기간의 주제어의 출현빈도를 분석하여, 예측시점에 어떠한 주제어가 이슈로 발생할 것인지 분석하는 것이다.
분석모듈(40)은 각 연도별 주제어의 출현빈도수에 대해 증가세를 분석한다. 분석모듈(40)이 증가세를 분석하는 것은 도 4 및 도 5에 기재된 것과 같은 데이터 사인언스의 토픽 모델링을 통해 수행할 수 있다.
도 4 및 도 5에 기재된 데이터 사인언스의 토픽 모델링은 추출모듈(30)에서 추출 및 선정한 주제어와 그 출현빈도수를 분석하여, 지속적으로 출현 빈도수가 증가한 주제어를 찾는 것이다. 이는 예측시점의 해당년도 전까지 지속적으로 출현 빈도수가 증가한 주제어의 경우 예측시점에도 이슈로 반드시 발생한다는 사실에 근거한 것이다.
한편, 분석모듈(40)은 추출모듈(30)에서 추출 및 선정한 주제어와 그 연관어의 출현빈도수를 분석하여, 년도별로 추세선을 생성할 수 있다. 이때, 분석모듈(40)은 주제어의 추세선의 예측시점까지의 연장선과 연관어의 추세선의 예측시점까지의 연장선을 비교하여, 연관어의 추세선의 예측시점까지의 연장선이 주제어의 그것에 비해 우위에 있는 경우에는 주제어 대신 연관어를 발생할 이슈로 예측한다.
상술한 본 발명의 일 실시예에 따른 이슈 발생 예측 시스템(100)을 이용하여 2013년부터 2017년(5개년)의 뉴스기사를 분석하여 2018년 10월 1일 부터 10일까지 이슈될 주제어를 예측해보고 그 결과를 도 6에 나타내었다.
도 6은 10일(또는 11일) 단위로 블록화하여 2018년 10월 첫번째 블록에 이슈될 주제어와 그 연관어를 나타낸 것이다.
도 6을 참조하면, 2018년 10월 첫번째 블록에 이슈될 주제어 20개로는 "사망, 수출, 도발, 창건일, 공단, 범죄, 크레인, 핵무기, 세종대왕, 장병, 지자체, 자율주행, 벌금형, 전주, 몰카, 집값, 벤처, 인공지능, 돼지, 노동자"로 예측되었다.
도 6의 예측결과는 [식 1]의 가중치를 p=1, q=0으로 하여 제목에만 기재된 키워드로만 주제어를 선정한 것이며, 선정된 주제어 중에서 도 4 및 도 5에 기재된 방법을 이용하여 5년간 출현빈도수가 전년도에 비해 상승한 주제어 20가지를 선정한 것이다. 한편, 1st 블록이란 10월 1일부터 10월 9일까지의 기간을 의미한다.
이와 같이 선정된 주제어의 예측시점의 뉴스기사수를 검색하여 예측결과의 적정성을 확인해보았다. 예측시점의 전년도까지 지속적으로 출현 빈도수가 증가한 주제어의 경우 예측시점에도 이슈로 반드시 발생하는데, 2018. 10. 1st 블록의 뉴스기사수를 보더라도 모든 주제어가 뉴스기사로 기사화된 것을 알 수 있다. 즉. 본 발명의 일 실시예에 따른 이슈발생 예측 시스템이 예측시점에 발생할 이슈를 거의 정확하게 예측한 것으로 평가된다. 한편, 분석모듈(40)은 주제어 중에서 동일한 연관어가 2개 이상 포함되어 있는 경우를 같은 클러스터로 분류하여 사용자에게 제공할 수 있다. 예컨대, 도 6에서 주제어 '도발'과 '창건일'은 북한과 노동당을 동일한 연관어로 하여 동일한 클러스터로 묶을 수 있다. 이처럼 분석모듈(40)이 동일한 연관어를 가지는 주제어를 같은 클러스터로 묶음으로써 사용자에게 발생할 이슈의 구체적인 외형을 제공할 수 있다.
본 발명의 일 실시예에 따른 이슈 발생 예측 시스템(100)은 신뢰성평가모듈(50)을 더 포함할 수 있다. 신뢰성평가모듈(50)은 사용자에게 예측시점에 발생할 이슈를 제공하면서, 해당 이슈가 발생할 신뢰성을 제공할 수 있다. 신뢰성평가모듈(50)은 선정된 주제어의 최소 n년 전(단, n은 4 이상의 자연수) 이상의 기간의 수집한 뉴스기사 중에서 m년 전(단, m≤n이며, m은 1 이상의 자연수)의 주제어의 출현빈도로부터 m+1년전의 주제어의 출현빈도수를 제하여 연도별 주제어의 출현빈도수의 증감폭을 계산하고, 연도별 출현빈도수의 증감폭이 증가세가 지속된 경우에는 높은 신뢰성을, 증감이 반복된 경우에는 중간 신뢰성을, 감소세가 지속된 경우에는 낮은 신뢰성을 부여할 수 있다.
도 7은 도 6의 각 키워드의 주제어 출현빈도수의 증감폭을 계산한 결과이다. 도 7을 살펴보면, 공단, 크레인, 몰카, 집값의 경우 2013년 이후로 매년 10월 1st블록에 출현빈도수가 증가하고 있어 2018년에도 이슈로 발생할 가능성이 높은 바, 이슈 발생 예측 시스템(100)의 예측 신뢰성이 높다. 하지만 다른 키워드의 경우에는 증감을 반복하고 있어 예측신뢰성이 중간으로 평가된다.
이상에서 설명한 이슈 발생 예측 시스템은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 모바일 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다. 여기서 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (4)

  1. 사용자에게 예측시점에 발생할 이슈를 예측하여 제공하는 이슈 발생 예측 시스템으로서,
    언론사 또는 포털사이트로부터 뉴스기사를 수집하는 수집모듈;
    상기 수집한 뉴스기사를 일, 주, 월 또는 년으로 정렬하는 정렬모듈;
    상기 수집한 뉴스기사 중 예측시점의 년도보다 최소 3년전 이상의 년도부터 예측시점의 직전년도까지의 기간의 뉴스기사로부터 텍스트마이닝 기법을 통해 키워드를 추출하고, 예측시점의 과거 동기간의 추출한 키워드의 출현 빈도수에 따른 점수를 산출하여 주제어를 선정하는 추출모듈;
    상기 추출모듈에서 선정한 주제어의 예측시점의 년도보다 최소 3년전 이상의 년도부터 예측시점의 직전년도까지의 예측시점의 과거 동기간의 연도별 출현빈도수의 증가세를 분석하여, 예측시점의 직전년도까지 증가세가 유지된 주제어를 예측시점에 발생할 이슈로 분석하는 분석모듈;을 포함하고,
    상기 추출모듈은 주제어에 선정될 수 없을 정도로 점수는 낮으나 선정된 주제어와 동일한 뉴스기사에 포함된 키워드 중 어느 하나 또는 둘 이상을 연관어로 선정하고, 상기 연관어는 사용자에게 이슈예측 결과로 해당 주제어가 제공될 때 그 연관어를 함께 제공되고,
    상기 분석모듈은 예측시점에 발생할 이슈로 분석된 복수개의 주제어가 서로 다른 것이되, 서로 다른 주제어에 포함된 연관어가 2개 이상 동일한 경우 그 서로 다른 주제어들을 같은 클러스터로 분류하여 사용자에게 제공하고,
    예측시점에 발생할 이슈로 분석된 주제어의 최소 n년 전(단, n은 4 이상의 자연수) 이상의 기간의 수집한 뉴스기사 중에서 m년 전(단, m≤n이며, m은 1 이상의 자연수)의 주제어의 예측시점의 과거 동기간의 출현 빈도로부터 m+1년전의 주제어의 예측시점의 과거 동기간의 출현빈도수를 제하여 연도별 주제어의 예측시점의 과거 동기간의 출현빈도수의 증감폭을 계산하고, n년의 기간 동안 예측시점의 과거 동기간의 출현빈도수의 증감폭이 증가세가 지속된 경우에는 높은 신뢰성을, 증감이 반복된 경우에는 중간 신뢰성을, 감소세가 지속된 경우에는 낮은 신뢰성을 부여하는 신뢰성평가모듈을 더 포함하는 이슈발생 예측 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
KR1020190143324A 2019-11-11 2019-11-11 이슈 발생 예측 시스템 KR102285080B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190143324A KR102285080B1 (ko) 2019-11-11 2019-11-11 이슈 발생 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190143324A KR102285080B1 (ko) 2019-11-11 2019-11-11 이슈 발생 예측 시스템

Publications (2)

Publication Number Publication Date
KR20210056631A KR20210056631A (ko) 2021-05-20
KR102285080B1 true KR102285080B1 (ko) 2021-08-02

Family

ID=76142748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190143324A KR102285080B1 (ko) 2019-11-11 2019-11-11 이슈 발생 예측 시스템

Country Status (1)

Country Link
KR (1) KR102285080B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102464117B1 (ko) * 2022-03-18 2022-11-07 에쓰오씨소프트 주식회사 인공지능을 활용하여 공공기관 빅데이터 포털의 콘텐츠를 분석 및 관리하는 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101086996B1 (ko) * 2008-10-30 2011-11-29 주식회사 케이티 온톨로지 생성 장치 및 그 방법
KR101113787B1 (ko) * 2009-10-28 2012-02-27 동국대학교 산학협력단 텍스트 색인 장치 및 방법
KR101229401B1 (ko) * 2010-12-23 2013-02-05 전남대학교산학협력단 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
KR101614843B1 (ko) * 2014-09-16 2016-04-25 숭실대학교산학협력단 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치
KR101911466B1 (ko) * 2015-12-30 2018-10-29 대한민국 미래위험 변화예측 분석 시스템

Also Published As

Publication number Publication date
KR20210056631A (ko) 2021-05-20

Similar Documents

Publication Publication Date Title
US10242121B2 (en) Automatic browser tab groupings
Arulanandam et al. Extracting crime information from online newspaper articles
CN107992764B (zh) 一种敏感网页识别与检测方法及装置
CN103049532A (zh) 基于突发事件应急管理的知识库引擎构建及其查询方法
Ahmed et al. Understanding the political ecology of forced migration and deforestation through a multi-algorithm classification approach: The case of Rohingya displacement in the southeastern border region of Bangladesh
CN101231640A (zh) 一种自动计算互联网上主题演化趋势的方法及系统
CN102779190A (zh) 一种时序海量网络新闻的热点事件快速检测方法
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN110196834A (zh) 一种用于数据项、文件、数据库的对标方法和系统
Trubowitz et al. The geopolitical threat index: A text-based computational approach to identifying foreign threats
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
McAuliffe International migration and digital technology: an overview
US9953080B1 (en) Social media data mining for early detection of newsworthy civil unrest events
KR102285080B1 (ko) 이슈 발생 예측 시스템
CN108874814A (zh) 法律文书的处理方法及装置
CN113220885A (zh) 一种文本处理方法和系统
Chakravorty et al. Data mining techniques for analyzing murder related structured and unstructured data
Wulandhari et al. Corruption Cases Mapping Based on Indonesia’s Corruption Perception Index
CN116881395A (zh) 一种舆情信息检测方法和装置
Kim et al. Construction of disaster knowledge graphs to enhance disaster resilience
CN114691835A (zh) 基于文本挖掘的审计计划数据生成方法、装置和设备
US20170193598A1 (en) Post-lending credit management
JP6496952B2 (ja) データ処理装置、データ処理システム、データ処理方法及びプログラム
Lois et al. Seismic signals identification following a non strict hypothesis testing scenario; Implementation on synthetic and real data.
KR20190100533A (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant