KR102637481B1

KR102637481B1 - 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용한 통합형 기업 뉴스를 생성하기 위한 방법 및 이를 이용한 장치와 시스템

Info

Publication number: KR102637481B1
Application number: KR1020230047283A
Authority: KR
Inventors: 이상대; 송민상; 유주현
Original assignee: 주식회사 에프앤가이드
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2024-02-16

Abstract

본 발명에 의하면, 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법에 있어서, 공시 데이터 획득부에 의해 정형 데이터로서 기업 재무 데이터를 획득하는 단계, 증권사 리포트 획득부에 의해 비정형 혼합 데이터로서 증권사 리포트를 획득하는 단계, 기업 뉴스 크롤링부에 의해 미리 결정된 기간 내의 뉴스 기사들을 수집하는 단계, 통합형 뉴스 생성부에 의해, 기업 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성하는 단계, 증권사 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성하는 단계, 수집된 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성하는 단계, 및 실적 및 시세 뉴스, 컨센서스 및 공시 뉴스, 및 기업 이슈 요약 뉴스를 통합하여 통합형 기업 뉴스를 생성하는 단계를 포함하는 통합형 기업 뉴스 생성 방법을 제공할 수 있다.

Description

정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용한 통합형 기업 뉴스를 생성하기 위한 방법 및 이를 이용한 장치와 시스템{METHOD FOR GENERATING INTEGRATED CORPORATION NEWS USING STRUCTURED DATA, UNSTRUCTURED DATA AND CORPORATION NEWS AND DEVICE AND SYSTEM USING THE SAME}

본 발명은 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용한 통합형 기업 뉴스를 생성하기 위한 방법 및 이를 이용한 장치와 시스템에 관한 것이다. 보다 구체적으로, 본 발명은 시세, 재무 데이터 등의 정형 데이터, 공시 원문, 증권사 리포트 등의 비정형 혼합 데이터 및 최신 기업 뉴스들에 기반하여 통합형 기업 뉴스를 생성하고 제공하기 위한 방법, 장치 및 시스템에 관한 것이다.

영업 실적을 발표하는 시기마다 각 기업에서 공시하는 자료를 기반으로 실시간 실적 뉴스가 발행되며, 며칠 간격으로 이 실적에 대해 자세한 증권사 분석 리포트들이 쏟아져 나온다. 바쁜 현대인들이 이 모든 정보를 직접 찾아 읽어 보기 위해서는 많은 시간과 노력이 소요된다. 따라서, 사용자의 편익 향상을 위해 이와 같은 다양한 기업 관련 뉴스와 정보들을 하나의 통합 뉴스 형태로 요약하여 자동으로 제공할 필요가 있으나, 이와 같은 다양한 종류의 뉴스나 정보는 각각 정형 데이터 형태, 정형 데이터와 비정형 데이터가 혼합된 혼합 데이터 형태나 뉴스 기사 형태 등 서로 다른 형태의 데이터들이 공존하게 된다.

이에 따라 금융 관련 텍스트, 재무 데이터 및 다양한 뉴스 기사에 인공 지능 기술을 적용하여, 특히 기업이 공시하는 영업 실적, 사업보고서 등에서 추출되는 재무 실적에 관한 사항, 증권사의 기업 분석 리포트, 최근 기업 관련 뉴스 등을 자동으로 분석하여, 일련의 통합 뉴스 형태로 가공하여 생성하기 위한 새로운 방법 및 시스템이 요구된다.

대한민국 공개특허공보 제10-2021-0137647호

본 발명은 정형 데이터, 비정형 혼합 데이터, 뉴스 기사 형태의 데이터 등 다양한 형태의 원천 데이터로부터 각각 기업 투자에 필요한 정보를 추출하고, 이들을 뉴스 요약 기사 형태로 변환하여 통합된 형태의 기업 요약 뉴스를 생성하고 제공하기 위한 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 공시 재무 데이터를 뉴스 기사 형태로 변환하고, 증권사 분석 리포트를 뉴스 기사 형태로 변환하고, 다양한 기업 뉴스들을 이슈별로 군집화하여 기업 이슈 요약 뉴스를 생성함으로써, 실적/시세 뉴스, 컨센서스/공시 뉴스 및 기업 이슈 요약 뉴스를 통합한 통합 뉴스를 생성하는 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 틀에 박힌 단순한 포맷에 한정되지 않고, 뉴스 기사 형태와 유사한 형태의 기사를 기업 재무 데이터, 증권사 분석 리포트 및 관련 최신 기업 뉴스를 이용하여 유연하게 카드 뉴스 형태 등의 통합형 기업 요약 뉴스를 생성하는 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 시의 적절한 투자 결정 유도 및 기업에 대한 최신 이슈들의 신속한 전달을 위한 뉴스 서비스에 적용가능한, 자동 기업 요약 뉴스 생성 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 정형 데이터나 비정형 데이터에 기초하여 기자가 직접 작성한 뉴스 기사의 형태와 유사하게 생성함으로써, 사람의 개입없이 영업 실적 등이 공시된 시점에 신속하게 자동으로 생성된 통합형 뉴스를 제공가능하고, 이에 따라 투자자에게 신속성과 편리성을 제공하는 것을 목적으로 한다.

본 발명의 해결 과제들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법에 있어서, 공시 데이터 획득부에 의해 정형 데이터로서 기업 재무 데이터를 획득하는 단계; 증권사 리포트 획득부에 의해 비정형 혼합 데이터로서 증권사 리포트를 획득하는 단계; 기업 뉴스 크롤링부에 의해 미리 결정된 기간 내의 뉴스 기사들을 수집하는 단계; 통합형 뉴스 생성부에 의해, 상기 기업 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성하는 단계; 상기 통합형 뉴스 생성부에 의해, 상기 증권사 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성하는 단계; 상기 통합형 뉴스 생성부에 의해, 수집된 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성하는 단계; 및 상기 통합형 뉴스 생성부에 의해, 상기 실적 및 시세 뉴스, 상기 컨센서스 및 공시 뉴스, 및 상기 기업 이슈 요약 뉴스를 통합하여 통합형 기업 뉴스를 생성하는 단계를 포함하는 통합형 기업 뉴스 생성 방법을 제공할 수 있다.

또한, 상기 기업 이슈 요약 뉴스를 생성하는 단계는, 상기 미리 결정된 기간 내의 기업 뉴스들을 기업명 태깅을 통해 필터링하는 단계; 상기 필터링된 기업 뉴스들을 주제별로 군집화하는 단계; 군집화된 기업 뉴스들의 개수에 기초하여 주요 이슈를 선정하는 단계; 및 상기 주요 이슈에 대해 기업 이슈 요약 뉴스를 생성하는 단계를 포함할 수 있다.

또한, 상기 군집화하는 단계는, 상기 필터링된 기업 뉴스들을 딥러닝 언어 모델을 이용하여 텍스트 임베딩(text embedding)을 수행하고, 상기 텍스트 임베딩의 수행 결과의 유사도에 기초하여 상기 기업 뉴스들을 군집화할 수 있다.

또한, 상기 기업 이슈 요약 뉴스 생성 단계는, 상기 군집화된 기업 뉴스들의 내적을 통해 내적의 합을 계산하는 단계; 상기 내적의 합에 기초하여 기업 뉴스를 대표 문서로 추출하는 단계; 상기 대표 문서를 요약하여 하이라이트 문구 및 요약문을 생성하는 단계; 및 상기 하이라이트 문구 및 요약문을 이용하여 상기 기업 이슈 요약 뉴스를 생성하는 단계를 더 포함할 수 있다.

또한, 상기 기업명 태깅을 통해 필터링하는 단계는, 상기 미리 결정된 기간 내의 기업 뉴스들에 기업명과 함께 사용된 조사에 기초하여 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에 대해 피쳐(feature)를 추출하여 기업명 후보들을 생성하는 단계; 상기 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에서 생성된 기업명 후보들에 대해 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델에서 상기 뉴스 기사가 해당 기업명에 대한 뉴스 기사일 확률을 산출하는 단계를 포함하고, 상기 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델은 머신 러닝 모델인 것일 수 있다.

또한, 상기 기업명 태깅을 통해 필터링하는 단계는, 상기 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델 중 적어도 2가지 분석 모델에서 기준값 이상의 확률이 산출된 경우 해당 뉴스 기사를 해당 기업명으로 태깅하는 단계; 및 기업명이 태깅되지 않은 뉴스 기사들은 군집화 대상에서 제외하는 단계를 더 포함할 수 있다.

또한, 상기 통합형 기업 뉴스는 카드 뉴스 형태로 생성되는 것일 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 장치에 있어서, 정형 데이터로서 기업 재무 데이터를 획득하도록 구성된 공시 데이터 획득부; 비정형 혼합 데이터로서 증권사 리포트를 획득하도록 구성된 증권사 리포트 획득부; 미리 결정된 기간 내의 뉴스 기사들을 수집하도록 구성된 기업 뉴스 크롤링부; 및 상기 기업 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성하고, 상기 증권사 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성하고, 수집된 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성하고, 상기 실적 및 시세 뉴스, 상기 컨센서스 및 공시 뉴스, 및 상기 기업 이슈 요약 뉴스를 통합하여 통합형 기업 뉴스를 생성하도록 구성된 통합형 뉴스 생성부를 포함하는 통합형 기업 뉴스 생성 장치를 제공할 수 있다.

본 발명에 의하면, 정형 데이터, 비정형 혼합 데이터, 뉴스 기사 형태의 데이터 등 다양한 형태의 원천 데이터로부터 각각 기업 투자에 필요한 정보를 추출하고, 이들을 뉴스 요약 기사 형태로 변환하여 통합된 형태의 기업 요약 뉴스를 생성하고 제공하기 위한 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 공시 재무 데이터를 뉴스 기사 형태로 변환하고, 증권사 분석 리포트를 뉴스 기사 형태로 변환하고, 다양한 기업 뉴스들을 이슈별로 군집화하여 기업 이슈 요약 뉴스를 생성함으로써, 실적/시세 뉴스, 컨센서스/공시 뉴스 및 기업 이슈 요약 뉴스를 통합한 통합 뉴스를 생성하는 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 틀에 박힌 단순한 포맷에 한정되지 않고, 뉴스 기사 형태와 유사한 형태의 기사를 기업 재무 데이터, 증권사 분석 리포트 및 관련 최신 기업 뉴스를 이용하여 유연하게 카드 뉴스 형태 등의 통합형 기업 요약 뉴스를 생성하는 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 시의 적절한 투자 결정 유도 및 기업에 대한 최신 이슈들의 신속한 전달을 위한 뉴스 서비스에 적용가능한, 자동 기업 요약 뉴스 생성 방법 및 장치를 제공할 수 있다.

또한, 본 발명에 의하면, 정형 데이터나 비정형 데이터에 기초하여 기자가 직접 작성한 뉴스 기사의 형태와 유사하게 생성함으로써, 사람의 개입없이 영업 실적 등이 공시된 시점에 신속하게 자동으로 생성된 통합형 뉴스를 제공가능하며, 이에 따라 투자자에게 신속성과 편리성을 제공할 수 있다.

본 발명의 효과들은 이상에서 언급한 내용들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 종래 기술에 따른 자동 생성 기사의 포맷을 나타내는 예시도이다.
도 2는 본 발명의 일 실시예에 따른 기업에 대한 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따라 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따라 기업 뉴스를 필터링하기 위한 구체적인 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따라 기업 이슈 요약 뉴스를 생성하기 위한 구체적인 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일 실시예에 따라 뉴스 주제별 기업 뉴스가 군집화된 모습을 나타내는 예시도이다.
도 7은 본 발명의 일 실시예에 따라 생성된 기업 이슈 요약 뉴스의 형태와 입출력 포맷을 나타내는 예시도이다.
도 8a는 본 발명의 일 실시예에 따라 공시 재무 데이터 기반 뉴스 생성 결과를 나타내는 예시도이고, 도 8b는 본 발명의 일 실시예에 따라 증권사 분석 리포트 기반 뉴스 생성 결과를 나타내는 예시도이고, 도 8c는 본 발명의 일 실시예에 따라 기업 뉴스 기반 기업 이슈 요약 뉴스 생성 결과를 나타내는 예시도이다.
도 9는 본 발명의 일 실시예에 따라 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

본 명세서에서 사용되는 "포함한다(comprises)", "포함하는(comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

또한, 본 발명에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 이와 같은 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 기술되고, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다. 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리 범위에 포함된다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다.

도 1은 종래 기술에 따른 자동 생성 기사의 포맷을 나타내는 예시도이다.

현재까지의 제공되는 자동 생성 뉴스 기술은 특정한 포맷에 맞춰 데이터를 뿌려주는 형태에 불과하며, 도 1에서와 같이 스포츠 뉴스처럼 특정 기사 형태의 글 양식의 포맷이 미리 정해져 있고, 경기 결과만 변경하여 자동 생성된 기사를 신속히 제공하는 식으로 적용되고 있다.

그러나, 이런 방식들은 전체 문맥과 내용은 미리 결정되어 있고, 그에 맞게 정해진 또 다른 텍스트나 숫자 데이터를 해당 위치에 배치하는 형태만을 가질 수 있기 때문에 한정된 틀의 포맷에 얽매일 수밖에 없다는 한계가 존재한다.

본 발명은 이와 같이 틀에 박힌 단순한 포맷에 한정되지 않고, 기업 재무 데이터, 증권사 분석 리포트 및 관련 최신 기업 뉴스 등 다양한 형태의 데이터를 이용하여 뉴스 기사 형태와 유사한 형태의 기사를 생성하고 이를 요약함으로써 카드 뉴스 형태 등의 통합형 기업 요약 뉴스를 유연하게 생성가능한 방법 및 장치를 제공하는 것을 목적으로 하고 있다.

도 2는 본 발명의 일 실시예에 따른 기업에 대한 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 장치의 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 통합형 기업 뉴스 생성 장치는 기업 뉴스 크롤링부(100), 공시 데이터 획득부(200), 증권사 리포트 획득부(300), 뉴스 데이터 발생 식별부(400), 데이터베이스(DB)(500) 및 통합형 뉴스 생성부(600) 등을 포함할 수 있으며, 이들 구성 요소는 하나 이상의 프로세서(processor)에 의해 실행될 수 있는 프로그램 또는 프로그램 모듈을 포함할 수 있다. 통합형 기업 뉴스 생성 장치에 포함된 프로그램 또는 프로그램 모듈들은 운영 체제(operating system), 어플리케이션 프로그램(application program) 또는 프로그램 등의 형태로 구성될 수 있으며, 널리 사용되는 다양한 종류의 저장 장치 상에 물리적으로 저장될 수 있다. 이와 같은 프로그램 또는 프로그램 모듈은 하나 이상의 루틴(routine), 서브루틴(subroutine), 프로그램(program), 오브젝트(object), 콤포넌트(component), 명령(instructions), 데이터 구조(data structure) 및 특정 작업(task)을 수행하거나 특정 데이터 유형을 실행하기 위한 다양한 형태를 포함할 수 있으며, 이들 형태로 제한되지 않는다.

여기서, 기업 뉴스 크롤링부(100)는 웹 사이트 등에서 크롤링을 통해 다양한 기업 관련 뉴스 기사를 수집하도록 구성되고, 다양한 시간 구간별로 수집된 기업 뉴스 기사들은 데이터베이스(DB)(500)에 저장되어 적재될 수 있다.

공시 데이터 획득부(200)는 정형 데이터의 형태를 갖는 기업의 실적 및 시세와 관련된 공시 재무 데이터를 공시 데이터 서버로부터 수신하거나, 웹 사이트 등에서 크롤링을 통해 수집하도록 구성될 수 있으며, 시간에 따라 업데이트된 공시 재무 데이터가 데이터베이스(DB)(500)에 저장되어 적재될 수 있다.

증권사 리포트 획득부(300)는 정형 데이터와 비정형 데이터가 혼합된 형태의 비정형 혼합 데이터의 형태를 갖는 증권사의 기업 분석 리포트, 공시 원문 등을 증권사 데이터 서버로부터 수신하거나, 웹 사이트 등에서 크롤링을 통해 수집하도록 구성될 수 있으며, 시간에 따라 업데이트된 증권사 리포트 데이터 등이 데이터베이스(DB)(500)에 저장되어 적재될 수 있다.

뉴스 데이터 발생 식별부(400)는 데이터베이스(DB)(500)에 새로운 공시 재무 데이터, 새로운 증권사 리포트나 새로운 뉴스 기사들이 적재 시에 통합형 뉴스 생성을 위한 이벤트를 식별하고, 해당 데이터나 뉴스 기사 등에 대한 정보를 뉴스 통합형 뉴스 생성부(600)에 알려주도록 구성될 수 있다. 예컨대 이벤트 식별은 예컨대 새로운 공시 데이터 발행 여부, 새로운 증권사 리포트 발행 여부, 미리 설정된 기업에 대한 해당 기간의 뉴스 기사의 개수가 미리 설정된 개수에 도달할 때, 또는 미리 설정된 주기에 따라 주기적으로 생성될 수 있다.

데이터베이스(DB)(500)는 기업 뉴스 크롤링부(100), 공시 데이터 획득부(200), 증권사 리포트 획득부(300)를 통해 수신한 다양한 기업 뉴스, 공시 데이터, 증권사 리포트를 저장하고, 통합형 뉴스 생성부(600)를 통해 생성된 통합형 뉴스 등을 저장하고 수집하도록 구성될 수 있다.

통합형 뉴스 생성부(600)는 데이터베이스(DB)(500)에 저장된 기업에 대한 최신 뉴스, 증권사 리포트, 공시, 시세, 재무 데이터 등을 데이터 형태에 따라 공시 재무 데이터의 정형 데이터 기반의 실적/시세 뉴스와, 증권사 분석 리포트, 공시 뉴스의 정형/비정형 혼합 데이터 기반의 컨센서스/공시 뉴스와 최신 기업 뉴스 기반의 기업 이슈 요약 뉴스를 생성하고, 이들을 카드 뉴스 등의 형태로 통합형 뉴스로 생성한 기업 요약 뉴스를 생성하도록 구성된다.

통합형 뉴스 생성부(600)의 정형 데이터 기반 뉴스 생성부(610)는 기업에 대한 공시 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성하도록 구성되며, 기업의 실적이나 주가 시세 등과 관련된 정형 데이터로부터 뉴스를 생성(Data2News)함으로써, 정형 데이터 자체를 사람의 개입 없이 자동으로 뉴스 기사 형태로 변환 생성하도록 구성될 수 있다. 여기서, 정형 데이터 기반 뉴스 생성부(610)는 예컨대 T5 등의 생성형 딥러닝 언어 모델을 사용하여 정형 데이터로부터 뉴스 형태의 문장을 생성할 수 있다.

통합형 뉴스 생성부(600)의 비정형 혼합 데이터 기반 뉴스 생성부(620)는 증권사 리포트나 공시 원문 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성하도록 구성되며, 비정형 데이터와 정형 데이터가 혼합되어 있는 리포트 형태의 정보로부터 비정형 혼합 데이터로부터 뉴스를 생성(Report2News)함으로써, 증권사 리포트 형태를 사람의 개입 없이 자동으로 뉴스 기사 형태로 변환 생성하도록 구성될 수 있다. 여기서, 비정형 혼합 데이터 기반 뉴스 생성부(620)는 예컨대 T5 등의 생성형 딥러닝 언어 모델을 사용하여 리포트 형태의 비정형 혼합 데이터로부터 뉴스 형태의 문장을 생성할 수 있다.

통합형 뉴스 생성부(600)의 기업 뉴스 기반 기업 이슈 요약 생성부(630)는 수집된 기업 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성하도록 구성되며, 미리 결정된 기간 내에 수집된 뉴스 기사들 중 기업 뉴스 필터링, 주제별 군집화, 주요 기업 이슈 선정 및 해당 주요 이슈에 대한 요약 뉴스의 생성 등을 수행하도록 구성될 수 있으며, 보다 구체적인 프로세스는 도 3 내지 도 5를 참조하여 설명될 것이다.

통합형 뉴스 생성부(600)의 기업 요약 뉴스 생성부(640)는 정형 데이터 기반 뉴스 생성부(610)에서 생성된 실적 및 시세 뉴스, 비정형 혼합 데이터 기반 뉴스 생성부(620)에서 생성된 컨센서스 및 공시 뉴스, 및 기업 뉴스 기반 기업 이슈 요약 생성부(630)에서 생성된 기업 이슈 요약 뉴스를 통합하여 통합형 기업 요약 뉴스를 생성하도록 구성되며, 예컨대 통합형 기업 요약 뉴스는 주요 이슈나 뉴스를 이미지나 간략한 텍스트로 재구성해 보여주는 카드 뉴스 형태의 포맷으로 생성될 수 있다.

도 3은 본 발명의 일 실시예에 따라 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법을 설명하기 위한 흐름도이다.

먼저 다양한 형태의 소스로부터 수신되는 데이터 유형을 구분할 수 있다.(S310)

공시 데이터 획득부(200)로부터 수신되는 공시 재무 데이터 등의 정형 데이터는 정형 데이터 기반 뉴스 생성부(610)로 전달되어 실적/시세 뉴스 형태로 정형 데이터 기반 뉴스를 생성할 수 있다.(S320)

또한, 증권사 리포트 획득부(300)로부터 수신되는 증권사 리포트 등의 비정형 혼합 데이터는 비정형 혼합 데이터 기반 뉴스 생성부(620)로 전달되어 컨센서스/공시 뉴스 형태로 비정형 혼합 데이터 기반 뉴스를 생성할 수 있다.(S330)

한편, 기업 뉴스 크롤링부(100)로부터 수신되는 미리 결정된 기간 내의 기업 뉴스들은 기업 뉴스 기반 기업 이슈 요약 생성부(630)로 전달되며, 기업 뉴스 기반 기업 이슈 요약 생성부(630)를 통해, 수신된 기업 뉴스가 기업명 태깅을 통해 기업과 관련된 뉴스임을 식별하여 분류하는 기업 뉴스 필터링 단계(S340), 필터링된 기업 뉴스들을 주제 별로 군집화(clustering)하는 기업 뉴스 군집화 단계(S341), 군집내 뉴스 버즈(buzz)량, 즉 군집화된 기업 뉴스들의 개수에 기초하여 군집 간 중요 순위를 매기고 순위가 높은 순으로 주요 이슈를 판별하는 주요 기업 이슈 선정 단계(S342), 주요 기업 이슈에 대해 요약 뉴스 형태의 기업 이슈 요약 뉴스를 생성하는 기업 이슈 요약 단계(S343)가 수행될 수 있다.

다음으로 기업 요약 뉴스 생성부(640)에서는 정형 데이터 기반 뉴스 생성부(610)에서 생성된 실적 및 시세 뉴스, 비정형 혼합 데이터 기반 뉴스 생성부(620)에서 생성된 컨센서스 및 공시 뉴스, 및 기업 뉴스 기반 기업 이슈 요약 생성부(630)에서 생성된 기업 이슈 요약 뉴스를 통합하는 뉴스 통합 단계(S350)의 구성을 수행할 수 있다. 이때, 실적 및 시세 뉴스나 컨센서스 및 공시 뉴스는 요약 뉴스 형태로 변경될 수 있다.

이와 같이 기업 요약 뉴스들의 통합을 통해 해당 기업의 해당 이슈에 대해 기업 요약 뉴스 생성(S360)을 수행가능하며, 예컨대 통합형 기업 요약 뉴스는 주요 이슈나 뉴스를 이미지나 간략한 텍스트로 재구성해 보여주는 카드 뉴스 형태의 포맷을 가질 수 있다.

도 4는 본 발명의 일 실시예에 따라 기업 뉴스를 필터링하기 위한 구체적인 방법을 설명하기 위한 흐름도이다.

도 3에서의 기업 뉴스 필터링 단계(S340)의 구성을 보다 구체적으로 살펴보면, 먼저 미리 설정된 기간 내의 기업 뉴스에 기업명이 포함되어 있는지 여부를 판단하고(S410), 기업명이 포함되어 있는 경우 기업명과 함께 사용된 조사 출현 횟수에 기초하여 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에 대해 피쳐(feature), 즉 조사 출현 횟수로 벡터화된 데이터를 추출하여 기업명 후보들을 생성하는 피쳐 생성 단계(S420)가 수행될 수 있다.

다음으로, 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에서 생성된 기업명 후보들에 대해 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델에서 각각 해당 뉴스 기사가 해당 기업명에 대한 뉴스 기사일 확률을 산출하는 기업 뉴스 판별 단계(S431, S432, S433)를 수행하고, 여기서, 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델은 머신 러닝 모델일 수 있다.

다음으로, 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델 중 적어도 2가지 분석 모델에서 해당 기업명에 대한 뉴스 기사일 확률이 기준값 이상의 확률로 산출된 경우 해당 뉴스 기사를 해당 기업명으로 태깅하는 기업명 태깅 단계(S450)가 수행하고 해당 뉴스 기사를 해당 기업명과 관련된 뉴스로서 식별할 수 있고, 기업명이 태깅되지 않은 뉴스 기사들은 군집화 대상에서 제외하는 필터링 단계(S451)가 수행될 수 있다.

미리 결정된 기간 내 모든 뉴스에 대해 기업명 태깅이 완료되었는지 여부를 판단하여 추가로 태깅 작업이 필요한 경우 위의 프로세스를 반복함으로써 기간 내 전체 뉴스에 대해 기업 뉴스를 필터링하는 과정을 완료할 수 있다.

위와 같은 구성은 이는 기업에 대한 뉴스는 제목과 첫 문장에서 그 기업명이 표시될 확률이 높다는 실증적 분석 하에 구성된 것으로서, 해당 뉴스 기사에서 다루는 기업명은 주어의 자리에 올 확률이 높기 때문에, 주어와 주로 같이 동행하는 조사를 통계적으로 확인하고, 예컨대 은, 는, 이, 가, 의, 에, 도, 에 따르면 등과 같은 미리 결정된 조사들과 함께 나타나는 명사에 대해서 제목, 첫 문장 그리고 본문 전체에서 해당 명사가 기업명일 확률을 판단하는 세 개의 모형을 예컨대 랜덤 포레스트(random forest) 방식의 머신 러닝 모델로 구성가능하고, 각 모형에서의 결과값을 과반수나 만장일치 투표하는 방식으로 태깅 종목 프로세스를 구성할 수 있다.

도 5는 본 발명의 일 실시예에 따라 기업 이슈 요약 뉴스를 생성하기 위한 구체적인 방법을 설명하기 위한 흐름도이다.

도 5를 참조하면, 도 3의 기업 뉴스 군집화 단계(S341)는 도 4의 프로세스에 따라 필터링된 기업 뉴스들을 딥러닝 언어 모델을 이용하여 텍스트 임베딩(text embedding)을 수행하는 단계(S510), 텍스트 임베딩의 수행 결과의 유사도에 기초하여 기업 뉴스들을 군집화하는 단계(S520)로 구성될 수 있다. 여기서, 딥러닝 언어 모델은 예컨대 SentenceBert 모델을 기초로 STS(Semantic textual similarity)의 문장 유사도 비교나 NLI(Natural Language Inference)의 자연어 추론 등의 태스크를 학습해 유사한 의미의 글을 같은 벡터 공간에 배치하는 언어 모델을 활용할 수 있다. 즉, 유사한 의미의 문장들이 특정 벡터 공간 내에서 유사 공간으로 투사될 수 있도록 언어 모델을 학습시키는 것이다. 또한, 텍스트 임베딩 시에, 예컨대 언어 모델의 각 레이어(layer)의 출력층, 즉, 각 어텐션 블록(Attention Block)의 출력 레이어들에서 나온 최종 벡터 값을 모두 사용하거나, 마지막 레이어의 벡터만을 사용하는 것도 가능하다. 또한, 위와 같이 산출된 각 문서별 텍스트 임베딩을 코사인 유사도(Cosine Similarity) 등 유사도를 측정하는 방식 기반으로 코사인 유사도 군집 탐색(Cosine Similarity Community Detection, CSD)을 활용하여 유사한 문서끼리 군집화를 진행할 수 있다. 이에 따라, 예컨대 도 6에서와 같이 뉴스 주제별, 이슈별 기업 뉴스가 군집화된 모습이 나타날 수 있다.

이와 같이 군집화된 기업 뉴스들의 개수에 기초하여 주요 이슈를 선정함으로써 주요 이슈의 군집을 선정하고(S540), 군집화된 기업 뉴스들의 내적을 통해 내적의 합을 계산하고, 내적의 합이 최대값인지 여부를 판단하는 단계(S550)를 통해 내적의 합이 최대값인 기업 뉴스를 대표 문서로 추출할 수 있다.(S560) 여기서, 내적의 합이 최대값이 아닌 경우 해당 기업 뉴스를 요약 대상에서 제외할 수 있다.(S561)

다음으로, 뉴스 요약 엔진을 이용하여 주제별 또는 주요 이슈별 군집된 군집별 추출된 대표 문서를 요약하고(S570), 그 결과로 하이라이트 문구 및 요약문을 생성할 수 있다.(S580)

예컨대, 뉴스 요약 엔진은 T5 등의 생성형 딥러닝 언어 모델을 사용하여 추상적 요약을 실시하여 대표 문서 요약을 진행할 수 있으며, 예컨대 도 7a에서와 같이 뉴스 본문을 요약하여 하이라이트 문구와 요약문 형태의 포맷을 생성할 수 있으며, 도 7b에서와 같이 입출력 포맷을 설정할 수 있다.

도 8a는 본 발명의 일 실시예에 따라 공시 재무 데이터 기반 뉴스 생성 결과를 나타내는 예시도이고, 도 8b는 본 발명의 일 실시예에 따라 증권사 분석 리포트 기반 뉴스 생성 결과를 나타내는 예시도이고, 도 8c는 본 발명의 일 실시예에 따라 기업 뉴스 기반 기업 이슈 요약 뉴스 생성 결과를 나타내는 예시도이다.

도 8a를 참조하면, 영업실적 잠정치나 사업보고서 실적 등 정형 데이터인 공시 재무 데이터에 기초하여 딥러닝 모델을 이용하여 실적/시세 뉴스를 생성하는 예시를 나타내며, 딥러닝 모델을 이용하여 학습시킬 때, 실적 뉴스 원문은 레이블(label) 즉, 정답지 역할을 하는 텍스트이며, 이때 입력은 정형 데이터이고, 정답은 실적 뉴스 원문이 될 수 있다.

도 8b를 참조하면, 증권사 리포트 원문에 기초하여 딥러닝 모델을 이용하여 컨센서스/공시(리포트) 뉴스를 생성하는 예시를 나타내며, 딥러닝 모델을 이용하여 학습시킬 때, 리포트 원문과 정형/비정형 혼합 데이터, 예컨대 시세, 발간일, 투자 의견 등이 입력되고, 실제 리포트 뉴스가 정답이 될 수 있다. 증권사 리포트 원문 자체는 읽기에 어려움이 있으나 위와 같이 생성된 컨센서스/공시 뉴스는 사용자가 쉽게 읽을 수 있도록 어순과 어구가 변경되고 필요한 정보를 추가하여 재구성한 뉴스가 될 수 있다.

도 8c를 참조하면, 뉴스 요약 엔진을 통해 기업 뉴스 원문 내에서 뉴스의 주요 주제를 문맥 속에서 파악하여, 주요 주제에 맞도록 기업 뉴스 요약문을 생성할 수 있다.

이와 같이, 정형 데이터나 비정형 데이터에 기초하여 생성된, 실적/시세 뉴스, 컨센서스/공시 뉴스 및 기업 뉴스를 사용자가 이해하기 쉽도록 기자가 직접 작성한 뉴스 기사의 형태와 유사하게 생성하여 통합가능하고, 뉴스 요약을 통해 통합한 통합형 뉴스를 생성함으로써 사람의 개입없이 영업 실적 등이 공시된 시점에 신속하게 자동으로 생성된 통합형 뉴스를 제공가능하다.

도 9는 본 발명의 일 실시예에 따라 정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법을 설명하기 위한 흐름도이다.

공시 데이터 획득부(200)는 정형 데이터로서 기업 재무 데이터를 획득할 수 있다.(S910)

또한, 증권사 리포트 획득부(300)는 비정형 혼합 데이터로서 증권사 리포트를 획득할 수 있다.(S920)

또한, 기업 뉴스 크롤링부(100)는 미리 결정된 기간 내의 뉴스 기사들을 수집할 수 있다.(S930)

다음으로, 정형 데이터 기반 뉴스 생성부(610)는 기업 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성할 수 있다.(S940)

또한, 비정형 혼합 데이터 기반 뉴스 생성부(620)는 증권사 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성할 수 있다.(S950)

또한, 기업 뉴스 기반 기업 이슈 요약 생성부(630)는 수집된 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성할 수 있다.(S960)

다음으로, 기업 요약 뉴스 생성부(640)는 이와 같이 생성된 실적 및 시세 뉴스, 컨센서스 및 공시 뉴스, 및 기업 이슈 요약 뉴스를 통합하여 통합형 기업 뉴스를 생성할 수 있다.(S970)

이상 본 발명의 실시예에 따른 다양한 방법, 장치 및 시스템을 구체적인 다양한 실시 형태로서 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명은 이에 한정되지 않는 것이며, 본 명세서에 개시된 기초 사상에 따르는 최광의 범위를 갖는 것으로 해석되어야 한다. 당업자는 개시된 실시형태들을 조합, 치환하여 적시되지

않은 형상의 패턴을 실시할 수 있으나, 이 역시 본 발명의 범위를 벗어나지 않는 것이다. 이외에도 당업자는 본 명세서에 기초하여 개시된 실시형태를 용이하게 변경 또는 변형할 수 있으며, 이러한 변경 또는 변형도 본 발명의 권리범위에 속함은 명백하다.

100: 기업 뉴스 크롤링부
200: 공시 데이터 획득부
300: 증권사 리포트 획득부
400: 뉴스 데이터 발생 식별부
500: 데이터베이스
600: 통합형 뉴스 생성부

Claims

정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 방법에 있어서,
공시 데이터 획득부에 의해 정형 데이터로서 기업 재무 데이터를 획득하는 단계;
증권사 리포트 획득부에 의해 비정형 혼합 데이터로서 증권사 리포트를 획득하는 단계;
기업 뉴스 크롤링부에 의해 미리 결정된 기간 내의 뉴스 기사들을 수집하는 단계;
통합형 뉴스 생성부에 의해, 상기 기업 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성하는 단계;
상기 통합형 뉴스 생성부에 의해, 상기 증권사 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성하는 단계;
상기 통합형 뉴스 생성부에 의해, 수집된 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성하는 단계; 및
상기 통합형 뉴스 생성부에 의해, 상기 실적 및 시세 뉴스, 상기 컨센서스 및 공시 뉴스, 및 상기 기업 이슈 요약 뉴스를 통합하여 통합형 기업 뉴스를 생성하는 단계
를 포함하고,
상기 기업 이슈 요약 뉴스를 생성하는 단계는,
상기 미리 결정된 기간 내의 기업 뉴스들을 기업명 태깅을 통해 필터링하는 기업 뉴스 필터링 단계;
상기 필터링된 기업 뉴스들을 주제별로 군집화하는 단계;
군집화된 기업 뉴스들의 개수에 기초하여 주요 이슈를 선정하는 단계; 및
상기 주요 이슈에 대해 기업 이슈 요약 뉴스를 생성하는 단계
를 포함하는 것이며,
상기 기업 뉴스 필터링 단계는,
상기 미리 결정된 기간 내의 기업 뉴스들에 기업명과 함께 사용된 조사에 기초하여 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에 대해 피쳐(feature)를 추출하여 기업명 후보들을 생성하는 단계; 및
상기 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에서 생성된 기업명 후보들에 대해 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델에서 각각 상기 뉴스 기사가 해당 기업명에 대한 뉴스 기사일 확률을 산출하는 단계
를 포함하고, 상기 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델은 머신 러닝 모델인 것이고,
상기 기업 뉴스 필터링 단계는,
상기 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델 중 적어도 2가지 이상의 분석 모델에서 기준값 이상의 확률이 산출된 경우 해당 뉴스 기사를 해당 기업명으로 태깅하는 단계; 및
기업명이 태깅되지 않은 뉴스 기사들은 군집화 대상에서 제외하는 단계
를 더 포함하는 것인, 통합형 기업 뉴스 생성 방법.
삭제
제1항에 있어서,
상기 군집화하는 단계는, 상기 필터링된 기업 뉴스들을 딥러닝 언어 모델을 이용하여 텍스트 임베딩(text embedding)을 수행하고, 상기 텍스트 임베딩의 수행 결과의 유사도에 기초하여 상기 기업 뉴스들을 군집화하는 것이며, 통합형 기업 뉴스 생성 방법.
제1항에 있어서, 상기 기업 이슈 요약 뉴스 생성 단계는,
상기 군집화된 기업 뉴스들의 내적을 통해 내적의 합을 계산하는 단계;
상기 내적의 합에 기초하여 기업 뉴스를 대표 문서로 추출하는 단계;
상기 대표 문서를 요약하여 하이라이트 문구 및 요약문을 생성하는 단계; 및
상기 하이라이트 문구 및 요약문을 이용하여 상기 기업 이슈 요약 뉴스를 생성하는 단계
를 더 포함하는 통합형 기업 뉴스 생성 방법.
삭제
삭제
정형 데이터, 비정형 혼합 데이터 및 기업 뉴스를 이용하여 통합형 기업 뉴스를 생성하기 위한 장치에 있어서,
정형 데이터로서 기업 재무 데이터를 획득하도록 구성된 공시 데이터 획득부;
비정형 혼합 데이터로서 증권사 리포트를 획득하도록 구성된 증권사 리포트 획득부;
미리 결정된 기간 내의 뉴스 기사들을 수집하도록 구성된 기업 뉴스 크롤링부; 및
상기 기업 재무 데이터에 기초하여 실적 및 시세 뉴스를 생성하고, 상기 증권사 리포트에 기초하여 컨센서스 및 공시 뉴스를 생성하고, 수집된 뉴스 기사들에 기초하여 기업 이슈 요약 뉴스를 생성하고, 상기 실적 및 시세 뉴스, 상기 컨센서스 및 공시 뉴스, 및 상기 기업 이슈 요약 뉴스를 통합하여 통합형 기업 뉴스를 생성하도록 구성된 통합형 뉴스 생성부
를 포함하고,
상기 통합형 뉴스 생성부는,
상기 미리 결정된 기간 내의 기업 뉴스들을 기업명 태깅을 통해 필터링하는 기업 뉴스 필터링 단계;
상기 필터링된 기업 뉴스들을 주제별로 군집화하는 단계;
군집화된 기업 뉴스들의 개수에 기초하여 주요 이슈를 선정하는 단계; 및
상기 주요 이슈에 대해 기업 이슈 요약 뉴스를 생성하는 단계
를 통해 상기 기업 이슈 요약 뉴스를 생성하도록 구성되고,
상기 기업 뉴스 필터링 단계는,
상기 미리 결정된 기간 내의 기업 뉴스들에 기업명과 함께 사용된 조사에 기초하여 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에 대해 피쳐(feature)를 추출하여 기업명 후보들을 생성하는 단계; 및
상기 기업 뉴스의 제목, 첫 문장, 본문 전체 각각에서 생성된 기업명 후보들에 대해 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델에서 각각 상기 뉴스 기사가 해당 기업명에 대한 뉴스 기사일 확률을 산출하는 단계
를 포함하고, 상기 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델은 머신 러닝 모델인 것이고,
상기 기업 뉴스 필터링 단계는,
상기 제목 분석 모델, 첫 문장 분석 모델 및 본문 분석 모델 중 적어도 2가지 이상의 분석 모델에서 기준값 이상의 확률이 산출된 경우 해당 뉴스 기사를 해당 기업명으로 태깅하는 단계; 및
기업명이 태깅되지 않은 뉴스 기사들은 군집화 대상에서 제외하는 단계
를 더 포함하는 것인, 통합형 기업 뉴스 생성 장치.