KR102294555B1 - 자동보고서생성장치 및 그 동작 방법 - Google Patents

자동보고서생성장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102294555B1
KR102294555B1 KR1020190114855A KR20190114855A KR102294555B1 KR 102294555 B1 KR102294555 B1 KR 102294555B1 KR 1020190114855 A KR1020190114855 A KR 1020190114855A KR 20190114855 A KR20190114855 A KR 20190114855A KR 102294555 B1 KR102294555 B1 KR 102294555B1
Authority
KR
South Korea
Prior art keywords
analysis
data
category
market
categories
Prior art date
Application number
KR1020190114855A
Other languages
English (en)
Other versions
KR20210033294A (ko
Inventor
유형선
김지희
정예림
김은선
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020190114855A priority Critical patent/KR102294555B1/ko
Publication of KR20210033294A publication Critical patent/KR20210033294A/ko
Application granted granted Critical
Publication of KR102294555B1 publication Critical patent/KR102294555B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 분석 대상에 대한 산업·시장 분석을 수행하고, 분석 결과 중 핵심내용을 자동으로 추출한 후 그 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성할 수 있는 자동보고서생성장치 및 그 동작 방법에 관한 것이다.

Description

자동보고서생성장치 및 그 동작 방법{AUTOMATIC MANUFACTURING APPARATUS FOR REPORTS, AND CONTROL METHOD THEREOF}
본 발명은 분석 대상에 대한 산업·시장 분석을 수행하고, 분석 결과 중 핵심내용을 자동으로 추출한 후 그 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성하기 위한 방안에 관한 것이다.
산업·시장 분석은 사업 타당성을 판단하기 위해 필수적으로 거쳐야 하는 분석 단계로, 산·학·연·관의 모든 기술사업화 주체는 기술사업화 전 과정에서 합리적 의사결정을 하기 위해 어떤 규모와 형태로든 산업·시장 분석의 수행을 필요로 하고 있다.
산업·시장 분석의 방법은 크게 전문가 혹은 수요자의 정성적 판단에 의존하는 정성적 방법과 정량적 데이터에 근거한 정량적 방법으로 구분할 수 있는데, 보다 객관적인 분석이 가능한 정량적 분석 방법론과 이를 지원하기 위한 분석 시스템이 최근 들어 더 비중 있게 활용되고 있는 추세이다.
그러나 이처럼 기존 기술에 채택하고 있는 정량적 분석 방법론과 분석 시스템은 데이터의 수집·가공·분석 단계를 수월하게 도와주는 용도에만 초점이 맞춰져 왔다.
즉 기존 기술은 산업·시장 분석자가 분석 대상에 대한 데이터를 수집·가공·분석하는 작업을 보다 수월하게 수행할 수 있도록 지원하는 수준이며, 더욱이 그 분석 결과물 또한 주로 표나 그림 형태로 요약하는 수준에 그치고 있다는 한계점이 있다.
한편, 본 발명의 배경이 되는 기술은 대한민국 공개특허공보 제10-2013-0046141호(2013.05.07.)에 개시되어 있다
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 분석 대상에 대한 산업·시장 분석을 수행하고, 분석 결과 중 핵심내용을 자동으로 추출한 후 그 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자동보고서생성장치는, 분석 대상에 대한 보고서 생성을 위해 분석 대상과 관련된 원본 데이터를 수집하는 수집부; 상기 보고서의 포맷으로 지정되는 분석 카테고리 별로 상기 원본 데이터를 분류하여, 각 분석 카테고리마다의 분류 데이터로서 매칭시키는 분류부; 및 상기 분석 카테고리 별로 기 정의된 카테고리 특성에 따라 상기 분류 데이터를 분석하여, 상기 분석 카테고리마다의 분석 데이터를 생성하는 분석부를 포함하는 것을 특징으로 한다.
구체적으로, 상기 자동보고서생성장치는, 상기 분석 카테고리 별 분석 데이터로부터 핵심 내용을 추출하는 추출부; 및 상기 핵심 내용이 의미하는 시사점을 기 정의된 양식 기반의 문자 생성 규칙에 따라 텍스트 형태로 변환하여, 상기 분석 카테고리 별 분석 데이터와 상기 텍스트 형태로 변환된 시사점을 병기한 보고서를 생성하는 생성부를 더 포함할 수 있다.
구체적으로, 상기 수집부는, 상기 분석 카테고리 별 상기 카테고리 특성과 매칭되도록 지정된 데이터 저장소의 리스트를 기초로, 상기 분석 대상으로 입력된 명칭을 상기 리스트 상 데이터 저장소 각각에서의 통용 명칭으로 변경 또는 확장하여 상기 원본 데이터를 수집할 수 있다.
구체적으로, 상기 분석부는, 2 이상의 분석 카테고리 간에 공유되는 분류 데이터인 공유 데이터가 존재하는 경우, 상기 공유 데이터 별로 소유권을 가지는 마스터 분석 카테고리를 지정하여 상기 마스터 분석 카테고리에 한해서 상기 공유 데이터를 가공한 정제 데이터를 생성할 수 있도록 할 수 있다.
구체적으로, 상기 공유 데이터는, 데이터 간의 관련도 및 데이터 크기 중 적어도 하나를 기초로 상기 2 이상의 분석 카테고리 중 어느 하나에 대해서 데이터 가공을 위한 소유권이 할당될 수 있다.
구체적으로, 상기 공유 데이터는, 상기 2 이상의 분석 카테고리 간에 지정되는 데이터 가공 시간 동안 정제 데이터로의 데이터 가공이 이루어지며, 상기 정제 데이터는, 상기 데이터 가공 시간이 종료되는 시점 또는 데이터 가공이 완료되는 시점에, 소유권을 가지지 않는 분석 카테고리에 대해서 갱신될 수 있다.
구체적으로, 상기 추출부는, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 내용 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 수치적 물리량의 변화에 대한 내용, 범주 간에 상기 수치적 물리량이 비교되는 내용, 및 노출 빈도가 가장 높은 특정 용어에 관한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
구체적으로, 상기 추출부는, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 시기 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 과거보다는 최근의 변화 내용, 미래 전망에 대한 내용, 및 특정한 사건을 전후한 시점에 관한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
구체적으로, 상기 추출부는, 상기 분석 데이터로부터 동일 수준의 다수 범주를 아우르는 상위 수준 범주를 포함한 계층 구조가 확인되는 경우, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 범주 선택 가중치에 따라, 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주로부터 새롭게 도출되는 신규 상위 수준 범주에 대한 내용, 상위 수준 범주의 통계적 물리량과 설정 값 이상의 차이를 보이는 하위 수준의 범주에 대한 내용, 동일 수준의 범주 중에서 상기 분석 대상과의 관련도가 가장 높은 범주에 대한 내용, 동일 수준의 범주 중에서 가장 높거나 낮은 물리량을 갖는 범주에 대한 내용, 동일 수준의 범주 중에서 설정 순위 또는 설정 비율 이내의 물리량을 갖는 범주에 대한 내용, 및 동일 수준의 범주 중에서 물리량의 변화가 가장 큰 범주에 대한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자동보고서생성장치의 동작 방법은, 분석 대상에 대한 보고서 생성을 위해 분석 대상과 관련된 원본 데이터를 수집하는 수집단계; 상기 보고서의 포맷으로 지정되는 분석 카테고리 별로 상기 원본 데이터를 분류하여, 각 분석 카테고리마다의 분류 데이터로서 매칭시키는 분류단계; 및 상기 분석 카테고리 별로 기 정의된 카테고리 특성에 따라 상기 분류 데이터를 분석하여, 상기 분석 카테고리마다의 분석 데이터를 생성하는 분석단계를 포함하는 것을 특징으로 한다.
구체적으로, 상기 방법은, 상기 분석 카테고리 별 분석 데이터로부터 핵심 내용을 추출하는 추출단계; 및 상기 핵심 내용이 의미하는 시사점을 기 정의된 양식 기반의 문자 생성 규칙에 따라 텍스트 형태로 변환하여, 상기 분석 카테고리 별 분석 데이터와 상기 텍스트 형태로 변환된 시사점을 병기한 보고서를 생성하는 생성단계를 더 포함할 수 있다.
구체적으로, 상기 수집단계는, 상기 분석 카테고리 별 상기 카테고리 특성과 매칭되도록 지정된 데이터 저장소의 리스트를 기초로, 상기 분석 대상으로 입력된 명칭을 상기 리스트 상 데이터 저장소 각각에서의 통용 명칭으로 변경 또는 확장하여 상기 원본 데이터를 수집할 수 있다.
구체적으로, 상기 분석단계는, 2 이상의 분석 카테고리 간에 공유되는 분류 데이터인 공유 데이터가 존재하는 경우, 상기 공유 데이터 별로 소유권을 가지는 마스터 분석 카테고리를 지정하여 상기 마스터 분석 카테고리에 한해서 상기 공유 데이터를 가공한 정제 데이터를 생성할 수 있도록 할 수 있다.
구체적으로, 상기 공유 데이터는, 데이터 간의 관련도 및 데이터 크기 중 적어도 하나를 기초로 상기 2 이상의 분석 카테고리 중 어느 하나에 대해서 데이터 가공을 위한 소유권이 할당될 수 있다.
구체적으로, 상기 공유 데이터는, 상기 2 이상의 분석 카테고리 간에 지정되는 데이터 가공 시간 동안 정제 데이터로의 데이터 가공이 이루어지며, 상기 정제 데이터는, 상기 데이터 가공 시간이 종료되는 시점 또는 데이터 가공이 완료되는 시점에, 소유권을 가지지 않는 분석 카테고리에 대해서 갱신될 수 있다.
구체적으로, 상기 추출단계는, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 내용 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 수치적 물리량의 변화에 대한 내용, 범주 간에 상기 수치적 물리량이 비교되는 내용, 및 노출 빈도가 가장 높은 특정 용어에 관한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
구체적으로, 상기 추출단계는, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 시기 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 과거보다는 최근의 변화 내용, 미래 전망에 대한 내용, 및 특정한 사건을 전후한 시점에 관한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
구체적으로, 상기 추출단계는, 상기 분석 데이터로부터 동일 수준의 다수 범주를 아우르는 상위 수준 범주를 포함한 계층 구조가 확인되는 경우, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 범주 선택 가중치에 따라, 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주로부터 새롭게 도출되는 신규 상위 수준 범주에 대한 내용, 상위 수준 범주의 통계적 물리량과 설정 값 이상의 차이를 보이는 하위 수준의 범주에 대한 내용, 동일 수준의 범주 중에서 상기 분석 대상과의 관련도가 가장 높은 범주에 대한 내용, 동일 수준의 범주 중에서 가장 높거나 낮은 물리량을 갖는 범주에 대한 내용, 동일 수준의 범주 중에서 설정 순위 또는 설정 비율 이내의 물리량을 갖는 범주에 대한 내용, 및 동일 수준의 범주 중에서 물리량의 변화가 가장 큰 범주에 대한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
이에, 본 발명의 자동보고서생성장치 및 그 동작 방법에서는, 자동화된 프로세스를 통해 산업·시장분석의 전 과정을 체계적이고 효율적으로 수행할 수 있도록 함으로써 분석 대상의 양에 상관없이 다수의 산업 및 품목 분야에 대해서도 빠른 시간 안에 고속·대용량 분석이 가능케 하여 산업·시장분석에 소요되는 시간과 비용을 크게 절감시키는 효과가 있다.
또한 기존의 표 및 그림 형태로만 제공되던 정량적 시스템의 한계를 벗어나 분석 결과로부터 도출할 수 있는 핵심적인 특징과 분석 인사이트를 설명 문장을 통해 제공함으로써 정보 이용자의 이해도를 높이고, 정보 이용자의 해석 수준에 의존하지 않고 보다 가치 있는 시사점을 제공하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 보고서 자동 생성 환경을 설명하기 위한 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 자동보고서생성장치의 구성을 설명하기 위한 구성도.
도 3 내지 도 16은 본 발명의 일 실시예에 따른 분석 결과로서 도출되는 형태를 설명하기 위한 예시도.
도 17은 본 발명의 일 실시예에 따른 보고서 형성을 설명하기 위한 예시도.
도 18은 본 발명의 일 실시예에 따른 자동보고서생성장치의 동작 방법을 설명하기 위한 순서도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 보고서 자동 생성 환경을 보여주고 있다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 보고서 자동 생성 환경은, 산업·시장 분석 결과에 따른 보고서를 자동 생성하는 자동보고서생성장치(100)를 포함할 수 있다.
자동보고서생성장치(100)는 산업·시장 분석을 수행하고, 분석 수행 결과에 해당하는 보고서를 자동 생성하기 위한 장치를 일컫는 것으로서, 유무선 통신망을 통해 접속 가능한 서버의 형태로 구현되거나, 또는 컴퓨터 시스템(예: 컴퓨터, 모바일 폰) 내 프로그램 형태로도 구현될 수 있다.
이러한, 자동보고서생성장치(100)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다. 또한, 네트워크는 http 네트워크일 수 있으며, 전용 회선(private line), 인트라넷 또는 임의의 다른 네트워크일 수 있고, 또한 본 발명의 일 실시예에 따른 시스템 내 각 구성 간의 연결은, 데이터가 임의의 해커 또는 다른 제3자에 의한 공격을 받지 않도록 보안 네트워크로 연결될 수 있다.
한편, 일반적으로 산업·시장 분석의 방법은 크게 전문가 혹은 수요자의 정성적 판단에 의존하는 정성적 방법과 정량적 데이터에 근거한 정량적 방법으로 구분할 수 있는데, 보다 객관적인 분석이 가능한 정량적 분석 방법론과 이를 지원하기 위한 분석 시스템이 최근 들어 더 비중 있게 활용되고 있는 추세이다.
그러나 이러한, 정량적 분석 방법론과 분석 시스템의 경우, 데이터의 수집·가공·분석 단계를 수월하게 도와주는 용도에만 초점이 맞춰진 관계로, 산업·시장 분석자가 분석 대상에 대한 데이터를 수집·가공·분석하는 작업을 보다 수월하게 수행할 수 있도록 지원하는 수준이며, 더욱이 그 분석 결과물 또한 주로 표나 그림 형태로 요약하는 수준에 그치고 있다는 한계점이 있다.
따라서 산업·시장 데이터의 수집·가공·분석 과정뿐만 아니라 해석, 출력과정까지 자동으로 수행할 수 있는 방안이 제안되는 경우, 정보를 생산하는 분석자뿐만 아니라 분석된 정보를 이용하는 수요자에게도 매우 효과적인 산업·시장 분석 지원 수단이 될 수 있을 것으로 기대된다.
또한, 자동으로 핵심내용을 추출하여 시사점을 도출할 수 있다면, 분석자의 개인적인 분석 역량이나 정보 이용자의 해석 능력의 차이에 관계없이 수준 높은 정보 활용이 가능할 것이며, 나아가 핵심 내용의 의미를 해석하여 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성할 수 있다면, 특히 다수의 분석 대상에 대한 산업·시장 분석을 반복적으로 수행하여 보고서를 작성하는 경우 이에 소요되는 시간과 비용을 크게 절감할 수 있을 것으로 기대된다.
이에, 본 발명의 일 실시예에서는, 분석 대상에 대한 산업·시장 분석을 수행하고, 분석 결과 중 핵심내용을 자동으로 추출한 후 그 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성하기 위한 새로운 방안을 제안하고자 하며, 이하에서는 이를 실현하기 위한 자동보고서생성장치(100)의 구성에 대해 보다 구체적으로 설명하기로 한다.
도 2에는 본 발명의 일 실시예에 따른 자동보고서생성장치(100)의 구성을 보여주고 있다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 자동보고서생성장치(100)는 분석 데이터에 대한 데이터를 수집하는 수집부(10), 수집된 데이터를 분류하는 분류부(20), 및 분류된 데이터를 분석하는 분석부(30)를 포함하는 구성을 가질 수 있다.
또한, 본 발명의 일 실시예에 따른 자동보고서생성장치(100)는 전술한 구성 이외에 핵심 내용을 추출하는 추출부(40), 및 보고서를 생성하는 생성부(50)의 구성을 더 포함할 수 있다.
이상의 수집부(10), 분류부(20), 분석부(30), 추출부(40), 및 생성부(50)를 포함하는 자동보고서생성장치(100)의 전체 구성 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.
여기서, 소프트웨어 모듈이란, 예컨대, 자동보고서생성장치(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 자동보고서생성장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.
한편, 본 발명의 일 실시예에 따른 자동보고서생성장치(100)는 전술한 구성 이외에, 유무선 통신망을 통해서 원격의 장치와의 실질적인 통신 기능을 담당하는 RF 모듈인 통신부(60)의 구성을 더 포함할 수 있다.
여기서, 통신부(60)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.
이상 본 발명의 일 실시예에 따른 자동보고서생성장치(100)는 분석 대상에 대한 산업·시장 분석을 수행하고, 분석 결과 중 핵심내용을 자동으로 추출한 후 그 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성할 수 있는데, 이하에서는 이를 실현하기 위한 자동보고서생성장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.
수집부(10)는 분석 데이터에 대한 데이터를 수집하는 기능을 수행한다.
보다 구체적으로, 수집부(10)는 분석 대상에 대한 보고서 생성을 위해 분석 대상과 관련된 데이터(이하, 원본 데이터)를 수집하게 된다.
이때, 분석 대상은, 산업 혹은 품목에 대한 정보로서 보고서 포맷(구성)에 관한 정보와 함께 사용자로부터 입력될 수 있으며, 여기서의 보고서 포맷은, 사용자 지정에 따라 2 이상의 분석 카테고리를 포함하도록 지정될 수 있다.
이에, 수집부(10)는 분석 대상이 입력되는 경우, 보고서의 포맷으로 지정되는 분석 카테고리 별로 각 카테고리 특성과 매칭되도록 지정된 데이터 저장소의 리스트를 확인하며, 분석 대상으로 입력된 명칭을 리스트 상 데이터 저장소 각각에서의 통용 명칭(예: 분류코드)으로 변경 또는 확장하는 방식을 통해서 원본 데이터를 수집할 수 있다.
즉, 수집부(10)는 분석 대상에 대한 원본 데이터 수집 시, 보고서의 포맷으로 지정된 각 분석 카테고리와 매칭되는 지정된 데이터 저장소로부터 원본 데이터를 수집함으로써, 분석 카테고리에 적합한 원본 데이터 이외의 부가적인 데이터 수집을 제한함으로써, 원본 데이터 수집 및 분석에 소요되는 시간을 최소화할 수 있는 것이다.
예를 들어, 분석 대상으로 '승강기'가 입력되며, 보고서의 포맷으로서, 제1장 정의 및 개요, 제2장 환경분석, 제3장 시장구조분석, 제4장 경쟁현황분석, 제5장 시장규모 추정 및 전망, 제6장 재무구조분석, 제7장 시사점지표분석의 순서로 분석 카테고리가 지정될 수 있다.
이 경우, 제1장 정의 및 개요에 해당하는 분석 카테고리에는, 한국과학기술정보연구원 KMAPS, 통계청 및 뉴스기사의 데이터 저장소가 매칭될 수 있으며, 제2장 환경분석에 해당하는 분석 카테고리에는, 한국과학기술정보연구원 KMAPS, 뉴스기사, 인터넷 백과사전, 정부부처 및 공공기관의 데이터 저장소가 매칭될 수 있다.
또한, 제3장 시장구조분석에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS, 한국은행의 데이터 저장소가 매칭될 수 있고, 제4장 경쟁현황분석에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS, 금융감독원, 및 민간 신용평가사의 데이터 저장소가 매칭될 수 있다.
나아가, 제5장 시장규모 추정 및 전망에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS, 통계청, 관세청, 및 미국을 포함한 해외 국가 통계청의 데이터 저장소가 매칭 가능하며, 제6장 재무구조분석에 해당하는 분류 카테고리에는 민간 신용평가사, 그리고 제7장 시사점지표분석에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS의 데이터 저장소가 매칭될 수 있다.
한편, 분석 대상으로 '승강기'가 입력된 경우, 분류 대상에 해당되는 분류코드로서, 한국표준산업분류 C29162 (승강기 제조업), MTI분류 745100 (엘리베이터), 745200 (에스컬레이터), 한국재화 및 서비스분류 54691 (리프트, 엘리베이터 설치공사서비스), 87158 (엘리베이터 및 에스컬레이터 유지관리 및 수리 서비스), 북미표준산업분류 333921 (Elevator and Moving Stairway Manufacturing) 등이 선택될 수 있다.
이를 토대로, 한국과학기술정보연구원의 산업·시장분석시스템인 KMAPS(KISTI Market Analysis and Prediction System) 웹페이지로부터 한국표준산업분류 '승강기 제조업'에 대해 사전에 분류되어 정리된 시장규모 데이터, 기업별 매출액 데이터, 산업간 거래 데이터 등의 정형 데이터를 선택하여 다운로드할 수 있으며, 통계청의 웹페이지로부터는 동 산업에 대한 정의, 구체적인 범위, 주요 생산품 등 산업 설명문 비정형데이터를 웹크롤링하고, 동 산업 및 이에 속하는 하위 수준 품목들에 대해 사전에 분류된 출하액, 기업체수, 종사자수 등에 대한 정형데이터를 선택하여 다운로드할 수 있다.
또한, 한국은행의 웹페이지로부터는 동 산업에 대해 사전에 분류된 주요 재무 항목 및 산업연관분석에 관한 정형데이터를 선택하여 다운로드할 수 있으며, 금융감독원의 웹페이지로부터는 동 산업에 대해 사전에 분류된 종사 기업의 개요 및 재무에 관한 정형데이터 및 비정형데이터를 선택하여 다운로드할 수 있다.
또한, 민간 신용평가사의 웹페이지로부터 동 산업에 대해 사전에 분류된 종사 기업의 개요 및 재무에 관한 정형데이터를 선택하여 다운로드할 수 있으며, 미국 통계청의 웹페이지로부터는 북미표준산업분류 333921에 대해 사전에 분류되어 정리된 출하액, 기업체수, 종사자수, 수출입 등에 대한 정형데이터를 선택하여 다운로드할 수 있고, 한국무역협회의 웹페이지로부터 MTI분류 745100 내지 745200으로 사전에 분류되어 정리된 수출입 데이터를 선택하여 다운로드할 수 있다.
나아가, 뉴스 전문 포털 및 인터넷 백과사전 웹페이지로부터 분석대상인 '승강기'와 관련된 '승강기', '엘리베이터', '에스컬레이터' 등의 검색어로 검색하여 도출된 주요 뉴스 기사와 정의 및 특징에 관한 비정형 데이터를 웹크롤링할 수 있으며, 중소벤처기업부 중소기업 기술로드맵 보고서와 같이 정부부처 및 공공기관에서 발간하는 산업·시장 분석보고서 정보원에서 상기 관련 검색어로 검색하여 도출된 비정형데이터를 다운로드하거나 웹크롤링 할 수 있다.
분류부(20)는 분석 카테고리마다의 분류 데이터를 매칭시키는 기능을 수행한다.
보다 구체적으로, 분류부(20)는 보고서의 포맷으로 지정된 분석 카테고리 별로 원본 데이터의 수집이 완료되면, 각 원본 데이터를 분류하여, 각 분석 카테고리마다의 분류 데이터로서 매칭시키게 된다.
앞선 예에서와 같이, 분석 대상으로 '승강기'가 입력되며, 보고서의 포맷으로서, 제1장 정의 및 개요, 제2장 환경분석, 제3장 시장구조분석, 제4장 경쟁현황분석, 제5장 시장규모 추정 및 전망, 제6장 재무구조분석, 제7장 시사점지표분석의 순서로 분석 카테고리가 지정된 경우, 제1장 정의 및 개요에 해당하는 분석 카테고리에는, 통계청의 산업 설명문 데이터, 뉴스기사 데이터가 매칭될 수 있으며, 제2장 환경분석에 해당하는 분석 카테고리에는, 뉴스기사 데이터, 인터넷 백과사전 데이터, 정부부처 및 공공기관에서 발간하는 산업·시장 분석보고서가 분류되어 매칭될 수 있다.
또한, 제3장 시장구조분석에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS의 산업간 거래 데이터, 한국은행의 산업연관분석 데이터가 매칭될 수 있고, 제4장 경쟁현황분석에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS의 기업별 매출액 데이터, 금융감독원의 기업 재무데이터, 민간 신용평가사의 기업 재무데이터가 매칭될 수 있다.
나아가, 제5장 시장규모 추정 및 전망에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS의 시장규모데이터, 통계청의 출하액 데이터, 관세청의 수출입 데이터, 미국 통계청의 출하액 및 수출입 데이터가 매칭 가능하며, 제6장 재무구조분석에 해당하는 분류 카테고리에는 민간 신용평가사의 기업 재무데이터, 그리고 제7장 시사점지표분석에 해당하는 분류 카테고리에는, 한국과학기술정보연구원 KMAPS의 KMAPS Index 데이터가 매칭될 수 있다.
분석부(30)는 분석 카테고리마다의 분석 데이터를 생성하는 기능을 수행한다.
보다 구체적으로, 분석부(30)는 보고서의 포맷으로 지정된 분석 카테고리마다의 분석 데이터 분류가 완료되면, 각 카테고리의 특성에 따라 분류된 분류 데이터를 분석하여, 분석 카테고리 별 분석 데이터를 생성하게 된다.
이때, 분석부(30)는 각 분석 카테고리 별 분석 데이터를 생성함에 있어서, 분석 데이터를 각 분석 카테고리마다 데이터 분석에 적합한 형태인 정제 데이터로 정제하기 위한 데이터 가공 절차를 수행할 수 있다.
예를 들어, 시장규모나 주요 재무항목에 관한 수치 데이터의 경우 억 원 등으로 단위를 통일하고, 결측치 처리와 관련하여, 연속형 데이터의 경우, 평균 대체, 회귀 대체, 최우도 대체, 다중 대체를 통해 결측값을 대체하며 범주형 데이터의 경우 최빈값 대체, 지도학습 및 준지도학습을 통해 결측값을 대체하고, 이상치 처리와 관련하여 사전에 정해진 특정 범위 밖의 값을 갖는 케이스, 혹은 전체 케이스 중 특정 비율 이내에 속한 값을 갖는 케이스, 또는 통계 분석 결과 이상치로 판별된 케이스를 탐지하여 예외 처리할 수 있다.
또한, 분석 카테고리 간에는, 제1장. 시장규모 및 전망을 위해 한국과학기술정보연구원 KMAPS의 시장규모데이터, 통계청의 출하액 데이터, 관세청의 수출입 데이터, 미국 통계청의 출하액 및 수출입 데이터 등의 이종 데이터를 사전에 정해진 규칙에 따라 매칭, 연계하고 연산할 수 있다.
이와 관련하여, [표 1]에는 통계청 웹페이지로부터 한국표준산업분류 ‘승강기 제조업’으로 분류되어 정리된 출하액 데이터를 수집한 결과를, [표 2]에는 한국무역협회의 웹페이지로부터 MTI분류 745100 내지 745200으로 분류되어 정리된 수출입 데이터를 수집한 결과를 나타내고 있다.
한국표준산업분류 ‘승강기 제조업’ 출하액 규모(단위: 백만 원)
연도 2007 2008 2009 2010 2011 2012 2013
출하액 2,795,480 2,790,190 2,682,510 2,889,870 3,214,950 3,334,220 2,722,460
연도 2014 2015 2016 2017
출하액 3,300,340 3,789,260 4,238,910 4,828,500
MTI분류 745100 내지 745200의 수출입액 규모(단위: 천 달러)
연도 2007 2008 2009 2010 2011 2012 2013
수출액 745100 191,111 235,005 239,516 70,669 74,944 69,323 72,115
수출액 745200 5,382 6,915 824 2,842 284 2,857 699
수입액 745100 32,349 11,669 13,553 14,241 12,548 5,045 10,615
수입액 745200 39,249 51,386 42,427 46,432 54,989 38,750 41,861
연도 2014 2015 2016 2017 2018
수출액 745100 54,290 86,514 56,408 47,819 52,824
수출액 745200 0 0 36 90 0
수입액 745100 12,521 6,003 6,753 1,656 1,224
수입액 745200 49,692 75,753 61,350 53,667 51,617
한국표준산업분류 ‘승강기 제조업’과 관련된 세부품목별 출하액 규모(단위: 백만 원)
연도 2007 2008 2009 2010 2011 2012 2013
엘리베이터 12,624 14,089 12,129 12,277 13,208 8,791 11,525
에스컬레이터 1,117 236 2,055 1,651 1,818 1,951 1,224
리프트기기 1,346 1,525 1,227 703 1,045 659 510
주차기 873 686 1,205 1,946 1,245 7,096 1,401
승강기류 부품 3,382 3,766 3,464 4,276 4,220 5,279 3,969
연도 2014 2015 2016 2017
엘리베이터 14,660 20,818 21,363 24,333
에스컬레이터 902 - 822 -
리프트기기 425 969 1,211 1,488
주차기 1,150 1,771 2,307 2,522
승강기류 부품 4,975 5,272 6,073 7,658
[표 1]에 나타낸 바와 같이 통계청으로부터 한국표준산업분류 '승강기 제조업'에 대한 백만 원 단위로 정리된 출하액 데이터를 선택하여 수집하고, 아울러 [표 3]에 나타낸 바와 같이 통계청으로부터 '승강기 제조업'과 관련된 세부품목에 대한 출하액 데이터를 선택하여 수집하고, [표 2]에 나타낸 바와 같이 한국무역협회로부터 MTI분류 745100 내지 745200에 대해 천 달러 단위로 정리된 수출입액 규모를 선택하여 수집하고, [표 3]의 2015년과 2017년 에스컬레이터 품목의 출하액 결측치는 이동평균 대체를 통해 각각 900백만 원, 800백만 원으로 대체하고, 이상치 탐지 모델링을 통해 이상치가 존재하지 않음을 확인하고, 출하액과 무역액에 대한 이종간 데이터를 연계하고, 한국은행으로부터 연평균 원/달러 환율 데이터를 선택하여 수집한 후 출하액과 무역액 간의 화폐 단위를 억 원 단위로 통일한 후, 출하액에 수출액을 감산하고 수입액을 합산하는 연산 과정을 통해 가공된 데이터로서 분석대상인'승강기'의 내수시장규모를 [표 4]와 같이 새롭게 생산할 수 있다.
'승강기’ 내수시장규모(단위: 억 원)
연도 2007 2008 2009 2010 2011 2012 2013
출하액 26,794 25,930 24,472 28,750 32,064 33,022 27,002
연도 2014 2015 2016 2017
출하액 33,087 37,839 42,524 48,369
또한, 분석부(30)는 각 분석 카테고리 별 분석 데이터를 생성함에 있어서, 비정형 데이터에 대한 자연어 처리를 수행할 수 있다.
예를 들어, 경쟁현황분석을 위해 수집한 기업 데이터 중 기업의 주요제품명에 대한 비정형 데이터에 대해 형태소 분석, 용어 추출, 용어 빈도 분석, 용어-문서간 행렬 생성, 용어간 동시 출현 빈도 분석, 용어간 연관 관계 분석, 문서간 유사도 분석, 토픽 모델링 등의 자연어 처리를 할 수 있다.
또한, 분석부(30)는 각 분석 카테고리 별 분석 데이터를 생성함에 있어서, 분석 카테고리 별 특성에 따라 그 분석 결과를 표나 그림의 형태로 도식화할 수 있다.
예를 들어, 제5장. 시장규모 및 전망에 해당하는 분석 카테고리에 대해서는, 분석대상의 출하액과 수출입액을 연산하여 추정한 내수시장규모를 바탕으로 추세법, 평균법, 평활법, 누적자기회귀이동평균(ARIMA) 등의 시계열 분석기법 및 BASS, Gomperz, Logistics 등의 확산 모형을 이용하는 방법을 이용하여 미래 시장규모를 예측하고 그 중 가장 적합도가 높은 방법인 누적자기회귀이동평균 방법으로 예측한 결과를 도 3 및 도 4에 나타낸 바와 같이, 표와 그림의 형태로 도식화할 수 있으며, 또한 출하액과 수출입액의 연산을 통해 부가적으로 산출할 수 있는 수입품 의존도, 수출 비중, 무역특화지수 등의 분석 결과를 표와 그림의 형태로 도식화할 수 있다.
또한, 제3장. 시장구조분석에 해당하는 분석 카테고리에 대해서는, 한국표준산업분류 ‘승강기 제조업’에 대해 정제한 데이터를 바탕으로 동 산업에 부품을 공급하는 후방산업과 동 산업에서 생산한 승강기를 소비하는 전방산업을 분석하는 전후방 산업구조 분석을 수행하여 도 5에 나타낸 바와 같이 그림의 형태로 도식화할 수 있다.
또한, 제4장. 경쟁현황분석에 해당하는 분석 카테고리에 대해서는, 정제 및 가공한 데이터를 바탕으로 한국표준산업분류 ‘승강기 제조업’에 참여하고 있는 기업들의 매출액 기준 시장점유율을 추정하여 도 6에 나타낸 바와 같이 그림으로 도식화 할 수 있으며, 기업별 시장점유율 분포 결과를 바탕으로 가공부에서 새롭게 연산하여 생성한 HHI(Hirshman-Herfindahl Index), CR(Concentration Ratio)3 등의 지표를 통해 시장집중도를 분석하여 도 7에 나타낸 바와 같이 그림으로 도식화할 수 있고, 기업 수준의 범주보다 상위 수준의 범주인 대기업, 중견기업, 중기업, 소기업으로 구분한 기업 규모별 시장점유율을 분석하여 도 8에 나타낸 바와 같이 그림으로 도식화할 수 있으며, 주요 기업들의 최근 3년 주요 재무항목을 비교 분석하여 도 9에 나타낸 바와 같이 표의 형태로 도식화할 수 있으며, 동 업종에 참여하고 있는 기업들의 주요 제품명에 대한 비정형 데이터를 자연어 처리를 통해 가공한 데이터를 워드 클라우드 분석하여 도 10에 나타낸 바와 같이 그림의 형태로 도식화할 수 있으며, 동 업종에 참여하고 있는 기업의 종업원 수와 업력의 분포를 분석하여 도 11에 나타낸 바와 같이 그림의 형태로 도식화할 수 있다.
또한, 제6장. 재무구조 분석에 해당하는 분석 카테고리에 대해서는, 정제 데이터를 바탕으로 한국표준산업분류 ‘승강기 제조업’에 참여하고 있는 전체 기업, 영업이익 상위 25% 이내 기업, 중소기업, 창업 5년 이하 기업의 평균적인 주요 재무비율을 분석하여 도 12에 나타낸 바와 같이 표의 형태로 도식화 할 수 있으며, 주요 재무비율을 시계열 분석하여 도 13에 나타낸 바와 같이 그림 형태로 도식화 할 수 있다.
나아가, 제7장. 시사점지표 분석에 해당하는 분석 카테고리에 대해서는, 제2장 내지 제6장의 분석 내용을 종합하여, 창업 3년 이내 기업의 매출비중과 기업수 비중을 고려한 신규진입현황을 분석하여 도 14에 나타낸 바와 같이 그림으로 도식화 할 수 있고, 또한 시장집중도와 시장성장율, 중소기업 참여 비중을 고려한 성장기회성을 분석하여 도 15에 나타낸 바와 같이 그림으로 도식화 할 수 있고, 5년 후 추정 시장규모와 매출액 영업이익율을 고려한 수익가능성을 분석하여 도 16에 나타낸 바와 같이 그림으로 도식화 할 수 있다.
한편, 본 발명의 일 실시예에 따라 분석 카테고리 별로 분류되는 분석 데이터의 경우, 각 카테고리 간 특성의 유사성으로 인해, 분석 카테고리 간에 서로 공유되는 분석데이터인 공유 데이터가 존재하는 것을 고려한다.
이에, 분석부(30)는 2 이상의 분석 카테고리 간에 공유되는 분류 데이터인 공유 데이터가 존재하는 경우, 공유 데이터 별로 소유권을 가지는 마스터 분석 카테고리를 지정하여 지정된 마스터 분석 카테고리에 한해서 공유 데이터를 가공한 정제 데이터를 생성할 수 있도록 한다.
즉, 본 발명의 일 실시예에서는 공유 데이터를 서로 공유하게 되는 분석 카테고리 중 하나의 분석 카테고리에 대해서만 데이터 정제를 위한 권한인 소유권을 부여함으로써, 분석 카테고리 마다 공유 데이터에 대한 데이터 정제가 이루어지는 경우보다 데이터 정제에 필요한 리소스 사용을 현격하게 감소시킬 수 있는 것이다.
이때, 공유 데이터는, 예컨대, 데이터 간의 관련도 및 데이터 크기 중 적어도 하나를 기초로 2 이상의 분석 카테고리 중 어느 하나에 대해서 데이터 가공을 위한 소유권이 할당될 수 있으며, 소유권 할당 이후에는 2 이상의 분석 카테고리 간에 지정되는 데이터 가공 시간 동안 정제 데이터로의 데이터 가공이 이루어질 수 있으며, 데이터 가공 시간이 종료되는 시점 또는 데이터 가공이 완료되는 시점에, 소유권을 가지지 않는 상대 분석 카테고리에 대해서 자동 갱신될 수 있다.
즉, 본 발명의 일 실시예에서는 공유 데이터에 대한 소유권을 가지는 각각의 분석 카테고리에서 데이터 정제가 완료되는 경우, 정제 데이터를 정제 전 공유 데이터를 함께 공유하는 타 분석 카테고리와 공유함으로써, 타 분석 카테고리에서도 정제 데이터로부터 분석 결과를 도출할 수 있도록 지원할 수 있는 것이다.
추출부(40)는 핵심 내용을 추출하는 기능을 수행한다.
보다 구체적으로, 추출부(40)는 분석 카테고리 별 분류 데이터에 대한 분석 결과인 분석 데이터의 생성이 완료되면, 각 분석 카테고리의 분석 데이터로부터 핵심 내용을 추출하게 된다.
이때, 추출부(40)는 분석 데이터로부터 동일 수준의 다수 범주를 아우르는 상위 수준 범주를 포함한 계층 구조가 확인되는 경우, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 범주 선택 가중치에 따라, 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주로부터 새롭게 도출되는 신규 상위 수준 범주에 대한 내용, 상위 수준 범주의 통계적 물리량과 설정 값 이상의 차이를 보이는 하위 수준의 범주에 대한 내용, 동일 수준의 범주 중에서 상기 분석 대상과의 관련도가 가장 높은 범주에 대한 내용, 동일 수준의 범주 중에서 가장 높거나 낮은 물리량을 갖는 범주에 대한 내용, 동일 수준의 범주 중에서 설정 순위 또는 설정 비율 이내의 물리량을 갖는 범주에 대한 내용, 및 동일 수준의 범주 중에서 물리량의 변화가 가장 큰 범주에 대한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
다시 말해, 내용적인 선택 측면에서는, 시장규모, 시장집중도, 매출액, 자산규모 등 수치로 표현되는 물리량과 그것의 변화량에 대한 내용, 물리량과 그것의 변화량을 특정 범주 간 서로 비교하는 내용, 가장 많이 등장하는 용어와 관련된 내용을 핵심 내용으로 추출할 수 있고, 시기적인 선택 측면에서는, 과거보다는 최근의 변화에 대한 내용, 미래 전망에 대한 내용, 물리량의 급격한 변화가 있던 시점에 대한 내용, 특정한 사건을 전후한 시점에 대한 내용을 핵심 내용으로 추출할 수 있으며, 범주와 수준의 선택 측면에서는, 상위 수준과 그에 속하는 하위 수준에 대한 내용을 동시에 포함하고 있는 분석 결과물에 대해서 전반적인 동향을 설명할 수 있는 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주들을 포함할 상위 수준의 범주가 사전에 정해지지 않은 경우, K-평균 군집화, 이단계 군집화, 코호넨 군집화 등의 비지도학습 모델링을 통해 새롭게 상위 수준의 범주를 구성하여 구성된 상위 수준의 범주에 해당하는 내용, 상위 수준 범주의 물리량 통계값과 통계적으로 유의미한 차이가 있는 하위 수준 범주에 대한 내용, 동일 수준 범주 중에서 분석 대상과 가장 관련성이 높은 범주에 대한 내용, 동일 수준 범주 중에서 가장 높거나 낮은 물리량을 갖거나 일정 순위나 비율 이내의 물리량을 갖는 범주에 대한 내용, 동일 수준 범주 중 가장 급격한 변화가 있는 범주에 대한 내용을 핵심내용으로 추출할 수 있다.
참고로, 추출 알고리즘의 선택 측면에서는 분산분석, 상관분석, 회귀분석, 판별분석 등의 통계적 기법을 사용하거나 지도학습, 준지도학습, 비지도학습의 기계학습 알고리즘을 적용하여 핵심내용 추출 규칙을 생성할 수 있다.
예를 들어, 본 발명의 일 실시예에서는 한국표준산업분류 ‘승강기 제조업’에 대해 최근의 내수시장규모와 성장률, 미래 전망치에 대한 수치 데이터를 핵심 내용으로 추출할 수 있으며, 동 업종과 관련된 다양한 세부품목 중 가장 많이 등장하는 용어인 ‘엘리베이터’에 대한 내용과 그것을 중심으로 동일 수준 범주인 ‘에스컬레이터’에 대한 내용과 비교하는 내용을 핵심 내용으로 추출할 수 있다.
또한 동 업종 참여 기업 중 총자산 규모가 10위 이내에 드는 기업들의 재무 정보 중 최근 3년 간의 총자산 변화에 관한 내용을 핵심 내용으로 추출할 수 있으며, 동 업종 참여기업들의 평균 총자산회전율 시계열 분석 자료 중 가장 급격한 증가를 나타낸 2014년 데이터에 대한 내용을 핵심 내용으로 선택할 수 있다.
또한 2009년 글로벌 금융위기를 전후한 시점의 동 업종 평균 매출액 증가율 변화에 대한 내용을 핵심 내용으로 추출할 수 있으며, 또한 ‘승강기 제조업’과 그 하위 관련 세부제품의 내용 중 전체적인 동향을 나타내는 ‘승강기 제조업’의 출하액 데이터를 핵심 내용으로 선택할 수 있다.
또한 제조업 전체 업종의 유동비율 시계열 데이터 패턴을 K-평균 군집화 모델링을 통해 군집화한 결과, 동 업종이 속한 C-type 패턴이 나타내는 특징을 핵심내용으로 선택할 수 있으며, 동 업종 동 규모 기업들에 비해 영업이익률이 통계적으로 유의미하게 낮은 것으로 분석된 C 기업에 대한 재무분석 내용을 핵심 내용으로 선택할 수 있다.
또한 동 산업의 수요 산업 중 가장 거래 규모가 큰 ‘아파트 건설업’과 부품 공급 산업 중 가장 거래 규모가 큰 ‘1차 금속제품 제조업’의 교섭력에 대한 분석 내용을 핵심 내용으로 선택할 수 있으며, 동 산업에 대한 여러 가지 평균 재무비율에 대한 지표 중 최근 가장 큰 변화를 보인 매출액 증가율에 대한 내용을 핵심 내용으로 선택할 수 있다.
생성부(50)는 보고서를 자동 생성하는 기능을 수행한다.
보다 구체적으로, 생성부(50)는 분석 카테고리 별 핵심 내용의 추출이 완료되면, 핵심 내용이 의미하는 시사점을 기 정의된 양식 기반의 문자 생성 규칙에 따라 텍스트 형태로 변환하여, 분석 카테고리 별 분석 데이터와 상기 텍스트 형태로 변환된 시사점을 병기한 보고서를 생성하게 된다.
예를 들어, 본 발명의 일 실시예에서는, 제5장 시장규모 및 전망에서 핵심 내용으로 추출된 향후 5년의 시장규모 및 성장률을 전망하는 부분에 대해, “[분석대상 산업명(산업코드)]의 국내 시장규모는 [분석 기준년도] [분석 기준년도의 내수시장규모] 수준이며, [향후 4년 예상 연평균성장률]의 연평균성장률로 [(선택) A범위: 크게 증가, B범위: 증가, C 범위: 다소 증가, D범위: 유지, E범위: 다소 감소, F범위: 감소, G범위: 크게 감소]하여 [기준년도로부터 4년후 연도] [4년 후 내수시장규모] 수준에 이를 것으로 전망된다”와 같이 사전에 정해진 양식 기반의 문장 생성 규칙을 이용하여 “승강기 제조업(C29162)의 국내 시장규모는 2017년 48,369억 원 수준이며, 4.2%의 연평균성장률로 증가하여 2021년 56,999억 원 수준에 이를 것으로 전망된다.”의 문장을 자동으로 생성할 수 있다.
또한 제6장. 재무구조분석에서 핵심 내용으로 추출된 평균 재무비율의 최근 변화 추세에 대한 내용으로, “[분석대상 산업명(산업코드)]에 대한 주요 재무비율의 지난 10년간 시계열 데이터를 살펴보면, 최근 들어 [(선택) A: 매출액 증가율, B: 영업이익률, C: 유동비율, D: 총자산회전율]은 [(선택) A 범위: 빠르게 증가, B 범위: 증가, C 범위: 다소 증가, D 범위: {최근 3년 평균 비율}을 유지, E범위: 다소 감소, F범위: 감소, G범위: 빠르게 감소] 하고 있다”와 같이 사전에 정해진 양식 기반의 문장 생성 규칙을 이용하여 “승강기 제조업(C29162)에 대한 주요 재무비율의 지난 10년간 시계열 데이터를 살펴보면, 최근 들어 매출액 증가율은 빠르게 감소하고 있고, 영업이익률은 빠르게 증가하고 있으며, 유동비율은 빠르게 증가하고 있고, 총자산 회전율은 다소 증가하고 있다”의 문장을 자동으로 생성할 수 있다.
또한, 산업·시장 분석 보고서 등에 담겨 있는 문장들을 자연어 처리하고 낱말 혹은 음절 단위로 딥러닝하여, 특정 낱말 혹은 음절 뒤에 출현할 가능성이 가장 높은 낱말 혹은 음절을 이어 붙여가면서 상기 양식 기반 문장 생성 규칙을 보완할 수 있다.
한편, 본 발명의 일 실시예에서는 분석된 표나 그림과 텍스트 형태의 문장을 조합하여 각각의 위치를 결정하고 보고서를 생성할 수 있는데, 각 분석 카테고리 별 분석 결과인 분석 데이터와, 각 분석 카테고리 별 핵심 내용을 텍스트로 변환한 설명 문장을 정해진 순서에 따라 나열하여 예컨대, 도 17에서와 같은 형태로 보고서를 생성할 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 자동보고서생성장치(100)의 구성에 따르면, 분석 대상에 대한 정량적 데이터를 수집·분류·정제·가공한 후 산업·시장 분석을 자동으로 수행하고 분석 결과 중 핵심내용을 자동으로 추출한 후 그 의미를 해석하여 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석보고서를 자동으로 생성함으로써, 정보를 생산하는 분석자뿐만 아니라 분석된 정보를 이용하는 수요자에게도 매우 효과적인 산업·시장 분석 지원 수단이 될 수 있다. 또한, 자동으로 핵심내용을 추출하여 시사점을 도출함으로써, 분석자의 개인적인 분석 역량이나 정보 이용자의 해석 능력의 차이에 관계없이 수준 높은 정보 활용이 가능하다. 또한 핵심 내용의 의미를 해석하여 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성함으로써, 특히 다수의 분석 대상에 대한 산업·시장 분석을 반복적으로 수행하여 보고서를 작성하는 경우 이에 소요되는 시간과 비용을 크게 절감할 수 있다.
이하, 도 18을 참조하여 본 발명의 일 실시예에 따른 자동보고서생성장치(20)의 동작 방법에 대한 설명을 이어 가기로 한다.
먼저, 수집부(10)는 분석 대상에 대한 보고서 생성을 위해 분석 대상과 관련된 원본 데이터를 수집한다(S10).
이때, 분석 대상은, 산업 혹은 품목에 대한 정보로서 보고서 포맷(구성)에 관한 정보와 함께 사용자로부터 입력될 수 있으며, 여기서의 보고서 포맷은, 사용자 지정에 따라 2 이상의 분석 카테고리를 포함하도록 지정될 수 있다.
이에, 수집부(10)는 분석 대상이 입력되는 경우, 보고서의 포맷으로 지정되는 분석 카테고리 별로 각 카테고리 특성과 매칭되도록 지정된 데이터 저장소의 리스트를 확인하며, 분석 대상으로 입력된 명칭을 리스트 상 데이터 저장소 각각에서의 통용 명칭(예: 분류코드)으로 변경 또는 확장하는 방식을 통해서 원본 데이터를 수집할 수 있다.
즉, 수집부(10)는 분석 대상에 대한 원본 데이터 수집 시, 보고서의 포맷으로 지정된 각 분석 카테고리와 매칭되는 지정된 데이터 저장소로부터 원본 데이터를 수집함으로써, 분석 카테고리에 적합한 원본 데이터 이외의 부가적인 데이터 수집을 제한함으로써, 원본 데이터 수집 및 분석에 소요되는 시간을 최소화할 수 있는 것이다.
그런 다음, 분류부(20)는 보고서의 포맷으로 지정된 분석 카테고리 별로 원본 데이터의 수집이 완료되면, 각 원본 데이터를 분류하여, 각 분석 카테고리마다의 분류 데이터로서 매칭시킨다(S20).
이어서, 분석부(30)는 보고서의 포맷으로 지정된 분석 카테고리마다의 분석 데이터 분류가 완료되면, 각 카테고리의 특성에 따라 분류된 분류 데이터를 분석하여, 분석 카테고리 별 분석 데이터를 생성한다(S30).
이때, 분석부(30)는 각 분석 카테고리 별 분석 데이터를 생성함에 있어서, 분석 데이터를 각 분석 카테고리마다 데이터 분석에 적합한 형태인 정제 데이터로 정제하기 위한 데이터 가공 절차를 수행할 수 있다.
예를 들어, 시장규모나 주요 재무항목에 관한 수치 데이터의 경우 억 원 등으로 단위를 통일하고, 결측치 처리와 관련하여, 연속형 데이터의 경우, 평균 대체, 회귀 대체, 최우도 대체, 다중 대체를 통해 결측값을 대체하며 범주형 데이터의 경우 최빈값 대체, 지도학습 및 준지도학습을 통해 결측값을 대체하고, 이상치 처리와 관련하여 사전에 정해진 특정 범위 밖의 값을 갖는 케이스, 혹은 전체 케이스 중 특정 비율 이내에 속한 값을 갖는 케이스, 또는 통계 분석 결과 이상치로 판별된 케이스를 탐지하여 예외 처리할 수 있다.
한편, 본 발명의 일 실시예에 따라 분석 카테고리 별로 분류되는 분석 데이터의 경우, 각 카테고리 간 특성의 유사성으로 인해, 분석 카테고리 간에 서로 공유되는 분석데이터인 공유 데이터가 존재하는 것을 고려한다.
이에, 분석부(30)는 2 이상의 분석 카테고리 간에 공유되는 분류 데이터인 공유 데이터가 존재하는 경우, 공유 데이터 별로 소유권을 가지는 마스터 분석 카테고리를 지정하여 지정된 마스터 분석 카테고리에 한해서 공유 데이터를 가공한 정제 데이터를 생성할 수 있도록 한다.
즉, 본 발명의 일 실시예에서는 공유 데이터를 서로 공유하게 되는 분석 카테고리 중 하나의 분석 카테고리에 대해서만 데이터 정제를 위한 권한인 소유권을 부여함으로써, 분석 카테고리 마다 공유 데이터에 대한 데이터 정제가 이루어지는 경우보다 데이터 정제에 필요한 리소스 사용을 현격하게 감소시킬 수 있는 것이다.
이때, 공유 데이터는, 예컨대, 데이터 간의 관련도 및 데이터 크기 중 적어도 하나를 기초로 2 이상의 분석 카테고리 중 어느 하나에 대해서 데이터 가공을 위한 소유권이 할당될 수 있으며, 소유권 할당 이후에는 2 이상의 분석 카테고리 간에 지정되는 데이터 가공 시간 동안 정제 데이터로의 데이터 가공이 이루어질 수 있으며, 데이터 가공 시간이 종료되는 시점 또는 데이터 가공이 완료되는 시점에, 소유권을 가지지 않는 상대 분석 카테고리에 대해서 자동 갱신될 수 있다.
즉, 본 발명의 일 실시예에서는 공유 데이터에 대한 소유권을 가지는 각각의 분석 카테고리에서 데이터 정제가 완료되는 경우, 정제 데이터를 정제 전 공유 데이터를 함께 공유하는 타 분석 카테고리와 공유함으로써, 타 분석 카테고리에서도 정제 데이터로부터 분석 결과를 도출할 수 있도록 지원할 수 있는 것이다.
또한, 분석부(30)는 각 분석 카테고리 별 분석 데이터를 생성함에 있어서, 비정형 데이터에 대한 자연어 처리를 수행할 수 있다.
예를 들어, 경쟁현황분석을 위해 수집한 기업 데이터 중 기업의 주요제품명에 대한 비정형 데이터에 대해 형태소 분석, 용어 추출, 용어 빈도 분석, 용어-문서간 행렬 생성, 용어간 동시 출현 빈도 분석, 용어간 연관 관계 분석, 문서간 유사도 분석, 토픽 모델링 등의 자연어 처리를 할 수 있다.
또한, 분석부(30)는 각 분석 카테고리 별 분석 데이터를 생성함에 있어서, 분석 카테고리 별 특성에 따라 그 분석 결과를 표나 그림의 형태로 도식화할 수 있다.
나아가, 추출부(40)는 분석 카테고리 별 분류 데이터에 대한 분석 결과인 분석 데이터의 생성이 완료되면, 각 분석 카테고리의 분석 데이터로부터 핵심 내용을 추출한다(S40).
이때, 추출부(40)는 분석 데이터로부터 동일 수준의 다수 범주를 아우르는 상위 수준 범주를 포함한 계층 구조가 확인되는 경우, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 범주 선택 가중치에 따라, 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주로부터 새롭게 도출되는 신규 상위 수준 범주에 대한 내용, 상위 수준 범주의 통계적 물리량과 설정 값 이상의 차이를 보이는 하위 수준의 범주에 대한 내용, 동일 수준의 범주 중에서 상기 분석 대상과의 관련도가 가장 높은 범주에 대한 내용, 동일 수준의 범주 중에서 가장 높거나 낮은 물리량을 갖는 범주에 대한 내용, 동일 수준의 범주 중에서 설정 순위 또는 설정 비율 이내의 물리량을 갖는 범주에 대한 내용, 및 동일 수준의 범주 중에서 물리량의 변화가 가장 큰 범주에 대한 내용 중 적어도 하나를 핵심 내용으로 추출할 수 있다.
다시 말해, 내용적인 선택 측면에서는, 시장규모, 시장집중도, 매출액, 자산규모 등 수치로 표현되는 물리량과 그것의 변화량에 대한 내용, 물리량과 그것의 변화량을 특정 범주 간 서로 비교하는 내용, 가장 많이 등장하는 용어와 관련된 내용을 핵심 내용으로 추출할 수 있고, 시기적인 선택 측면에서는, 과거보다는 최근의 변화에 대한 내용, 미래 전망에 대한 내용, 물리량의 급격한 변화가 있던 시점에 대한 내용, 특정한 사건을 전후한 시점에 대한 내용을 핵심 내용으로 추출할 수 있으며, 범주와 수준의 선택 측면에서는, 상위 수준과 그에 속하는 하위 수준에 대한 내용을 동시에 포함하고 있는 분석 결과물에 대해서 전반적인 동향을 설명할 수 있는 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주들을 포함할 상위 수준의 범주가 사전에 정해지지 않은 경우, K-평균 군집화, 이단계 군집화, 코호넨 군집화 등의 비지도학습 모델링을 통해 새롭게 상위 수준의 범주를 구성하여 구성된 상위 수준의 범주에 해당하는 내용, 상위 수준 범주의 물리량 통계값과 통계적으로 유의미한 차이가 있는 하위 수준 범주에 대한 내용, 동일 수준 범주 중에서 분석 대상과 가장 관련성이 높은 범주에 대한 내용, 동일 수준 범주 중에서 가장 높거나 낮은 물리량을 갖거나 일정 순위나 비율 이내의 물리량을 갖는 범주에 대한 내용, 동일 수준 범주 중 가장 급격한 변화가 있는 범주에 대한 내용을 핵심내용으로 추출할 수 있다.
참고로, 추출 알고리즘의 선택 측면에서는 분산분석, 상관분석, 회귀분석, 판별분석 등의 통계적 기법을 사용하거나 지도학습, 준지도학습, 비지도학습의 기계학습 알고리즘을 적용하여 핵심내용 추출 규칙을 생성할 수 있다.
이후, 생성부(50)는 분석 카테고리 별 핵심 내용의 추출이 완료되면, 핵심 내용이 의미하는 시사점을 기 정의된 양식 기반의 문자 생성 규칙에 따라 텍스트 형태로 변환하여, 분석 카테고리 별 분석 데이터와 상기 텍스트 형태로 변환된 시사점을 병기한 보고서를 생성한다(S50-S60).
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 자동보고서생성장치(100)의 동작 방법에 따르면, 분석 대상에 대한 정량적 데이터를 수집·분류·정제·가공한 후 산업·시장 분석을 자동으로 수행하고 분석 결과 중 핵심내용을 자동으로 추출한 후 그 의미를 해석하여 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석보고서를 자동으로 생성함으로써, 정보를 생산하는 분석자뿐만 아니라 분석된 정보를 이용하는 수요자에게도 매우 효과적인 산업·시장 분석 지원 수단이 될 수 있다. 또한, 자동으로 핵심내용을 추출하여 시사점을 도출함으로써, 분석자의 개인적인 분석 역량이나 정보 이용자의 해석 능력의 차이에 관계없이 수준 높은 정보 활용이 가능하다. 또한 핵심 내용의 의미를 해석하여 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성함으로써, 특히 다수의 분석 대상에 대한 산업·시장 분석을 반복적으로 수행하여 보고서를 작성하는 경우 이에 소요되는 시간과 비용을 크게 절감할 수 있다.
한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.
본 발명에 따른 자동보고서생성장치 및 그 동작 방법에 따르면, 분석 대상에 대한 산업·시장 분석을 수행하고, 분석 결과 중 핵심내용을 자동으로 추출한 후 그 시사점을 텍스트 형태의 문장으로 작성한 산업·시장 분석 보고서를 자동으로 생성할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.
100: 자동보고서생성장치
10: 수집부 20: 분류부
30: 분석부 40: 추출부
50: 생성부

Claims (18)

  1. 분석 대상에 대한 보고서 생성을 위해 분석 대상과 관련된 원본 데이터를 수집하는 수집부;
    상기 보고서의 포맷으로 지정되는 분석 카테고리 별로 상기 원본 데이터를 분류하여, 각 분석 카테고리마다의 분류 데이터로서 매칭시키는 분류부; 및
    상기 분석 카테고리 별로 기 정의된 카테고리 특성에 따라 상기 분류 데이터를 분석하여, 상기 분석 카테고리마다의 분석 데이터를 생성하는 분석부를 포함하며,
    상기 분석부는,
    2 이상의 분석 카테고리 간에 공유되는 분류 데이터인 공유 데이터가 존재하는 경우, 상기 공유 데이터 별로 소유권을 가지는 마스터 분석 카테고리를 지정하여 상기 마스터 분석 카테고리에 한해서 상기 공유 데이터를 가공한 정제 데이터를 생성할 수 있도록 하며,
    상기 공유 데이터는,
    데이터 간의 관련도 및 데이터 크기 중 적어도 하나를 기초로 상기 2 이상의 분석 카테고리 중 어느 하나에 대해서 데이터 가공을 위한 소유권이 할당되고, 상기 2 이상의 분석 카테고리 간에 지정되는 데이터 가공 시간 동안 정제 데이터로의 데이터 가공이 이루어지며,
    상기 정제 데이터는,
    상기 데이터 가공 시간이 종료되는 시점 또는 데이터 가공이 완료되는 시점에, 소유권을 가지지 않는 분석 카테고리와 공유되며,
    상기 분석부는,
    분석 대상에 대한 정의 및 개요, 환경분석, 시장구조분석, 경쟁현황분석, 시장규모 추정 및 전망, 재무구조분석, 및 시사점지표 분석 중 적어도 하나를 포함하는 분석 카테고리와 관련하여, 각 분석 카테고리마다 분류 데이터를 데이터 분석에 적합한 형태인 정제 데이터로 정제하기 위한 데이터 가공 절차, 이종 데이터를 사전에 정해진 규칙에 따라 매칭, 연계하고 연산하는 절차, 비정형 데이터에 대한 자연어 처리 절차, 및 분석 결과를 표나 그림의 형태로 도식화하는 절차 중 적어도 하나를 수행하며,
    상기 시장구조분석 카테고리에서는, 분석 대상의 산업 시장에 관한 후방산업과 전방산업을 분석하는 전후방 산업구조의 분석을 수행하며,
    상기 경쟁현황분석 카테고리에서는, 분석 대상의 산업 시장에 관한 기업별 시장점유율, 기업 규모별 시장점유율, 시장집중도, 주요재무항목 비교, 제품명에 대한 워드 클라우드 분석, 및 기업의 종업원수와 업력의 분포 분석 중 적어도 하나를 수행하며,
    상기 시장규모 추정 및 전망 카테고리에서는, 분석 대상의 산업 시장에 관해 추정되는 시장규모를 바탕으로 추세법, 평균법, 평활법, 누적자기회귀이동평균, 및 확산모형 중 적어도 하나를 이용한 미래 시장규모의 예측을 수행하며,
    상기 재무구조분석 카테고리에서는, 분석 대상의 산업 시장에 참여하고 있는 전체 기업, 영업이익이 임계치 이상인 기업, 중소기업, 및 창업 기업 중 적어도 하나에 대한 평균적인 주요 재무비율의 분석을 수행하며,
    상기 시사점지표 분석 카테고리에서는, 분석 대상의 산업 시장에서 창업기업의 매출비중과 기업수 비중을 고려한 신규진입현황분석, 시장집중도, 시장성장률, 중소기업 참여비중을 고려한 성장기회성분석, 및 미래 시장규모와 매출액 영업이익율을 고려한 수익가능성분석 중 적어도 하나를 수행하는 것을 특징으로 하는 자동보고서생성장치.
  2. 제 1 항에 있어서,
    상기 자동보고서생성장치는,
    상기 분석 카테고리 별 분석 데이터로부터 핵심 내용을 추출하는 추출부; 및
    상기 핵심 내용이 의미하는 시사점을 기 정의된 양식 기반의 문자 생성 규칙에 따라 텍스트 형태로 변환하여, 상기 분석 카테고리 별 분석 데이터와 상기 텍스트 형태로 변환된 시사점을 병기한 보고서를 생성하는 생성부를 더 포함하는 것을 특징으로 하는 자동보고서생성장치.
  3. 제 1 항에 있어서,
    상기 수집부는,
    상기 분석 카테고리 별 상기 카테고리 특성과 매칭되도록 지정된 데이터 저장소의 리스트를 기초로, 상기 분석 대상으로 입력된 명칭을 상기 리스트 상 데이터 저장소 각각에서의 통용 명칭으로 변경 또는 확장하여 상기 원본 데이터를 수집하는 것을 특징으로 하는 자동보고서생성장치.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제 2 항에 있어서,
    상기 추출부는,
    상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 내용 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 수치적 물리량의 변화에 대한 내용, 범주 간에 상기 수치적 물리량이 비교되는 내용, 및 노출 빈도가 가장 높은 특정 용어에 관한 내용 중 적어도 하나를 핵심 내용으로 추출하는 것을 특징으로 하는 자동보고서생성장치.
  8. 제 2 항에 있어서,
    상기 추출부는,
    상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 시기 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 과거보다는 최근의 변화 내용, 미래 전망에 대한 내용, 및 특정한 사건을 전후한 시점에 관한 내용 중 적어도 하나를 핵심 내용으로 추출하는 것을 특징으로 하는 자동보고서생성장치.
  9. 제 2 항에 있어서,
    상기 추출부는,
    상기 분석 데이터로부터 동일 수준의 다수 범주를 아우르는 상위 수준 범주를 포함한 계층 구조가 확인되는 경우, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 범주 선택 가중치에 따라, 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주로부터 새롭게 도출되는 신규 상위 수준 범주에 대한 내용, 상위 수준 범주의 통계적 물리량과 설정 값 이상의 차이를 보이는 하위 수준의 범주에 대한 내용, 동일 수준의 범주 중에서 상기 분석 대상과의 관련도가 가장 높은 범주에 대한 내용, 동일 수준의 범주 중에서 가장 높거나 낮은 물리량을 갖는 범주에 대한 내용, 동일 수준의 범주 중에서 설정 순위 또는 설정 비율 이내의 물리량을 갖는 범주에 대한 내용, 및 동일 수준의 범주 중에서 물리량의 변화가 가장 큰 범주에 대한 내용 중 적어도 하나를 핵심 내용으로 추출하는 것을 특징으로 하는 자동보고서생성장치.
  10. 자동보고서생성장치의 동작 방법에 있어서,
    분석 대상에 대한 보고서 생성을 위해 분석 대상과 관련된 원본 데이터를 수집하는 수집단계;
    상기 보고서의 포맷으로 지정되는 분석 카테고리 별로 상기 원본 데이터를 분류하여, 각 분석 카테고리마다의 분류 데이터로서 매칭시키는 분류단계; 및
    상기 분석 카테고리 별로 기 정의된 카테고리 특성에 따라 상기 분류 데이터를 분석하여, 상기 분석 카테고리마다의 분석 데이터를 생성하는 분석단계를 포함하며,
    상기 분석단계는,
    2 이상의 분석 카테고리 간에 공유되는 분류 데이터인 공유 데이터가 존재하는 경우, 상기 공유 데이터 별로 소유권을 가지는 마스터 분석 카테고리를 지정하여 상기 마스터 분석 카테고리에 한해서 상기 공유 데이터를 가공한 정제 데이터를 생성할 수 있도록 하며,
    상기 공유 데이터는,
    데이터 간의 관련도 및 데이터 크기 중 적어도 하나를 기초로 상기 2 이상의 분석 카테고리 중 어느 하나에 대해서 데이터 가공을 위한 소유권이 할당되고, 상기 2 이상의 분석 카테고리 간에 지정되는 데이터 가공 시간 동안 정제 데이터로의 데이터 가공이 이루어지며,
    상기 정제 데이터는,
    상기 데이터 가공 시간이 종료되는 시점 또는 데이터 가공이 완료되는 시점에, 소유권을 가지지 않는 분석 카테고리와 공유되며,
    상기 분석단계는,
    분석 대상에 대한 정의 및 개요, 환경분석, 시장구조분석, 경쟁현황분석, 시장규모 추정 및 전망, 재무구조분석, 및 시사점지표 분석 중 적어도 하나를 포함하는 분석 카테고리와 관련하여, 각 분석 카테고리마다 분류 데이터를 데이터 분석에 적합한 형태인 정제 데이터로 정제하기 위한 데이터 가공 절차, 이종 데이터를 사전에 정해진 규칙에 따라 매칭, 연계하고 연산하는 절차, 비정형 데이터에 대한 자연어 처리 절차, 및 분석 결과를 표나 그림의 형태로 도식화하는 절차 중 적어도 하나를 수행하며,
    상기 시장구조분석 카테고리에서는, 분석 대상의 산업 시장에 관한 후방산업과 전방산업을 분석하는 전후방 산업구조의 분석을 수행하며,
    상기 경쟁현황분석 카테고리에서는, 분석 대상의 산업 시장에 관한 기업별 시장점유율, 기업 규모별 시장점유율, 시장집중도, 주요재무항목 비교, 제품명에 대한 워드 클라우드 분석, 및 기업의 종업원수와 업력의 분포 분석 중 적어도 하나를 수행하며,
    상기 시장규모 추정 및 전망 카테고리에서는, 분석 대상의 산업 시장에 관해 추정되는 시장규모를 바탕으로 추세법, 평균법, 평활법, 누적자기회귀이동평균, 및 확산모형 중 적어도 하나를 이용한 미래 시장규모의 예측을 수행하며,
    상기 재무구조분석 카테고리에서는, 분석 대상의 산업 시장에 참여하고 있는 전체 기업, 영업이익이 임계치 이상인 기업, 중소기업, 및 창업 기업 중 적어도 하나에 대한 평균적인 주요 재무비율의 분석을 수행하며,
    상기 시사점지표 분석 카테고리에서는, 분석 대상의 산업 시장에서 창업기업의 매출비중과 기업수 비중을 고려한 신규진입현황분석, 시장집중도, 시장성장률, 중소기업 참여비중을 고려한 성장기회성분석, 및 미래 시장규모와 매출액 영업이익율을 고려한 수익가능성분석 중 적어도 하나를 수행하는 것을 특징으로 하는 자동보고서생성장치의 동작 방법.
  11. 제 10 항에 있어서,
    상기 방법은,
    상기 분석 카테고리 별 분석 데이터로부터 핵심 내용을 추출하는 추출단계; 및
    상기 핵심 내용이 의미하는 시사점을 기 정의된 양식 기반의 문자 생성 규칙에 따라 텍스트 형태로 변환하여, 상기 분석 카테고리 별 분석 데이터와 상기 텍스트 형태로 변환된 시사점을 병기한 보고서를 생성하는 생성단계를 더 포함하는 것을 특징으로 하는 자동보고서생성장치의 동작 방법.
  12. 제 10 항에 있어서,
    상기 수집단계는,
    상기 분석 카테고리 별 상기 카테고리 특성과 매칭되도록 지정된 데이터 저장소의 리스트를 기초로, 상기 분석 대상으로 입력된 명칭을 상기 리스트 상 데이터 저장소 각각에서의 통용 명칭으로 변경 또는 확장하여 상기 원본 데이터를 수집하는 것을 특징으로 하는 자동보고서생성장치의 동작 방법.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 제 11 항에 있어서,
    상기 추출단계는,
    상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 내용 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 수치적 물리량의 변화에 대한 내용, 범주 간에 상기 수치적 물리량이 비교되는 내용, 및 노출 빈도가 가장 높은 특정 용어에 관한 내용 중 적어도 하나를 핵심 내용으로 추출하는 것을 특징으로 하는 자동보고서생성장치의 동작 방법.
  17. 제 11 항에 있어서,
    상기 추출단계는,
    상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 시기 선택 가중치에 따라, 상기 분석 데이터로부터 확인되는 과거보다는 최근의 변화 내용, 미래 전망에 대한 내용, 및 특정한 사건을 전후한 시점에 관한 내용 중 적어도 하나를 핵심 내용으로 추출하는 것을 특징으로 하는 자동보고서생성장치의 동작 방법.
  18. 제 11 항에 있어서,
    상기 추출단계는,
    상기 분석 데이터로부터 동일 수준의 다수 범주를 아우르는 상위 수준 범주를 포함한 계층 구조가 확인되는 경우, 상기 분석 카테고리 별 핵심 내용 추출규칙에 따른 범주 선택 가중치에 따라, 상위 수준에 대한 분석 내용, 동일 수준의 다수 범주로부터 새롭게 도출되는 신규 상위 수준 범주에 대한 내용, 상위 수준 범주의 통계적 물리량과 설정 값 이상의 차이를 보이는 하위 수준의 범주에 대한 내용, 동일 수준의 범주 중에서 상기 분석 대상과의 관련도가 가장 높은 범주에 대한 내용, 동일 수준의 범주 중에서 가장 높거나 낮은 물리량을 갖는 범주에 대한 내용, 동일 수준의 범주 중에서 설정 순위 또는 설정 비율 이내의 물리량을 갖는 범주에 대한 내용, 및 동일 수준의 범주 중에서 물리량의 변화가 가장 큰 범주에 대한 내용 중 적어도 하나를 핵심 내용으로 추출하는 것을 특징으로 하는 자동보고서생성장치의 동작 방법.
KR1020190114855A 2019-09-18 2019-09-18 자동보고서생성장치 및 그 동작 방법 KR102294555B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190114855A KR102294555B1 (ko) 2019-09-18 2019-09-18 자동보고서생성장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190114855A KR102294555B1 (ko) 2019-09-18 2019-09-18 자동보고서생성장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20210033294A KR20210033294A (ko) 2021-03-26
KR102294555B1 true KR102294555B1 (ko) 2021-08-27

Family

ID=75259374

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190114855A KR102294555B1 (ko) 2019-09-18 2019-09-18 자동보고서생성장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102294555B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230132206A (ko) 2022-03-08 2023-09-15 주식회사 에이치아이컨설팅 배출가스 관련부품 현황 보고서 생성 시스템 및 그 구동방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102470506B1 (ko) * 2021-11-25 2022-11-28 신용보증기금 Ai 기반의 기업 분석시스템
WO2024085718A1 (ko) * 2022-10-20 2024-04-25 주식회사 아이팩토리 문장 템플릿을 이용하여 텍스트를 자동으로 생성하는 기능을 갖는 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
KR102571350B1 (ko) * 2023-03-24 2023-08-29 (주)유알피 딥러닝 모델 기반 태깅 기술을 활용한 맞춤형 분석보고서 제공방법 및 그 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162393A (ja) * 2016-03-11 2017-09-14 横河電機株式会社 報告書作成システム、報告書作成装置、報告書作成サーバ、報告書作成方法、プログラム、および記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101443028B1 (ko) * 2012-06-28 2014-09-19 한국원자력연구원 기술동향 분석 보고서 생성 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162393A (ja) * 2016-03-11 2017-09-14 横河電機株式会社 報告書作成システム、報告書作成装置、報告書作成サーバ、報告書作成方法、プログラム、および記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230132206A (ko) 2022-03-08 2023-09-15 주식회사 에이치아이컨설팅 배출가스 관련부품 현황 보고서 생성 시스템 및 그 구동방법

Also Published As

Publication number Publication date
KR20210033294A (ko) 2021-03-26

Similar Documents

Publication Publication Date Title
KR102294555B1 (ko) 자동보고서생성장치 및 그 동작 방법
US20170235820A1 (en) System and engine for seeded clustering of news events
Bauer et al. Quantitive evaluation of Web site content and structure
Chang et al. An anticipation model of potential customers’ purchasing behavior based on clustering analysis and association rules analysis
Chen et al. A topic-based sentiment analysis model to predict stock market price movement using Weibo mood
Li et al. RETRACTED ARTICLE: Data mining optimization model for financial management information system based on improved genetic algorithm
Song et al. Forecasting economic indicators using a consumer sentiment index: Survey‐based versus text‐based data
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
Maquee et al. Clustering and association rules in analyzing the efficiency of maintenance system of an urban bus network
Weinzierl et al. Predictive business process monitoring with context information from documents
Zeng [Retracted] Credit Risk Evaluation in Enterprise Financial Management by Using Convolutional Neural Network under the Construction of Smart City
CN111930944B (zh) 文件标签分类方法及装置
CN118014652A (zh) 一种基于人工智能和大数据分析技术的广告创意设计方法及其系统
Zhang et al. Supply chain risk management of badminton supplies company using decision tree model assisted by fuzzy comprehensive evaluation
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
Trivedi et al. Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models
Zhang et al. Solving data-driven newsvendor problem with textual reviews through deep learning
Li et al. Automatic classification algorithm for multisearch data association rules in wireless networks
Cheng et al. Double-weight LDA extracting keywords for financial fraud detection system
US20170076219A1 (en) Prediction of future prominence attributes in data set
KR20220111406A (ko) 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘
Zaini et al. Classifying firms’ performance using data mining approaches
Park et al. Topic Modeling Analysis Comparison for Research Topic in Korean Society of Industrial and Systems Engineering: Concentrated on Research Papers from 1978~ 1999
Wang et al. Preprocessing and feature extraction methods for microfinance overdue data
Weinzierl et al. Predictive Business Process Monitoringwith Context Information from Documents.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant