KR20190114166A - 오토인코더를 이용한 산업분류 시스템 및 방법 - Google Patents

오토인코더를 이용한 산업분류 시스템 및 방법 Download PDF

Info

Publication number
KR20190114166A
KR20190114166A KR1020180036433A KR20180036433A KR20190114166A KR 20190114166 A KR20190114166 A KR 20190114166A KR 1020180036433 A KR1020180036433 A KR 1020180036433A KR 20180036433 A KR20180036433 A KR 20180036433A KR 20190114166 A KR20190114166 A KR 20190114166A
Authority
KR
South Korea
Prior art keywords
information
keyword
company
auto
encoder
Prior art date
Application number
KR1020180036433A
Other languages
English (en)
Other versions
KR102041242B1 (ko
Inventor
남건우
배경훈
강형구
윤준태
Original Assignee
(주)다음소프트
주식회사 한다파트너스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)다음소프트, 주식회사 한다파트너스 filed Critical (주)다음소프트
Priority to KR1020180036433A priority Critical patent/KR102041242B1/ko
Publication of KR20190114166A publication Critical patent/KR20190114166A/ko
Application granted granted Critical
Publication of KR102041242B1 publication Critical patent/KR102041242B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 기술적 사상에 의한 일 양태에 따른 오토인코더를 이용한 산업분류 시스템은 복수 기업의 기업정보를 수집하는 수집부, 복수의 키워드를 포함하는 키워드사전이 저장되어 있는 저장부, 각각의 상기 기업정보와 상기 키워드사전을 비교하여, 각각의 상기 기업정보에 대한 상기 키워드의 유무를 나타내는 유무데이터 또는 상기 키워드의 빈도수를 나타내는 빈도데이터를 산출하는 키워드산출부, 오토인코더를 통해 상기 유무데이터 또는 상기 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링하는 오토인코더부, 복수의 상기 키워드벡터 간 유사성을 판단하여 유사한 상기 키워드벡터끼리 묶어 복수의 군집을 구성하는 군집부, 및 상기 군집에 대한 산업분류명을 레이블링하는 레이블링부를 포함하는 것을 특징으로 하며, 기업의 산업분류와 실제 영위하는 산업을 매칭시키고 새로운 산업을 산업분류에 반영할 수 있는 오토인코더를 이용한 산업분류 시스템 및 방법을 제공한다.

Description

오토인코더를 이용한 산업분류 시스템 및 방법{Industrial classifying system and method using autoencoder}
본 발명은 오토인코더를 이용한 산업분류 시스템 및 방법에 관한 것이다.
한국표준산업분류는 생산단위(사업체단위, 기업체단위 등)가 주로 수행하는 산업 활동을 그 유사성에 따라 체계적으로 유형화한 것으로서, 통계법에 의거하여 통계자료의 정확성 및 국가 간의 비교성을 확보하기 위해 유엔에서 권고하고 있는 국제표준산업분류를 기초로 작성한 통계목적분류이다. 한국표준산업분류는 통계목적 이외에도 일반 행정 및 산업정책관련 법령에서 적용대상 산업영역을 결정하는 기준으로 준용되고 있다.
생산단위의 산업 활동은 그 생산단위가 수행하는 주된 산업 활동(판매/제공되는 재화 및 서비스)의 종류에 따라 결정되는데, 주된 산업 활동은 산출물(재화 또는 서비스)에 대한 부가가치(액)의 크기에 따라 결정되고, 부가가치의 측정이 어려운 경우 산출액 또는 종업원 수 및 노동시간, 임금, 설비의 정도 등을 고려하여 결정하고 있다. 이때, 생산단위는 산출물뿐만 아니라 투입물과 생산공정 등을 함께 고려하여, 그들의 활동을 가장 정확하게 설명한 항목에 분류하고 있다.
이러한 표준산업분류의 구조는 대분류(1자리, 영문대문자), 중분류(2자리 숫자), 소분류(3자리 숫자), 세분류(4자리 숫자). 세세분류(5자리 숫자)의 5단계로 구성되며, 전체 대분류 21개, 중분류 77개, 소분류 232개, 세분류 495개, 세세분류 1,196개로 구성되어 있다. 일 예로 A라는 기업이 경성 인쇄회로기판 제조업을 영위할 때, A기업의 표준산업분류는 대분류로서 "C 제조업", 중분류로서 "C26 전자부품, 컴퓨터, 영상, 음향 및 통신장비 제조업", 소분류로서 "C262 전자부품 제조업", 세분류로서 "C2622 인쇄회로기판 및 전자부품 실장기판 제조업", 세세분류로서 "C26222 경성 인쇄회로기판 제조업"에 해당한다.
한편, 은행이나 신용(기술)평가기관 등에서 기업이나 산업을 분석할 때 표준산업분류는 매우 중요하게 사용된다. 은행이나 신용(기술)평가기관 등에서는 각 기업의 표준산업분류를 수집하여 이를 기반으로 기업과 기업이 속한 산업을 분석하게 된다. 또한, 표준산업분류를 이용하여 기업이 제공하는 제품이나 서비스에 대한 분석을 수행하여 해당 기업의 신용(기술) 등을 평가하게 된다.
또한, 기업을 분석할 때 경쟁사나 산업 내 위치 등을 파악하는 것이 매우 중요한데, 이때에도 표준산업분류를 활용하고 있다. 경쟁사의 경우 동일한 표준산업분류에 속하는 여러 기업들 중 평가하려는 기업과 매출액이나 자산, 자본 등이 유사한 기업을 경쟁사로 선정하여 평가하고 있으며, 산업 내 위치의 경우 동일한 표준산업분류에 속하는 여러 기업들을 매출액이나, 자산, 자본 등으로 순위화하여 평가 대상 기업의 상대적인 위치(산업 내에서 선두그룹, 중간그룹, 하위그룹)를 평가하고 있다.
그러나, 기존 표준산업분류 체계를 이용하여 기업이나 산업을 분석할 때에는 다음과 같은 문제점이 있다.
첫 번째로, 기업이 실제 영위하는 산업과 표준산업분류가 일치되지 않는 경우가 종종 존재한다. 예시적으로, A라는 기업이 "C26222 경성 인쇄회로기판 제조업"으로 신고되어 있는데 실제 생산하는 제품은 ("C26121 발광 다이오드 제조업"에 해당하는) 발광 다이오드인 경우를 가정해볼 수 있다. 이러한 경우 은행이나 신용(기술)평가기관 등에서는 신고되어 있는 표준산업분류인 "C26222 경성 인쇄회로기판 제조업"을 기반으로 기업이나 산업을 분석하게 되는데, 기업이 제공하는 제품이나 서비스와 맞지 않을뿐더러 경쟁사와 산업 내 위치 등도 제대로 파악할 수 없다. 또한, 경쟁사와 산업 내 위치 등을 파악하기 어려운 경우에는 분석 대상 기업에 직접 문의할 수밖에 없는데, 분석 대상 기업들이 경쟁사나 산업에 대하여 파악하지 못하고 있는 경우가 많으며, 악의적으로 작은 경쟁사들만 알려주는 경우 제대로 된 기업 분석이 이루어지기 어렵다.
두 번째로, 새로운 산업이 등장한 경우 표준산업분류에 이를 제대로 반영할 수 없다. 최근 4차 산업혁명의 등장으로 인해 암호화폐, 빅데이터분석, 인공지능, 전기자동차, 자율주행자동차, 드론 등 새로운 기술이 쏟아지고 있는데, 이러한 신등장 산업은 기존 표준산업분류 내에서 명확하게 구분되지 않는다. 현재 이러한 산업들은 대부분 표준산업분류 내에서 "기타"와 같은 형식으로 표현되어 있어 기업/산업 분석을 하기 어려운 실정이다. 일 예로 "암호화폐를 이용한 송금서비스 산업"을 영위하고 있는 B기업의 경우 "K66199 그 외 기타 금융지원 서비스업"으로 신고되어 있는데, "K66199 그 외 기타 금융지원 서비스업" 자체가 너무 포괄적이고 광범위하여 암호화폐만의 특징을 나타낸다고 보기 어렵다. 이와 같이 새로 등장하는 산업에 대해 "기타"의 형식으로 분류하면 제대로 된 산업 분석이나 경쟁사 분석이 이루어지기 어려워 기업 분석 또한 정확성이 떨어질 수 있다.
세 번째로, 두 번째 문제점의 연장선에서 표준산업분류 상 "기타"로 분류되는 기업들에 대한 분석이 어렵다. 표준산업분류에는 중분류(ex. "C33 기타 제품 제조업"), 소분류(ex. "C319 그 외 기타 운송장비 제조업"), 세분류(ex. "C3199 그 외 기타 분류 안된 운송장비 제조업"), 세세분류(ex. "C31999 그 외 기타 달리 분류되지 않은 운송장비 제조업") 등에 "기타"로 분류되는 경우가 있다. 그러나, 이러한 "기타" 분류에는 너무 다양한 제품과 서비스가 포함되어 있어 해당 분류에 대한 특징을 나타낸다고 보기 어렵다. 예시적으로, 세그웨이, 카트, 썰매 등은 모두 다른 제품이나 "C31999 그 외 기타 달리 분류되지 않은 운송장비 제조업"에 속해 동일한 산업으로 평가되고 있다. 그러나, 세그웨이를 생산하는 기업과 카트나 썰매 등을 생산하는 기업은 보유하고 있는 설비, 기술난이도, 마케팅방식 등에 큰 차이가 있으며, 동일한 표준산업분류에 속한다고 하여 이들을 경쟁사라 보는 경우 제대로 된 기업/산업 분석이 이루어질 수 없다.
본 발명의 기술적 사상이 이루고자 하는 기술적 과제는, 전자공시정보, 기술평가정보, 신용평가정보, 특허정보 등의 기업정보를 이용함으로써, 기업이 실제 영위하는 산업과 산업분류를 일치시키고 "기타"로 분류되는 경우를 감소시켜, 기업/산업 분석의 정확성을 향상시키는 오토인코더를 이용한 산업분류 시스템 및 방법을 제공하기 위한 것이다.
또한, 본 발명의 기술적 사상이 이루고자 하는 기술적 과제는, 기존 표준산업분류보다 더 세분화된 세세세분류까지 제공함으로써 더욱 정확한 기업/산업 분석을 가능하게 하는 오토인코더를 이용한 산업분류 시스템 및 방법을 제공하기 위한 것이다.
본 발명의 기술적 사상에 의한 일 양태에 따른 오토인코더를 이용한 산업분류 시스템은 복수 기업의 기업정보를 수집하는 수집부, 복수의 키워드를 포함하는 키워드사전이 저장되어 있는 저장부, 각각의 상기 기업정보와 상기 키워드사전을 비교하여, 각각의 상기 기업정보에 대한 상기 키워드의 유무를 나타내는 유무데이터 또는 상기 키워드의 빈도수를 나타내는 빈도데이터를 산출하는 키워드산출부, 오토인코더를 통해 상기 유무데이터 또는 상기 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링하는 오토인코더부, 복수의 상기 키워드벡터 간 유사성을 판단하여 유사한 상기 키워드벡터끼리 묶어 복수의 군집을 구성하는 군집부, 및 상기 군집에 대한 산업분류명을 레이블링하는 레이블링부를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 수집부가 수집하는 기업정보는 전자공시정보, 신용평가정보, 기술평가정보, 특허정보, 뉴스정보, 소셜네트워크정보 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 수집부는, 각각의 상기 기업에 대하여 먼저 상기 전자공시정보를 수집하고, 상기 기업에 대한 상기 전자공시정보가 없으면 상기 기업에 대한 상기 신용평가정보 또는 상기 기술평가정보를 수집하며, 상기 기업에 대한 상기 전자공시정보, 상기 신용평가정보 및 상기 기술평가정보가 없으면 상기 기업에 대한 상기 특허정보, 상기 뉴스정보, 상기 소셜네트워크정보를 수집할 수 있다.
예시적인 실시예에 따르면, 상기 저장부는, 상기 수집부가 수집한 상기 기업정보가 저장되는 제1 저장부, 및 상기 키워드사전이 저장되어 있는 제2 저장부를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 수집부가 수집한 상기 기업정보로부터 복수의 상기 키워드를 추출하여 상기 키워드사전을 구성하는 사전구성부를 더 포함할 수 있다.
예시적인 실시예에 따르면, 상기 사전구성부는 전체 상기 기업정보 중 10~40%의 기업정보에서 등장하는 내용을 상기 키워드로 추출할 수 있다.
예시적인 실시예에 따르면, 상기 오토인코더부는 상기 유무데이터 또는 상기 빈도데이터의 차원을 감소시켜 부호화된 공간에서 상기 키워드벡터를 모델링할 수 있다.
예시적인 실시예에 따르면, 상기 군집부는 k-means 알고리즘을 이용하여 상기 군집을 구성할 수 있다.
예시적인 실시예에 따르면, 상기 레이블링부가 레이블링하는 상기 산업분류명은 대분류명, 중분류명, 소분류명, 세분류명, 및 세세분류명을 포함할 수 있다.
예시적인 실시예에 따르면, 상기 레이블링부는 상기 군집에 속한 복수의 상기 키워드벡터에 대응되는 상기 기업의 신고된 표준산업분류명 중 가장 많이 현출된 표준산업분류명으로 상기 군집을 레이블링할 수 있다.
예시적인 실시예에 따르면, 상기 레이블링부는 제1 레이블링부와 제2 레이블링부를 포함하고, 상기 제1 레이블링부는 대분류명, 중분류명, 소분류명, 세분류명, 및 세세분류명으로 상기 산업분류명을 레이블링하고, 상기 제2 레이블링부는 세세세분류명으로 상기 산업분류명을 레이블링할 수 있다.
예시적인 실시예에 따르면, 상기 제1 레이블링부는 대문자와 숫자 5자리까지를 포함하는 상기 산업분류명을 레이블링하고, 상기 제2 레이블링부는 대문자와 숫자 6자리까지를 포함하는 상기 산업분류명을 레이블링할 수 있다.
예시적인 실시예에 따르면, 상기 기업에 대한 경쟁사 정보 또는 산업 내 위치 정보 요청이 있으면 상기 요청에 따라, 요청한 상기 기업과 동일한 상기 군집에 속한 다른 기업을 경쟁사로 출력하거나, 요청한 상기 기업이 속한 상기 군집에서의 상기 기업의 상대적인 순위를 출력하는 정보출력부를 더 포함할 수 있다.
본 발명의 기술적 사상에 의한 일 양태에 따른 오토인코더를 이용한 산업분류 방법은 복수 기업의 기업정보를 수집하는 단계, 복수의 키워드를 포함하는 키워드사전을 저장하는 단계, 각각의 상기 기업정보와 상기 키워드사전을 비교하여, 각각의 상기 기업정보에 대한 상기 키워드의 유무를 나타내는 유무데이터 또는 상기 키워드의 빈도수를 나타내는 빈도데이터를 산출하는 단계, 오토인코더를 통해 상기 유무데이터 또는 상기 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링하는 단계, 복수의 상기 키워드벡터 간 유사성을 판단하여, 유사한 상기 키워드벡터끼리 묶어 복수의 군집을 구성하는 단계, 및 상기 군집에 대한 산업분류명을 레이블링하는 단계를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 기업정보는 전자공시정보, 신용평가정보, 기술평가정보, 특허정보, 뉴스정보, 소셜네트워크정보 중 적어도 하나를 포함할 수 있다.
예시적인 실시예에 따르면, 상기 기업정보를 수집하는 단계 이후에, 상기 기업정보로부터 복수의 상기 키워드를 추출하여 상기 키워드사전을 구성하는 단계를 더 포함할 수 있다.
예시적인 실시예에 따르면, 상기 키워드벡터로 모델링하는 단계에서, 상기 오토인코더는 상기 유무데이터 또는 상기 빈도데이터의 차원을 감소시켜 부호화된 공간에서 상기 키워드벡터를 모델링할 수 있다.
예시적인 실시예에 따르면, 상기 복수의 군집을 구성하는 단계에서, k-means 알고리즘을 이용하여 상기 군집을 구성할 수 있다.
예시적인 실시예에 따르면, 상기 군집에 대한 산업분류명을 레이블링하는 단계에서, 상기 군집에 속한 상기 키워드벡터에 대응되는 상기 기업의 표준산업분류 중 가장 많이 현출된 표준산업분류의 명칭으로 상기 산업분류명을 레이블링할 수 있다.
예시적인 실시예에 따르면, 상기 군집에 대한 산업분류명을 레이블링하는 단계는, 대분류명, 중분류명, 소분류명, 세분류명, 및 세세분류명으로 상기 산업분류명을 제1 레이블링하는 단계, 및 세세세분류명으로 상기 산업분류명을 제2 레이블링하는 단계를 포함할 수 있다.
본 발명의 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로부터 더욱 명백해질 것이다.
이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이고 사전적인 의미로 해석되어서는 아니 되며, 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야만 한다.
본 발명의 기술적 사상에 의한 실시예들에 따른 오토인코더를 이용한 산업분류 시스템 및 방법은, 전자공시정보 등의 기업정보를 키워드사전과 비교하고 오토인코더로 키워드벡터를 모델링하고 이를 군집화함으로써, 기업이 실제 영위하는 산업과 산업분류를 일치시켜, 기업이 제공하는 제품이나 서비스를 명확하게 파악할 수 있고 정확한 경쟁사와 산업 내 위치 정보를 제공할 수 있다.
또한, 본 발명에 따르면 레이블링부가 기존의 표준산업분류명을 차용하여 군집에 대해 레이블링함으로써 수요자에게 익숙한 산업분류를 제공할 수 있다.
또한, 본 발명에 따르면 제2 레이블링부가 기존의 표준산업분류의 세세분류를 더욱 세분화한 세세세분류까지 레이블링함으로써, "기타"로 분류되던 산업이나 새로이 등장하는 산업을 세세하게 분류할 수 있고 이에 따라 정확한 기업/산업 분석이 이루어지도록 할 수 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 오토인코더를 이용한 산업분류 시스템의 연결관계를 나타낸 도면이다.
도 2는 도 1에 도시한 오토인코더를 이용한 산업분류 시스템의 세부구성을 나타낸 도면이다.
도 3은 도 2에 도시한 오토인코더를 이용한 산업분류 시스템의 수집부가 기업정보를 수집하는 프로세스를 나타낸 도면이다.
도 4는 도 2에 도시한 오토인코더를 이용한 산업분류 시스템의 저장부가 저장하고 있는 키워드사전을 예시적으로 나타낸 도면이다.
도 5는 도 2에 도시한 오토인코더를 이용한 산업분류 시스템의 키워드산출부가 키워드의 유무 또는 빈도수를 매칭하는 것을 나타낸 도면이다.
도 6은 도 2에 도시한 오토인코더를 이용한 산업분류시스템의 오토인코더부를 설명하기 위한 오토인코더의 개념도이다.
도 7은 도 2에 도시한 오토인코더를 이용한 산업분류시스템의 오토인코더부를 통한 부호화된 공간에서의 키워드벡터를 나타낸 도면이다.
도 8은 도 2에 도시한 오토인코더를 이용한 산업분류 시스템의 군집부가 키워드벡터를 군집화하는 것을 나타낸 도면이다.
도 9는 도 2에 도시한 오토인코더를 이용한 산업분류 시스템의 레이블링부가 레이블링하는 방식의 예시를 나타낸 도면이다.
도 10은 본 발명의 다른 실시예에 따른 오토인코더를 이용한 산업분류 시스템의 세부구성을 나타낸 도면이다.
도 11은 본 발명의 또 다른 실시예에 따른 오토인코더를 이용한 산업분류 시스템의 세부구성을 나타낸 도면이다.
도 12는 본 발명의 또 다른 실시예에 따른 오토인코더를 이용한 산업분류 시스템의 세부구성을 나타낸 도면이다.
도 13은 본 발명의 일 실시예에 따른 오토인코더를 이용한 산업분류 방법을 나타낸 순서도이다.
도 14는 본 발명의 다른 실시예에 따른 오토인코더를 이용한 산업분류 방법을 나타낸 순서도이다.
본 발명의 목적, 특정한 장점들 및 신규한 특징들은 첨부된 도면들과 연관되는 이하의 상세한 설명과 실시예로부터 더욱 명백해질 것이다. 본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)의 연결관계를 나타낸 도면이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)의 연결관계에 대해 살펴보기로 한다.
도 1에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)은 기업정보를 제공하는 거래소, 은행, 신용평가기관, 기술평가기관, 특허정보원, 신문사, 방송사, 소셜네트워크 제공자의 서버 등과 같은 외부 데이터 제공서버(200)와 네트워크로 연결되어 상호 간 데이터를 송수신할 수 있다. 이때, 외부 데이터 제공서버(200)는 네트워크를 통해 전자공시정보, 신용평가정보, 기술평가정보, 특허정보, 뉴스정보, 소셜네트워크정보 등을 오토인코더를 이용한 산업분류 시스템(100a)에 제공할 수 있고, 오토인코더를 이용한 산업분류 시스템(100a)은 예를 들어, 전자공시 상의 보고서, 신용평가 보고서, 기술평가 보고서, 뉴스기사, 소셜네트워크의 내용 등을 수집하여 저장할 수 있다. 또한, 오토인코더를 이용한 산업분류 시스템(100a)은 외부 데이터 제공서버(200)에 연결되어, 선택적으로 은행이나 신용평가기관 등에 존재하는 기업목록에 해당하는 기업명정보를 전달받아 이를 활용할 수 있다.
한편, 여기서의 네트워크는 예를 들어, WiFi(wireless fidelity)와 같은 무선인터넷, WiBro(wireless broadband internet) 또는 WiMax(world interoperability for microwave access)와 같은 휴대인터넷, GSM(global system for mobile communication) 또는 CDMA(code division multiple access)와 같은 2G 이동통신망, WCDMA(wideband code division multiple access) 또는 CDMA2000과 같은 3G 이동통신망, HSDPA(high speed downlink packet access) 또는 HSUPA(high speed uplink packet access)와 같은 3.5G 이동통신망, LTE(long term evolution)망 또는 LTE-Advanced 망과 같은 4G 이동통신망 등과 같은 다양한 네트워크로 구현될 수 있다.
한편, 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)은 추가적으로 사용자 단말기(300)와 연결될 수 있는데, 사용자 단말기(300)는 오토인코더를 이용한 산업분류 시스템(100a)과 연결되는 통신 기능과 이미지나 텍스트를 출력할 수 있는 디스플레이 기능을 갖춘 장치라면 특별히 한정되지 않는다. 예를 들어, 사용자 단말기(300)는, 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 태블릿(tablet) PC, 무선전화기(wireless phone), 모바일폰(mobile phone), 스마트폰(smart phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 내비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 영상 녹화기(digital picture recorder), 디지털 영상 재생기(digital picture player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 2는 도 1에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 세부구성을 나타낸 도면이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)에 대해 살펴보기로 한다. 도 2에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)은 기업정보를 수집하는 수집부(110), 키워드사전이 저장된 저장부(120), 유무데이터 또는 빈도데이터를 산출하는 키워드산출부(130), 키워드벡터를 모델링하는 오토인코더부(140), 유사한 키워드벡터끼리 묶어 복수의 군집을 구성하는 군집부(150), 및 군집의 산업분류명을 레이블링하는 레이블링부(160)를 포함할 수 있다.
수집부(110)는 외부 데이터 제공서버(200)로부터 기업정보를 수집하는 부분이다. 여기서, 수집부(110)가 수집하는 기업정보는 전자공시정보, 신용평가정보, 기술평가정보, 특허정보, 뉴스정보와 소셜네트워크정보 등이 될 수 있는데, 더욱 구체적으로는 예를 들어 한국거래소의 DART 상에 있는 보고서(분기보고서, 반기보고서 등), 은행·신용평가기관·기술평가기관 등의 신용평가보고서 또는 기술평가보고서, KIPRIS와 같은 특허DB 상의 특허명세서, 뉴스기사와 소셜네트워크 상의 내용 등이 될 수 있다. 수집부(110)가 수집한 기업정보는 저장부(120) 중 제1 저장부(121)에 저장될 수 있으며, 제1 저장부(121)에 저장된 기업정보는 추후 키워드산출부(130) 등의 구성이 참조할 수 있다. 한편, 수집부(110)는 기업명을 알지 못하는 상태에서 기업정보를 수집한 후 이로부터 기업명을 추출하여 기업정보와 기업명을 매칭시키거나, 또는 은행이나 신용평가기관 등에 존재하는 기업목록으로부터 기업명정보를 받아 미리 저장해둔 후 DART 등에서 기업명을 검색하여 기업정보를 수집함으로써 기업정보와 기업명을 매칭시킬 수 있다.
한편, 수집부(110)가 수집하는 전자공시정보 등의 기업정보는 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)의 가장 베이스가 되는 정보이다. 이때, 수집부(110)는 기존 표준산업분류 체계에서와 같이 기업이 신고한 표준산업분류를 그대로 이용하는 것이 아니고, 실제 기업이 제공하는 제품이나 서비스, 속한 산업 관련 내용이 기재되어 있을 가능성이 높은 전자공시정보, 신용평가정보 등을 수집하고 이로부터 새로운 산업분류를 생성하기 때문에, 종래기술과 같이 산업분류와 기업이 영위하는 실제 산업 등이 매칭되지 않는 경우가 발생될 가능성이 낮아질 수 있다. 따라서, 기업의 실제 영위하는 산업과 정확하게 매칭되는 산업분류를 제공할 수 있으며, 이에 따라 경쟁사 정보, 산업내 위치 정보 등도 신뢰감이 더욱 향상될 수 있다.
한편, 수집부(110)는 선택적으로 각종 기업정보에 우선순위를 두고 수집할 수 있는데, 이는 도 3을 참조하여 더욱 구체적으로 살펴보기로 한다.
도 3은 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 수집부(110)가 기업정보를 수집하는 프로세스를 나타낸 도면이다. 이하, 도 2 및 도 3을 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100a)의 수집부(110)가 기업정보를 수집하는 프로세스에 대해 살펴보기로 한다.
일반적으로 은행이나 신용평가기관 등에서는 기업을 상장기업, 외감기업, 비외감기업 등으로 구분하고 있다. 이때 상장기업이나 일부 외감기업의 경우 한국거래소의 DART 상에 전자공시정보가 있으나 일부 외감기업과 비외감기업의 경우 이러한 전자공시정보가 없다. 따라서, 이러한 기업의 경우 전자공시정보가 아닌 다른 기업정보가 필요한데 비교적 정확한 정보로서 은행이나 신용평가기관 또는 기술평가기관의 신용평가정보와 기술평가정보가 있다. 그러나, 이러한 모든 기업이 은행, 신용평가기관, 기술평가기관 등에 신용평가정보나 기술평가정보가 있는 것은 아니므로, 전자공시정보, 신용평가정보, 기술평가정보로부터 기업정보를 수집할 수 없는 기업이 존재한다. 이러한 기업들은 차선책으로 해당 기업이 출원하거나 보유하고 있는 특허정보를 기업정보로서 활용할 수 있으며, 또는 뉴스기사나 소셜네트워크 상의 정보, 예를 들어 "A기업이 신제품 B를 출시했다"와 같은 정보를 기업정보로서 활용할 수 있다. 이러한 특허정보, 뉴스정보, 소셜네트워크정보는 전자공시정보나 신용평가정보 또는 기술평가정보 등에 비하여 정확도가 다소 떨어질 수 있는데, 전자공시정보나 신용평가정보 또는 기술평가정보는 전문가로부터 이미 검증이 완료된 정보에 해당하며, 기업이 사업영역과 무관한 특허를 보유하고 있는 경우나 뉴스나 소셜네트워크 상에 오보가 있는 경우 신뢰성이 떨어질 수 있기 때문이다.
본 실시예에 따른 수집부(110)는 이러한 기업정보의 특성을 반영하여 각종 기업정보에 우선순위를 두고 수집할 수 있다. 먼저, 도 3에 도시한 바와 같이 수집부(110)는 대상 기업에 대하여 한국거래소의 DART 등에 전자공시정보가 있는지 확인할 수 있다(S111). 이때, 해당 기업에 대한 전자공시정보가 있는 경우 그대로 전자공시정보를 해당 기업의 기업정보로서 활용할 수 있으며(S112), 만일 해당 기업에 대한 전자공시정보가 없는 경우 은행이나 신용평가기관 또는 기술평가기관 등에 신용평가정보나 기술평가정보가 있는지 확인할 수 있다(S113). 해당 기업에 대한 신용평가정보나 기술평가정보가 있는 경우 더 이상 다른 기업정보를 수집하지 않고 그대로 신용평가정보나 기술평가정보를 해당 기업의 기업정보로서 활용할 수 있으며(S114), 만일 해당 기업에 대한 신용평가정보나 기술평가정보도 없는 경우 특허DB, 뉴스기사, 소셜네트워크 등에 해당 기업 관련 기업정보가 있는지 확인할 수 있다(S115). 이때, 특허DB, 뉴스기사, 소셜네트워크 등에 해당 기업 관련 기업정보가 있으면 이를 기업정보로서 활용할 수 있고(S116), 만일 특허DB, 뉴스기사, 소셜네트워크 등에도 해당 기업 관련 기업정보가 없다면 그대로 절차를 종료하고 해당 기업은 산업분류 대상 기업에서 제외할 수 있다. 이러한 프로세스는 전자공시정보>신용평가정보·기술평가정보>특허정보·뉴스정보·소셜네트워크정보 순으로 기업정보가 기업의 특성을 나타냄에 있어 신뢰성이 높음에 기인한 것일 수 있다.
한편, 본 실시예를 설명함에 있어 수집부(110)가 도 3의 프로세스를 따르는 것으로 설명하였으나 이는 하나의 실시예에 불과하며, 수집부(110)가 각종 기업정보 중 어느 하나의 정보만 수집하거나 또는 우선순위 없이 모두 수집하는 것도 가능하다 할 것이다.
도 4는 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 저장부(120)가 저장하고 있는 키워드사전(171)을 예시적으로 나타낸 도면이다. 이하, 도 2 및 도 4를 참조하여 본 실시예에 따른 저장부(120)에 대해 살펴보기로 한다.
도 2에 도시한 바와 같이, 본 실시예에 따른 저장부(120)는 제1 저장부(121)와 제2 저장부(122)를 포함할 수 있다. 여기서, 제1 저장부(121)는 앞서 설명한 바와 같이 수집부(110)가 수집한 기업정보를 저장할 수 있으며, 제2 저장부(122)는 도 4에 도시한 바와 같은 키워드사전(171)을 저장할 수 있다. 이러한 키워드사전(171)은 예를 들어 다양한 기업들이 제공하는 제품이나 서비스, 속한 산업 등과 관련된 키워드(172)로 구성될 수 있으며, 예를 들어 10,000개의 키워드(172)로 구성된 사전일 수 있다. 키워드사전(171)을 구성하는 키워드(172)의 일 예로서, 키워드(172)는 도 4에 도시한 바와 같이 전자부품, 컴퓨터, 소프트웨어, 법률, 반도체, 이사, 철강, 암호화폐, 자동차, 컨설팅 등을 포함할 수 있다.
한편, 본 실시예에 있어 제1 저장부(121)와 제2 저장부(122)는 물리적으로 분리되어 있을 수도 있고 또는 하나의 장치 내에 함께 포함되어 있는 경우도 가능하다 할 것이다.
도 5는 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 키워드산출부(130)가 키워드(172)의 유무 또는 빈도수를 매칭하는 것을 나타낸 도면이다. 이하, 도 2 및 도 5를 참조하여 본 실시예에 따른 키워드산출부(130)에 대해 살펴보기로 한다.
키워드산출부(130)는 수집부(110)가 수집한 기업정보(111) 각각을 제2 저장부(122)에 저장된 키워드사전(171)과 비교하여, 각각의 기업정보(111)에 키워드사전(171) 상의 키워드(172)가 있는지(키워드의 유무), 얼마나 자주 등장하는지(키워드의 빈도수)를 산출하는 부분이다. 예시적으로, 키워드산출부(130)는 도 5의 (a)에 도시한 바와 같이, 전자부품, 컴퓨터, 소프트웨어 등의 키워드(172)를 포함하는 키워드사전(171)과 각각의 기업에 대한 기업정보(111)를 비교하여, 각각의 기업정보(111)에 키워드(172)가 포함되어 있는지 여부를 "0"(키워드가 포함되어 있지 않을 때)과 "1"(키워드가 포함되어 있을 때)로 표현할 수 있으며, 이에 따라 각각의 기업에 대하여 유무데이터(131)를 "0 1 0 0 1 ..."(예시적으로 도 5의 (a)를 기준으로 A기업정보에 키워드 "전자부품" 불포함, "컴퓨터" 포함, "소프트웨어" 불포함, "법률" 불포함, "반도체" 포함을 의미함), "1 0 0 1 1 ..."(예시적으로 도 5의 (a)를 기준으로 B기업정보에 키워드 "전자부품" 포함, "컴퓨터" 불포함, "소프트웨어" 불포함, "법률" 포함, "반도체" 포함을 의미함)과 같은 형식으로 표현할 수 있다. 따라서, 키워드산출부(130)에 의해 각각의 기업정보(111)에 대하여 각각 유무데이터(131)가 생성될 수 있고, 이러한 유무데이터(131)는 저장부(120) 등에 저장될 수 있다.
한편, 키워드산출부(130)는 위와 같이 키워드(172)의 유무만을 산출할 수도 있고 또는 키워드(172)의 빈도수까지 산출할 수도 있다. 예시적으로, 키워드산출부(130)는 도 5의 (b)에 도시한 바와 같이, 복수의 키워드(172)를 포함하는 키워드사전(171)과 각각의 기업에 대한 기업정보(111)를 비교하여, 각각의 기업정보(111)에 키워드(172)가 몇 번씩 포함되어 있는지 여부를 "0"(키워드가 포함되어 있지 않을 때), "1"(키워드가 1번 포함될 때), "2"(키워드가 2번 포함될 때), "3"(키워드가 3번 포함될 때)...과 같은 형식으로 표현할 수 있다(여기서, 숫자는 키워드가 포함된 개수를 의미하는 것으로 더 큰 수까지 같은 형식으로 진행됨). 이에 따라 각각의 기업에 대하여 빈도데이터(132)가 "0 3 15 23 2 ..."(예시적으로 도 5의 (b)를 기준으로 C기업정보에 키워드 "전자부품" 불포함, "컴퓨터" 3번 포함, "소프트웨어" 15번 포함, "법률" 23번 포함, "반도체" 2번 포함을 의미함), "7 38 29 55 0 ..."(예시적으로 도 5의 (b)를 기준으로 D기업정보에 키워드 "전자부품" 7번 포함, "컴퓨터" 38번 포함, "소프트웨어" 29번 포함, "법률" 55번 포함, "반도체" 불포함을 의미함)과 같은 형식으로 표현될 수 있다. 따라서, 키워드산출부(130)에 의해 각각의 기업정보에 대하여 각각 빈도데이터(132)가 생성될 수 있고, 이러한 빈도데이터(132)는 저장부(120) 등에 저장될 수 있다.
상기와 같은 유무데이터(131) 또는 빈도데이터(132)는 추후 유사한 기업정보(111)들끼리 군집으로 묶기 위한 기초데이터가 되는데, 빈도까지 산출한 빈도데이터(132)가 유무데이터(131)에 비하여 기업정보(111)의 특성을 보다 상세히 나타낼 수 있으므로, 기업정보(111) 간 유사성을 판단함에 있어 정확성이 더욱 높을 수 있다.
도 6은 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 오토인코더부(140)를 설명하기 위한 오토인코더의 개념도이고, 도 7은 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 오토인코더부(140)를 통한 부호화된 공간에서의 키워드벡터(141)를 나타낸 도면이다. 이하, 도 2, 도 5, 도 6 및 도 7을 참조하여 본 실시예에 따른 오토인코더부(140)에 대해 살펴보기로 한다.
도 5에 도시한 바와 같이, 키워드산출부(130)는 기업정보와 키워드사전을 비교하여, 유무데이터(131) 또는 빈도데이터(132)를 산출할 수 있다. 이때, 정확한 산업분류를 위해서는 키워드사전(171)에 많은 양의 키워드(172)를 포함시키는 것이 바람직한데, 이러한 경우 유무데이터(131) 또는 빈도데이터(132)의 차원이 과도해질 수 있다. 예를 들어, 키워드사전(171)에 포함되는 키워드(172)가 10,000개라 하면 유무데이터(131) 또는 빈도데이터(132)의 차원도 10,000 차원이 될 수 있다(즉, "0 1 0 0 1 ...", "0 3 15 23 2 ..."과 같이 표현되는 유무데이터(131) 또는 빈도데이터(132)에 포함되는 숫자가 10,000개). 이러한 경우 차원이 과도하여 CPU 등에 무리가 갈 수 있고 처리시간도 길어질 수 있으며, 이에 따라 군집부(150)를 이용한 군집화에 어려움이 있을 수 있다. 이러한 문제점을 해결하기 위해서는 유무데이터(131) 또는 빈도데이터(132)의 특성을 유지시키면서도(자가복원이 가능하게 하면서도) 차원을 감소시켜야 하는데 이때 오토인코더를 이용할 수 있다.
일반적으로 기계학습(머신러닝; Machine Learning)은 인공지능(AI)의 한 분야로 컴퓨터가 여러 데이터를 이용하여 학습한 내용을 기반으로 새로운 데이터에 대한 적절한 작업을 수행할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 의미한다. 기계 학습은 학습 방식에 따라 지도 학습(supervised learning, 감독 학습), 준지도 학습(semi-supervised learning), 비지도 학습(unsupervised learning, 자율 학습), 강화 학습(reinforcement learning)으로 분류된다. 지도 학습(supervised learning)은 미리 구축된 학습용 데이터(training data)를 활용하여 모델을 학습하며, 준지도 학습(semi-supervised learning)은 학습용 데이터와 정리되지 않은 데이터를 모두 훈련에 사용하는 방법이다. 비지도 학습(unsupervised learning)은 별도의 학습용 데이터를 구축하는 것이 아니라 데이터 자체를 분석하거나 군집(clustering)하면서 학습한다. 강화 학습(reinforcement learning)은 학습 수행 결과에 대해 적절한 보상을 주면서 피드백을 통해 학습한다.
오토인코더는 이러한 기계학습 방법의 일종으로 신경망 분석(neural network analysis) 중 하나이며 비지도 학습(Unsupervised learning)을 사용하여 학습하는 모델을 의미한다. 오토인코더에 대한 아이디어는 수십 년 동안 신경망에서 연구되었으며(LeCun, 1987; Bourlard and Kamp, 1988; Hinton and Zemel, 1994), 전통적으로 오토인코더는 차원 감소 또는 피쳐 학습에 사용되어왔다.
일반적으로, 오토인코더는 신경망 알고리즘(Neural network)을 이용하여 신경망을 거쳐 나온 출력값이 그 입력값과 최대한 비슷해지도록 하는 것을 목표로 학습할 수 있다. 이때 입력값의 차원보다 신경망 뉴런의 개수가 크거나 같을 경우 학습의 의미가 없어지는데, 입력값을 그대로 받아서 내보내면 그만이기 때문이다. 따라서 오토인코더가 의미를 가지기 위해서는 뉴런의 개수가 입력값의 차원보다 작아야 하며, 이 학습의 결과 더 적은 수의 값들을 가지고 원래 값을 복원할 수 있는 압축의 효과를 얻을 수 있다. 즉, 오토인코더의 핵심적인 기능은 복원 가능한 수준으로 입력값의 차원을 부호화된 공간에서 감소시켜주는 것에 있다.
오토인코더는 도 6에 도시한 바와 같이 입력 계층(input layer)과 은닉 계층(hidden layer)을 포함하여 encoder function = f (x)를 생성하는 인코더(encoder) 및 은닉 계층과 출력 계층(output layer)을 포함하여 decoder = g (h)를 생성하는 디코더(decoder)로 구성되며, 인코더와 디코더에 학습된 모델은 학습 과정에서 계속 데이터를 생성해 내고, 학습이 끝난 이후 인코더의 출력폼 형식의 수학적 함수 분포(distribution)를 디코더에 넣어 주면 일정한 출력물을 생성할 수 있다. 일반적으로 오토인코더는 FNN(Feedforward Neural Networks)를 이용하여 학습되며, 이 경우 오토인코더는 입력된 데이터에 대한 결과물을 한 번에 출력한다.
본 실시예에서의 오토인코더부(140)는 이러한 오토인코더 중 입력 계층과 은닉 계층을 포함하는 인코더 부분을 이용할 수 있다. 이러한 오토인코더의 인코더 부분을 이용하면, 매우 높은 차원의 유무데이터(131) 또는 빈도데이터(132)를 복원 가능 수준으로 특성을 유지시키면서도 부호화된 공간에서 차원을 감소시킬 수 있으며, 이에 따라 군집부(150)에서 처리해야 하는 데이터의 차원이 낮아져 데이터 처리가 용이해질 수 있다. 이를 도 7을 참조하여 예시적으로 설명하면 "0 1 1 0 1 1 1 0 1 1"과 같이 10차원으로 표현된 유무데이터(131)를 오토인코더부(140)를 통해 "3 1"과 같은 형식의 2차원으로 표현된 키워드벡터(141)로 모델링할 수 있다. 다만, 이는 도시 및 설명의 편의를 위하여 저차원으로 설명한 것이며, 실제로는 예를 들어 10,000개 수준으로 매우 고차원이었던 유무데이터(131)와 빈도데이터(132)를 오토인코더부(140)에 입력하면, 부호화된 공간에서 약 10차원 정도로 줄어든 키워드벡터(141)로 모델링할 수 있다. 이와 같이, 오토인코더부(140)를 통해 각각의 기업정보 별로 대응되는 각각의 키워드벡터(141)가 생성될 수 있다.
본 실시예를 설명함에 있어 키워드산출부(130)가 유무데이터(131)와 빈도데이터(132)를 산출하고, 오토인코더부(140)가 이를 입력받아 키워드벡터(141)로 모델링하는 것으로 설명하였다. 단, 여기서의 유무데이터(131)와 빈도데이터(132)도 실질적으로 고차원 상의 어떤 지점을 나타낸다는 점에 있어서 일종의 키워드벡터로 볼 수 있으며, 오토인코더부(140)가 산출한 키워드벡터(141)는 유무데이터(131)와 빈도데이터(132)에 해당하는 키워드벡터를 압축한(차원을 축소한) 키워드벡터라 볼 수 있다.
도 8은 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 군집부(150)가 키워드벡터(141)를 군집화하는 것을 나타낸 도면이다. 이하, 도 2 및 도 8을 참조하여 본 실시예에 따른 군집부(150)에 대해 살펴보기로 한다.
군집부(150)는 기업정보 내지는 유무데이터 또는 빈도데이터 별로 오토인코더부(140)가 모델링한 키워드벡터(141), 즉 복수의 기업 각각에 대응되는 키워드벡터(141)들 간 유사성을 판단하여, 유사한 키워드벡터(141)끼리 묶어 군집화하는 부분이다. 여기서, 군집부(150)는 군집분석(cluster analysis) 알고리즘을 이용할 수 있는데, 군집분석은 데이터들의 특성을 고려해 데이터 군집(클러스터)을 정의하고 데이터 군집을 대표할 수 있는 대표점을 찾는 것으로 데이터 마이닝의 한 방법이다. 여기서, 군집이란 비슷한 특성을 가진 데이터들의 집단을 의미하며, 데이터의 특성이 다르면 다른 군집에 속할 수 있다.
이러한 군집분석 알고리즘의 일 예로서 k-means 알고리즘을 이용할 수 있는데, k-means 알고리즘은 주어진 데이터를 k개의 군집으로 묶는 알고리즘으로 각 군집과 거리 차이의 분산을 최소화하는 방식으로 동작할 수 있다. 구체적으로 k-means 알고리즘은 k개의 중심점을 찍은 후에 이 중심점에서 각 키워드벡터(141) 간의 거리의 합이 최소화가 되는 k의 위치를 찾고, 이 중심점에서 가까운 점들을 기준으로 군집화할 수 있다. 도 8에서는 군집부(150)가 이러한 과정을 거쳐 3개의 군집(152)을 분류한 것을 나타내고 있으며, 도 8에 각 군집별로 중심점(151)이 찍혀 있는데, 이러한 중심점(151)의 위치를 움직여가면서 각 군집의 키워드벡터(141)와 중심점(151)의 거리가 가장 작은 중심점(151)을 찾을 수 있다.
이와 같이 본 실시예에서는 기업이 신고한 표준산업분류를 그대로 따르는 것이 아니라 기업이 제공하는 제품/서비스나 속한 산업과 연관성이 높은 전자공시정보 등의 기업정보로부터 키워드벡터(141)를 모델링하고 이를 이용하여 새로이 군집(152)을 생성하기 때문에, 기업이 신고한 표준산업분류와 실제로 영위하는 산업이 서로 상이한 경우에도 문제가 발생되지 않을 수 있다. 일 예로 "A"라는 기업이 "C26222 경성 인쇄회로기판 제조업"으로 신고되어 있는데 실제 생산하는 제품은 "C26121 발광 다이오드 제조업"과 관련되는 발광 다이오드인 경우, 기존에는 "A" 기업에 대한 분석을 할 때 "C26222 경성 인쇄회로기판 제조업"을 기반으로 하게 되어 제대로 된 기업 분석이 이루어질 수 없었으나, 본 실시예에 따르면 "A" 기업은 "C26121 발광 다이오드 제조업"에 대응되는 군집(152)에 속하게 되므로 이를 기반으로 기업/산업을 분석할 수 있어 분석 또는 평가가 정확하게 이루어질 수 있다.
더욱이, 군집부(150)가 키워드벡터(141) 간 유사성을 판단하여 유사한 키워드벡터(141)들을 묶어 군집화하기 때문에, 기존과 같이 "기타"로 표현되는 산업분류가 적어질 수 있고 더욱 세분화되어 표현될 수 있다. 예시적으로, 기존 표준산업분류 상으로 "세그웨이", "카트", "썰매"는 동일한 대분류("C 제조업"), 중분류("C31 기타 운송장비 제조업"), 소분류("C319 그 외 기타 운송장비 제조업"), 세분류("C3199 그 외 기타 분류 안된 운송장비 제조업"), 세세분류("C31999 그 외 기타 달리 분류되지 않은 운송장비 제조업")로 분류되고 있다. 그러나, 본 실시예에서와 같이 전자공시정보 등의 기업정보를 기반으로 키워드산출부(130), 오토인코더부(140), 군집부(150) 등을 거치게 되면 이러한 "세그웨이", "카트", "썰매"는 중첩되는 키워드의 유무나 빈도수가 상이하게 때문에 서로 다른 군집(152)으로 분류될 가능성이 있다. 따라서 "기타"로 표현되는 산업분류가 적어질 수 있고 이에 속하는 기업들의 숫자도 적어질 수 있다. 또한, 새로운 산업인 암호화폐 관련 산업을 영위하는 기업들도 기존처럼 "K66199 그 외 기타 금융지원 서비스업"과 같이 "기타" 분류에 속하게 되는 것이 아니고 유사한 키워드(예를 들어 "암호화폐", "가상화폐", "송금" 등)의 유무나 빈도수에 따라 유사한 기업끼리 묶여 새로운 군집(152)을 구성할 수 있으므로 기업을 분석함에 있어 더욱 정확한 산업분류를 제공할 수 있다.
한편, 본 실시예에서는 군집분석 알고리즘으로서 k-means 알고리즘을 설명하였으나, 본 발명은 이에 한정되지 않고 DBSCAN, Hierarchical clustering, Spectral Clustering, partitioning, categorical value, k-medoid, clara, clarans 등과 같이 공지된 군집분석 알고리즘으로 본 발명을 구현하는 것도 가능하다 할 것이다. 몇 가지 살펴보면, DBSCAN(밀도기반 군집화; Density-based spatial clustering of applications with noise)은 밀도가 높은 부분을 군집화하는 방식이고, Hierarchical clustering(계층적 군집분석)은 비슷한 군집끼리 묶어 가면서 최종적으로 하나의 케이스가 될 때까지 군집을 묶는 알고리즘으로 k-means와는 다르게 군집의 수를 미리 정해주지 않아도 되는 방식이다. 그 외 방식에 대해서는 이미 공지된 방식인바 본 실시예에서는 그 설명을 생략하기로 한다.
한편, 도 8에서는 도시 및 설명의 편의를 위하여 2차원의 공간에서 키워드벡터(141)를 표현하였으나 본 발명은 이에 한정되지 않으며, 오토인코더에서 모델링되는 키워드벡터(141)의 자가 복원성을 고려하여 부호화된 공간에서 약 10차원 수준으로 키워드벡터(141)를 모델링할 수 있다.
도 9는 도 2에 도시한 오토인코더를 이용한 산업분류 시스템(100a)의 레이블링부(160)가 레이블링하는 방식의 예시를 나타낸 도면이다. 이하, 도 2 및 도 9를 참조하여 본 실시예에 따른 레이블링부(160)에 대해 살펴보기로 한다.
레이블링부(160)는 군집부(150)가 구성한 군집(152)에 대한 산업분류명을 레이블링하는 부분이다. 여기서, 레이블링부(160)는 다양한 방식으로 군집부(150)가 구성한 군집(152)에 대하여 레이블링할 수 있다. 첫 번째 방식으로, 레이블링부(160)는 군집(152)에 속한 키워드벡터(141)에 대응되는 기업들을 기준으로, 해당 기업들의 신고된 표준산업분류 중 가장 많이 현출된 표준산업분류명을 해당 군집(152)의 산업분류명으로 정할 수 있다. 일 예를 나타낸 도 9를 참조하면, 어떤 군집(152)에 키워드벡터(141) 10개가 속해있는데, 이들 키워드벡터(141)에 각각 대응되는 10개 기업들의 신고된 표준산업분류가 각각 "C31321 항공기용 엔진 제조업" 5개, "C31322 항공기용 부품 제조업" 3개, "C31311 유인항공기, 항공우주선 및 보조장치 제조업" 2개라 가정하여 보자. 이때, 표준산업분류 중 가장 많이 현출된 것은 5개 기업과 관련되는 "C31321 항공기용 엔진 제조업"이므로, 일종의 다수결에 따라 이를 해당 군집(152)의 표준산업분류명으로 레이블링할 수 있다. 이때, "C31321 항공기용 엔진 제조업"는 세세분류이므로, 해당 군집(152)의 세분류는 "C3132 항공기용 엔진 및 부품 제조업"으로, 소분류는 "C313 항공기, 우주선 및 부품 제조업"으로, 중분류는 "C31 기타 운송장비 제조업"으로, 대분류는 "C 제조업"으로 레이블링할 수 있다. 이와 같이 레이블링부(160)가 기존의 표준산업분류와 동일한 체계로 레이블링하는 경우 수요자의 입장에서 새로운 산업분류에 대한 거부감이 덜 드는 장점이 있다. 또한, 동일한 분류체계를 이용하더라도 각 산업분류(군집)에 속하는 기업들은 전자공시정보 등의 기업정보를 기반으로 재분류된 것이므로, 기업과 제품/서비스/산업/경쟁사/산업 내 위치 등을 매칭시킴에 있어 정확성이 향상될 수 있다.
또한, 레이블링부(160)는 표준산업분류 체계와 무관하게 레이블링하는 것도 가능하며, 예를 들어 군집(152)에 속한 키워드벡터(141)에 대응되는 기업정보 내용 중 제품이나 서비스 등을 나타내면서 가장 빈도수가 높은 키워드를 해당 군집(152)의 산업분류명으로 레이블링할 수 있다. 이러한 경우 제품/서비스/산업 등을 나타내는 사전을 미리 만들어두고 기업정보와 비교하는 것이 효율성 측면에서 바람직할 수 있다.
도 10은 본 발명의 다른 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100b)의 세부구성을 나타낸 도면이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100b)에 대해 살펴보기로 한다. 여기서, 이전 실시예와 중복되는 구성요소는 동일한 도면부호로 지칭되며, 이전 실시예와 중복되는 설명은 생략하기로 한다.
도 10에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100b)은 수집부(110), 저장부(120), 키워드산출부(130), 오토인코더부(140), 군집부(150), 및 레이블링부(160)를 포함하고, 추가적으로 키워드사전을 구성하는 사전구성부(170)를 더 포함할 수 있다.
이전 실시예에서 저장부(120) 중 제2 저장부(122)에는 키워드사전이 저장되어 있고 키워드산출부(130)는 수집부(110)가 수집한 기업정보와 제2 저장부(122)에 저장된 키워드사전을 비교하여, 각 기업정보에 키워드사전의 키워드가 포함되어 있는지(유무데이터), 얼마나 포함되어 있는지(빈도데이터)를 산출하는 것을 설명하였다. 본 실시예에서는 이러한 제2 저장부(122)에 저장되어 있는 키워드사전을 사전구성부(170)가 구성하는 과정에 대해 설명할 것이다.
사전구성부(170)는 수집부(110)가 수집한 전자공시정보, 신용평가정보 등의 기업정보에서 키워드를 추출하여 키워드사전으로 구성하는 부분이다. 예시적으로, 기업정보를 나타내는 전자공시 보고서 내의 텍스트 등을 파싱(parsing)한 후 형태소를 추출하고 이러한 형태소 중 일정 부분 빈도수가 높은 형태소를 키워드로 추출할 수 있다. 이때, 너무 많은 기업정보에서 언급되는 형태소 내지는 내용은 기업이 제공하는 제품이나 서비스, 산업과 무관할 가능성이 높으며(ex. "매출", "판매", "수출"과 같은 키워드), 어느 하나의 기업정보에서만 언급되는 형태소 내지는 내용도 군집화하는데 이용되기는 어려울 수 있다. 따라서, 제품이나, 서비스, 산업과 무관할 가능성이 낮으면서 군집화할 수 있을 만큼은 빈도수가 나올만한 키워드를 선정하기 위하여, 전체 복수 개의 기업에 대한 기업정보 중 약 10~40% 수준의 기업정보에서 등장하는 형태소 내지는 내용을 키워드로 선정할 수 있다. 이때, 이러한 키워드의 개수는 많을수록 특성이 높은 군집을 형성하는데 도움이 될 수 있으며, 예를 들어 사전구성부(170)는 약 10,000개 수준의 키워드를 추출하여 키워드사전을 구성할 수 있다.
키워드산출부(130)는 상기와 같이 사전구성부(170)가 구성하여 제2 저장부(122)에 저장되어 있는 키워드사전을 각각의 기업정보와 비교할 수 있으며, 이에 따라 이전 실시예에서 설명한 유무데이터나 빈도데이터를 산출할 수 있다.
도 11은 본 발명의 또 다른 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100c)의 세부구성을 나타낸 도면이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100c)에 대해 살펴보기로 한다. 여기서, 이전 실시예와 중복되는 구성은 동일한 도면부호로 지칭되며 이전 실시예와 중복되는 설명은 생략하기로 한다.
도 11에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100c)은 수집부(110), 저장부(120), 키워드산출부(130), 오토인코더부(140), 군집부(150), 및 레이블링부(160)를 포함하되, 레이블링부(160)가 제1 레이블링부(161)와 제2 레이블링부(162)를 포함할 수 있다.
레이블링부(160)는 이전 실시예에서 설명한 바와 같이 군집부(150)가 구성한 복수의 군집에 대하여 레이블링하는 부분으로서, 본 실시예에 따른 레이블링부(160)는 제1 레이블링부(161)와 제2 레이블링부(162)를 포함할 수 있다. 여기서, 제1 레이블링부(161)는 이전 실시예에서 설명한 바와 같이 군집에 속한 키워드벡터에 대응되는 기업의 신고된 표준산업분류 중 가장 많이 현출된 표준산업분류의 명칭을 기반으로 대분류명, 중분류명, 소분류명, 세분류명, 세세분류명을 레이블링할 수 있다. 즉, 제1 레이블링부(161)는 표준산업분류와 동일한 체계(세세분류명까지, 즉 대문자와 5자리의 숫자로 구성된 분류명까지)로 군집부(150)가 군집화한 군집에 대하여 레이블링을 할 수 있다.
한편, 제2 레이블링부(162)는 제1 레이블링부(161)가 레이블링한 세세분류에 대하여 한 번 더 세분화된 세세세분류명을 레이블링하는 부분이다(즉, 대문자와 6자리의 숫자로 구성된 분류명까지). 이러한 제2 레이블링부(162)는 제1 레이블링부(161)가 레이블링한 군집에 대하여 해당 군집에 속하는 기업 수가 많거나 또는 해당 군집이 "기타" 분류인 경우 유용할 수 있다. 예를 들어, 제1 레이블링부(161)가 표준산업분류명에 따라 어떤 군집에 대하여 "C31999 그 외 기타 달리 분류되지 않은 운송장비 제조업"으로 레이블링한 경우 제2 레이블링부(162)는 이에 대하여 한 번 더 세세세분류로 레이블링을 하여, 각각 "C319991 썰매 제조업", "C319992 카트 제조업", "C319993 세그웨이 제조업" 등으로 레이블링을 할 수 있다. 상기와 같이 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100c)은 기존의 표준산업분류 체계와는 달리 세세세분류까지 함으로써 "기타" 분류에 대해서도 더욱 상세한 분류가 가능하고 이에 따라 새로운 산업에 대해서도 정확한 분류가 가능할 수 있다. 따라서, 이러한 세세세분류에 속하는 기업을 명확하게 정비할 수 있고 경쟁사 정보나 산업내 위치 정보도 더욱 정확하게 제공할 수 있다.
한편, 제2 레이블링부(162)가 레이블링하기 이전에 한번 더 군집부(150)를 거쳐 세세분류에 분류되어 있는 키워드벡터를 더 세세하게 분류하는 과정을 거칠 수도 있다. 또는, 군집부(150)가 구성한 군집이 이미 세세세분류 수준인 경우, 제1 레이블링부(161)가 레이블링할 때 유사한 군집을 묶어 세세분류로 레이블링하고, 제2 레이블링부(162)는 세세세분류 수준으로 구성된 군집 자체에 레이블링하는 방식을 이용할 수도 있다.
도 12는 본 발명의 또 다른 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100d)의 세부구성을 나타낸 도면이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100d)에 대해 살펴보기로 한다. 여기서, 이전 실시예와 중복되는 구성요소는 동일한 도면부호로 지칭되며, 이전 실시예와 중복되는 설명은 생략하기로 한다.
도 12에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 시스템(100d)은 수집부(110), 저장부(120), 키워드산출부(130), 오토인코더부(140), 군집부(150), 레이블링부(160)를 포함하고, 정보출력부(180)를 더 포함할 수 있다.
여기서, 정보출력부(180)는 사용자 단말기(300; 도 1에 도시함)로부터 특정 기업의 경쟁사 정보 요청 또는 산업내 위치 정보 요청을 받으면, 이와 관련된 데이터를 출력해주는 부분이다. 먼저, 정보출력부(180)가 특정 기업의 경쟁사 정보 요청을 받는 경우 군집부(150)를 참조하여 해당 기업이 속한 군집을 파악하며, 해당 기업이 속한 군집에 속하는 다른 기업들을 경쟁사로 판단할 수 있다. 이러한 기업들을 모두 경쟁사로 출력할 수 있고 또는 경쟁사들 중 해당 기업과 매출액, 자산 또는 자본 등의 규모가 유사한 기업을 일부 추출하여 추출된 기업들만을 출력해주는 것도 가능할 수 있다. 또한, 정보출력부(180)가 특정 기업의 산업 내 위치 정보 요청을 받는 경우 군집부(150)를 참조하여 해당 기업이 속한 군집을 파악하며, 해당 군집에 속한 기업들을 예를 들어 매출액, 자산 또는 자본 등의 규모를 기준으로 순위화하여 이러한 순위를 사용자 단말기(300)의 화면에 표시해주거나 또는 선두그룹, 중간그룹, 하위그룹과 같은 형식으로 표시해줄 수 있다.
따라서, 사용자는 정보출력부(180)를 통해 경쟁사 정보와 산업내 위치 정보를 보다 정확하게 파악할 수 있으며, 이를 통해 더욱 정확한 기업 또는 산업 분석을 할 수 있다.
도 13은 본 발명의 일 실시예에 따른 오토인코더를 이용한 산업분류 방법을 나타낸 순서도이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 방법에 대해 살펴보기로 한다.
도 13에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 방법은 기업정보를 수집하는 단계(S110), 키워드사전을 저장하는 단계(S120), 유무데이터 또는 빈도데이터를 산출하는 단계(S130), 키워드벡터로 모델링하는 단계(S140), 군집을 구성하는 단계(S150), 및 레이블링하는 단계(S160)를 포함할 수 있다.
먼저, 복수 기업의 기업정보를 수집할 수 있다(S110). 이때, 기업정보는 전자공시정보, 신용평가정보 또는 기술평가정보, 특허정보, 뉴스정보, 또는 소셜네트워크정보일 수 있으며, 이에 대해 우선순위를 두어 기업정보를 수집하는 것도 가능할 수 있다.
다음, 키워드사전을 저장할 수 있다(S120). 기업의 제품/서비스/산업과 관련된 키워드를 임의로 선정하여 키워드사전을 구성하고 저장하는 경우, 본 단계가 기업정보를 수집하는 단계(S110) 이후에 이루어질 필요는 없으며 이전에 본 단계를 수행하여도 무관할 수 있다. 또한, 수집한 기업정보로부터 키워드를 추출하여 키워드사전을 구성하고 저장하는 경우에는, 기업정보를 수집하는 단계(S110) 이후에 본 단계를 수행할 필요가 있다.
다음, 각각의 기업정보와 키워드사전을 비교하여 각각의 기업정보에 대한 키워드의 유무를 나타내는 유무데이터 또는 빈도수를 나타내는 빈도데이터를 산출할 수 있다(S130). 이때, 키워드의 유무를 나타내는 유무데이터와 키워드의 빈도수를 나타내는 빈도데이터를 선택적으로 생성할 수 있으며, 각각의 기업정보는 본 단계를 통해 각각 유무데이터 또는 빈도데이터로 변환될 수 있다.
다음, 오토인코더를 통해 유무데이터 또는 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링할 수 있다(S140). 이때, 오토인코더를 통해 유무데이터 또는 빈도데이터의 차원을 복원 가능한 수준으로 감소시킬 수 있으며, 이에 따라 군집화할 때 데이터 처리가 용이해질 수 있다.
다음, 복수의 키워드벡터 간 유사성을 판단하여 유사한 키워드벡터끼리 묶어 복수의 군집을 구성할 수 있다(S150). 이때, k-means와 같은 군집분석 알고리즘을 통해 군집을 구성할 수 있으며, 이와 같이 본 실시예에 따른 오토인코더를 이용한 산업분류 방법은 신고된 표준산업분류를 기반으로 하는 것이 아니라 기업이 제공하는 제품/서비스/산업과 관련성이 높은 전자공시정보 등의 기업정보를 이용하여 군집화함으로써 보다 정확한 산업분류(군집)를 제공할 수 있다.
다음, 군집에 대한 산업분류명을 레이블링할 수 있다(S160). 이때, 레이블링하는 방식은 군집에 속한 키워드벡터에 대응되는 기업정보 중 빈도수가 높은 키워드로부터 도출하거나, 또는 군집에 속한 키워드벡터에 대응되는 기업들의 신고된 표준산업분류를 조사하여 가장 많이 현출된 표준산업분류의 명칭을 군집의 산업분류명으로 레이블링할 수 있다.
상기와 같은 방식으로 본 실시예에 따른 오토인코더를 이용한 산업분류 방법을 구현할 수 있다.
도 14는 본 발명의 다른 실시예에 따른 오토인코더를 이용한 산업분류 방법을 나타낸 순서도이다. 이하, 이를 참조하여 본 실시예에 따른 오토인코더를 이용한 산업분류 방법에 대해 살펴보기로 한다. 여기서, 이전 실시예와 중복되는 설명은 생략하기로 한다.
도 14에 도시한 바와 같이, 본 실시예에 따른 오토인코더를 이용한 산업분류 방법은 기업정보를 수집하는 단계(S110), 키워드사전을 저장하는 단계(S120), 유무데이터 또는 빈도데이터를 산출하는 단계(S130), 키워드벡터로 모델링하는 단계(S140), 군집을 구성하는 단계(S150), 제1 레이블링하는 단계(S161), 및 제2 레이블링하는 단계(S162)를 포함할 수 있다.
여기서, 기업정보를 수집하는 단계(S110)에서부터 군집을 구성하는 단계(S150)는 이전 실시예에서 설명한 부분과 중복되므로 생략하며, 이전 실시예와의 차이점인 레이블링하는 단계가 제1 레이블링하는 단계(S161)와 제2 레이블링하는 단계(S162)를 포함하는 것에 대해 살펴보기로 한다.
제1 레이블링하는 단계(S161)에서는 군집에 속한 키워드벡터에 대응되는 기업들의 신고된 표준산업분류 중 가장 많이 현출된 표준산업분류의 명칭으로 산업분류명을 레이블링하게 되는데, 구체적으로 본 단계에서 대분류명, 중분류명, 소분류명, 세분류명, 세세분류명이 레이블링될 수 있다.
다음, 제2 레이블링하는 단계(S162)에서는 세세세분류명이 레이블링되는데, 만일 본 단계 이전에 군집이 세세세분류 수준으로 분류되어 있는 경우 그대로 레이블링을 실행하면 되고, 만일 군집이 세세분류 수준까지로만 분류되어 있는 경우에는 다시 k-means 등의 군집분석 알고리즘을 통해 세세분류 수준의 군집을 세세세분류까지로 분류하는 과정이 필요하며, 이후 세세세분류까지 분류된 군집에 대하여 레이블링을 할 수 있다.
상기와 같은 방식으로 본 실시예에 따른 오토인코더를 이용한 산업분류 방법을 구현할 수 있다.
이상 본 발명을 구체적인 실시예를 통하여 상세히 설명하였으나, 이는 본 발명을 구체적으로 설명하기 위한 것으로, 본 발명에 따른 오토인코더를 이용한 산업분류 시스템 및 방법은 이에 한정되지 않으며, 본 발명의 기술적 사상 내에서 당해 분야의 통상의 지식을 가진 자에 의해 그 변형이나 개량이 가능함은 명백하다고 할 것이다.
본 발명의 단순한 변형 내지 변경은 모두 본 발명의 영역에 속하는 것으로 본 발명의 구체적인 보호 범위는 첨부된 특허청구범위에 의하여 명확해질 것이다.
100a, 100b, 100c, 100d : 오토인코더를 이용한 산업분류 시스템
110 : 수집부
111 : 기업정보
120 : 저장부
121 : 제1 저장부
122 : 제2 저장부
130 : 키워드산출부
131 : 유무데이터
132 : 빈도데이터
140 : 오토인코더부
141 : 키워드벡터
150 : 군집부
151 : 중심점
152 : 군집
160 : 레이블링부
161 : 제1 레이블링부
162 : 제2 레이블링부
170 : 사전구성부
171 : 키워드사전
172 : 키워드
180 : 정보출력부
200 : 외부 데이터 제공서버
300 : 사용자 단말기

Claims (20)

  1. 복수 기업의 기업정보를 수집하는 수집부;
    복수의 키워드를 포함하는 키워드사전이 저장되어 있는 저장부;
    각각의 상기 기업정보와 상기 키워드사전을 비교하여, 각각의 상기 기업정보에 대한 상기 키워드의 유무를 나타내는 유무데이터 또는 상기 키워드의 빈도수를 나타내는 빈도데이터를 산출하는 키워드산출부;
    오토인코더를 통해 상기 유무데이터 또는 상기 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링하는 오토인코더부;
    복수의 상기 키워드벡터 간 유사성을 판단하여 유사한 상기 키워드벡터끼리 묶어 복수의 군집을 구성하는 군집부; 및
    상기 군집에 대한 산업분류명을 레이블링하는 레이블링부;
    를 포함하는 오토인코더를 이용한 산업분류 시스템.
  2. 제1항에 있어서,
    상기 수집부가 수집하는 기업정보는 전자공시정보, 신용평가정보, 기술평가정보, 특허정보, 뉴스정보, 소셜네트워크정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  3. 제2항에 있어서,
    상기 수집부는,
    각각의 상기 기업에 대하여 먼저 상기 전자공시정보를 수집하고,
    상기 기업에 대한 상기 전자공시정보가 없으면 상기 기업에 대한 상기 신용평가정보 또는 상기 기술평가정보를 수집하며,
    상기 기업에 대한 상기 전자공시정보, 상기 신용평가정보 및 상기 기술평가정보가 없으면 상기 기업에 대한 상기 특허정보, 상기 뉴스정보, 상기 소셜네트워크정보를 수집하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  4. 제1항에 있어서,
    상기 저장부는,
    상기 수집부가 수집한 상기 기업정보가 저장되는 제1 저장부; 및
    상기 키워드사전이 저장되어 있는 제2 저장부;
    를 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  5. 제1항에 있어서,
    상기 수집부가 수집한 상기 기업정보로부터 복수의 상기 키워드를 추출하여 상기 키워드사전을 구성하는 사전구성부;
    를 더 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  6. 제5항에 있어서,
    상기 사전구성부는 전체 상기 기업정보 중 10~40%의 기업정보에서 등장하는 내용을 상기 키워드로 추출하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  7. 제1항에 있어서,
    상기 오토인코더부는 상기 유무데이터 또는 상기 빈도데이터의 차원을 감소시켜 부호화된 공간에서 상기 키워드벡터를 모델링하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  8. 제1항에 있어서,
    상기 군집부는 k-means 알고리즘을 이용하여 상기 군집을 구성하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  9. 제1항에 있어서,
    상기 레이블링부가 레이블링하는 상기 산업분류명은 대분류명, 중분류명, 소분류명, 세분류명, 및 세세분류명을 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  10. 제1항에 있어서,
    상기 레이블링부는 상기 군집에 속한 복수의 상기 키워드벡터에 대응되는 상기 기업의 신고된 표준산업분류명 중 가장 많이 현출된 표준산업분류명으로 상기 군집을 레이블링하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  11. 제1항에 있어서,
    상기 레이블링부는 제1 레이블링부와 제2 레이블링부를 포함하고,
    상기 제1 레이블링부는 대분류명, 중분류명, 소분류명, 세분류명, 및 세세분류명으로 상기 산업분류명을 레이블링하고,
    상기 제2 레이블링부는 세세세분류명으로 상기 산업분류명을 레이블링하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  12. 제11항에 있어서,
    상기 제1 레이블링부는 대문자와 숫자 5자리까지를 포함하는 상기 산업분류명을 레이블링하고,
    상기 제2 레이블링부는 대문자와 숫자 6자리까지를 포함하는 상기 산업분류명을 레이블링하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  13. 제1항에 있어서,
    상기 기업에 대한 경쟁사 정보 또는 산업 내 위치 정보 요청이 있으면 상기 요청에 따라, 요청한 상기 기업과 동일한 상기 군집에 속한 다른 기업을 경쟁사로 출력하거나, 요청한 상기 기업이 속한 상기 군집에서의 상기 기업의 상대적인 순위를 출력하는 정보출력부;
    를 더 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 시스템.
  14. 복수 기업의 기업정보를 수집하는 단계;
    복수의 키워드를 포함하는 키워드사전을 저장하는 단계;
    각각의 상기 기업정보와 상기 키워드사전을 비교하여, 각각의 상기 기업정보에 대한 상기 키워드의 유무를 나타내는 유무데이터 또는 상기 키워드의 빈도수를 나타내는 빈도데이터를 산출하는 단계;
    오토인코더를 통해 상기 유무데이터 또는 상기 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링하는 단계;
    복수의 상기 키워드벡터 간 유사성을 판단하여, 유사한 상기 키워드벡터끼리 묶어 복수의 군집을 구성하는 단계; 및
    상기 군집에 대한 산업분류명을 레이블링하는 단계;
    를 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
  15. 제14항에 있어서,
    상기 기업정보는 전자공시정보, 신용평가정보, 기술평가정보, 특허정보, 뉴스정보, 소셜네트워크정보 중 적어도 하나를 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
  16. 제14항에 있어서,
    상기 기업정보를 수집하는 단계 이후에,
    상기 기업정보로부터 복수의 상기 키워드를 추출하여 상기 키워드사전을 구성하는 단계;
    를 더 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
  17. 제14항에 있어서,
    상기 키워드벡터로 모델링하는 단계에서,
    상기 오토인코더는 상기 유무데이터 또는 상기 빈도데이터의 차원을 감소시켜 부호화된 공간에서 상기 키워드벡터를 모델링하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
  18. 제14항에 있어서,
    상기 복수의 군집을 구성하는 단계에서,
    k-means 알고리즘을 이용하여 상기 군집을 구성하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
  19. 제14항에 있어서,
    상기 군집에 대한 산업분류명을 레이블링하는 단계에서,
    상기 군집에 속한 상기 키워드벡터에 대응되는 상기 기업의 표준산업분류 중 가장 많이 현출된 표준산업분류의 명칭으로 상기 산업분류명을 레이블링하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
  20. 제14항에 있어서,
    상기 군집에 대한 산업분류명을 레이블링하는 단계는,
    대분류명, 중분류명, 소분류명, 세분류명, 및 세세분류명으로 상기 산업분류명을 제1 레이블링하는 단계; 및
    세세세분류명으로 상기 산업분류명을 제2 레이블링하는 단계;
    를 포함하는 것을 특징으로 하는 오토인코더를 이용한 산업분류 방법.
KR1020180036433A 2018-03-29 2018-03-29 오토인코더를 이용한 산업분류 시스템 및 방법 KR102041242B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180036433A KR102041242B1 (ko) 2018-03-29 2018-03-29 오토인코더를 이용한 산업분류 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180036433A KR102041242B1 (ko) 2018-03-29 2018-03-29 오토인코더를 이용한 산업분류 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190114166A true KR20190114166A (ko) 2019-10-10
KR102041242B1 KR102041242B1 (ko) 2019-11-07

Family

ID=68206808

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180036433A KR102041242B1 (ko) 2018-03-29 2018-03-29 오토인코더를 이용한 산업분류 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102041242B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241240A (zh) * 2020-01-08 2020-06-05 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN112163153A (zh) * 2020-09-30 2021-01-01 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN113033615A (zh) * 2021-03-01 2021-06-25 电子科技大学 一种基于在线微簇聚类的雷达信号目标实时关联方法
KR20220057040A (ko) * 2020-10-29 2022-05-09 충북대학교 산학협력단 단어 의미 모호성 해소를 위한 의미 압축 레이블 자동 생성 방법 및 이를 기록한 기록매체
KR20220068937A (ko) 2020-11-19 2022-05-26 한국과학기술원 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
KR102593054B1 (ko) * 2022-05-09 2023-10-24 한국과학기술정보연구원 임베딩 모델 성능 평가 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102498048B1 (ko) 2022-02-08 2023-02-10 (주)에이아이매틱스 이미지 생성 기술을 이용한 오토라벨 데이터의 자동 교정 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227426A (ja) * 2003-01-24 2004-08-12 Sompo Japan Insurance Inc 業種分類装置
KR101671889B1 (ko) * 2016-01-22 2016-11-03 한국과학기술정보연구원 기업정보 추출장치 및 추출방법
US20170344902A1 (en) * 2016-05-31 2017-11-30 Linkedin Corporation Parent Company Industry Classifier

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227426A (ja) * 2003-01-24 2004-08-12 Sompo Japan Insurance Inc 業種分類装置
KR101671889B1 (ko) * 2016-01-22 2016-11-03 한국과학기술정보연구원 기업정보 추출장치 및 추출방법
US20170344902A1 (en) * 2016-05-31 2017-11-30 Linkedin Corporation Parent Company Industry Classifier

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241240A (zh) * 2020-01-08 2020-06-05 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN111241240B (zh) * 2020-01-08 2023-08-15 中国联合网络通信集团有限公司 行业关键词提取方法及装置
CN112163153A (zh) * 2020-09-30 2021-01-01 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN112163153B (zh) * 2020-09-30 2024-05-03 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
KR20220057040A (ko) * 2020-10-29 2022-05-09 충북대학교 산학협력단 단어 의미 모호성 해소를 위한 의미 압축 레이블 자동 생성 방법 및 이를 기록한 기록매체
KR20220068937A (ko) 2020-11-19 2022-05-26 한국과학기술원 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
CN113033615A (zh) * 2021-03-01 2021-06-25 电子科技大学 一种基于在线微簇聚类的雷达信号目标实时关联方法
CN113033615B (zh) * 2021-03-01 2022-06-07 电子科技大学 一种基于在线微簇聚类的雷达信号目标实时关联方法
KR102593054B1 (ko) * 2022-05-09 2023-10-24 한국과학기술정보연구원 임베딩 모델 성능 평가 방법 및 장치

Also Published As

Publication number Publication date
KR102041242B1 (ko) 2019-11-07

Similar Documents

Publication Publication Date Title
KR102041242B1 (ko) 오토인코더를 이용한 산업분류 시스템 및 방법
CN111339306B (zh) 分类模型训练方法、分类方法及装置、设备和介质
Yu et al. Category-based deep CCA for fine-grained venue discovery from multimodal data
CN114930318B (zh) 使用来自多个分类模块的聚合信息对数据进行分类
CN109492772B (zh) 生成信息的方法和装置
CN113822494A (zh) 风险预测方法、装置、设备及存储介质
CN107430610B (zh) 从分布式数据学习
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN106445988A (zh) 一种大数据的智能处理方法和系统
CN110362663B (zh) 自适应多感知相似度检测和解析
CN111753087A (zh) 舆情文本分类方法、装置、计算机设备和存储介质
Li et al. Market impact analysis via deep learned architectures
Joshi et al. Python: Real world machine learning
CN114371946B (zh) 基于云计算和大数据的信息推送方法及信息推送服务器
Kaur et al. Analysis of tweets with emoticons for sentiment detection using classification techniques
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
Qasem et al. Extreme learning machine for credit risk analysis
US20200380405A1 (en) Data exposure for transparency in artificial intelligence
Ramon et al. Metafeatures-based rule-extraction for classifiers on behavioral and textual data
US20230367644A1 (en) Computing environment provisioning
Raman et al. Multigraph attention network for analyzing company relations
US20220156304A1 (en) Relationship discovery and quantification
Zafar Ali Khan et al. Hybrid Collaborative Fusion Based Product Recommendation Exploiting Sentiments from Implicit and Explicit Reviews

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right