KR20210030808A - 시장규모추정장치 및 그 동작 방법 - Google Patents

시장규모추정장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20210030808A
KR20210030808A KR1020190112446A KR20190112446A KR20210030808A KR 20210030808 A KR20210030808 A KR 20210030808A KR 1020190112446 A KR1020190112446 A KR 1020190112446A KR 20190112446 A KR20190112446 A KR 20190112446A KR 20210030808 A KR20210030808 A KR 20210030808A
Authority
KR
South Korea
Prior art keywords
product
similar
market size
information
text
Prior art date
Application number
KR1020190112446A
Other languages
English (en)
Other versions
KR102358357B1 (ko
Inventor
정예림
유형선
김지희
김한국
김은선
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020190112446A priority Critical patent/KR102358357B1/ko
Publication of KR20210030808A publication Critical patent/KR20210030808A/ko
Application granted granted Critical
Publication of KR102358357B1 publication Critical patent/KR102358357B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하기 위한 시장규모추정장치 및 그 동작 방법에 관한 것이다.

Description

시장규모추정장치 및 그 동작 방법{ESTIMATING APPARATUS FOR MARKET SIZE, AND CONTROL METHOD THEREOF}
본 발명은 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하기 위한 기술에 관한 것이다.
시장규모와 시장 성장률, 시장점유율과 같은 시장정보는 중소기업을 포함한 모든 기업의 사업 수행을 위해 가장 기초적이면서도 중요한 정보 중의 하나이다.
참여하고자 하는 시장의 규모와 형태는 사업의 성공 여부를 결정짓는 핵심적인 요소 중 하나이므로 기업들은 현재 영위 중인 사업이나 신규로 진출하고자 하는 사업에 대해 목표 시장의 규모가 얼마인지, 시장의 연평균 성장률은 얼마인지, 시장의 경쟁 현황이 독과점 상태는 아닌지 등 다양한 시장정보를 종합적으로 분석하여 사업 추진을 위한 여러 가지 의사결정을 내린다.
따라서 기업들에게 정확하고 신뢰성 있는 시장정보를 제공하는 것은 매우 중요하다고 할 수 있다.
특히 기업들은 현재 자신들이 판매하고 있는 제품이나 개발 예정인 신제품 등 특정한 제품에 대한 구체적인 시장규모 및 수요정보를 필요로 하는 데, 이는 국내외 시장 진입 시 가장 일차적으로 동일 또는 유사한 제품 범주 내에서 다른 기업의 제품들과 경쟁하기 때문이다.
그러나 통계청이나 각종 분야별 협회에서 발표하고 있는 기존의 시장통계 또는 시장조사 전문기관에서 발간하는 시장보고서의 경우, 여러 제품군들이 합쳐진 산업 수준의 큰 범위에서 시장규모를 집계하여 제공하는 경우가 대부분이기 때문에 상세한 품목 또는 제품 단위의 시장규모를 파악하기란 쉽지 않다.
일부 제품에 대해 상세한 제품군별 시장정보가 존재하기는 하지만 산업분야 별로 파편적이고 매우 제한적으로 존재하는 실정이며, 그 동안 전(全) 산업분야에 대해 제품 수준의 시장규모를 산출 및 제공하는 것은 어려움이 있었다.
따라서 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정함으로써 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 시장정보 수요자들에게 보다 구체적이고 실질적인 도움을 주는 것이 요구된다.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 시장규모추정장치는, 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집부; 상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성부; 및 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출부를 포함하는 것을 특징으로 한다.
구체적으로, 상기 시장규모추정장치는, 상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출부를 더 포함할 수 있다.
구체적으로, 상기 생성부는, 상기 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 상기 제품식별데이터를 분석할 수 있다.
구체적으로, 상기 제품식별데이터는, 제품명, 및 제품을 설명하는 제품속성 중 적어도 하나의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.
구체적으로, 상기 생성부는, 상기 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용하며, 상기 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용할 수 있다.
구체적으로, 상기 추출부는, 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있다.
구체적으로, 상기 산출부는, 상기 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출할 수 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 시장규모추정장치의 동작 방법은, 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집단계; 상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성단계; 및 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 방법은, 상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출단계를 더 포함할 수 있다.
구체적으로, 상기 생성단계는, 상기 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 상기 제품식별데이터를 분석할 수 있다.
구체적으로, 상기 제품식별데이터는, 제품명, 및 제품을 설명하는 제품속성 중 적어도 하나의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.
구체적으로, 상기 생성단계는, 상기 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용하며, 상기 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용할 수 있다.
구체적으로, 상기 추출단계는, 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있다.
구체적으로, 상기 산출단계는, 상기 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출할 수 있다.
이에, 본 발명의 시장규모추정장치 및 그 동작 방법에서는, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하므로, 현재 산업 수준의 넓은 범주로 집계 및 산출되는 시장규모를 보다 세분화하여 제품 수준의 상세한 시장규모를 추정할 수 있는 효과가 있다.
또한 사전에 정의된 분류체계나 기준이 부여되지 않은 제품 데이터로부터도 사용자가 관심 있는 특정 제품과 유사하거나 포함 관계에 있는 제품들이 무엇인지 쉽고 빠르게 추출할 수 있으며, 유사 제품의 범주를 조절함으로써 원하는 수준의 제품별 시장규모를 추정할 수 있는 효과가 있다.
또한 전(全) 산업분야에 걸쳐 국내 기업이 생산하는 모든 제품에 대한 제품별 시장규모 추정이 가능하기 때문에, 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 사업 주체를 포함한 시장정보 수요자들에게 보다 폭넓고 구체적인 맞춤형 정보를 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 시장 규모 추정 환경을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 시장규모추정장치의 구성을 설명하기 위한 구성도.
도 3은 본 발명의 일 실시예에 따른 워드투벡터 학습 결과를 도시한 예시도.
도 4는 본 발명의 일 실시예에 따른 유사제품군의 추출 결과를 도시한 예시도.
도 5는 본 발명의 일 실시예에 따른 시장규모의 산출 결과를 도시한 예시도.
도 6은 본 발명의 일 실시예에 따른 시장규모추정장치의 동작 방법을 설명하기 위한 순서도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 시장 규모 추정 환경을 개략적으로 보여주고 있다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 시장 규모 추정 환경은, 연구개발분야에 대한 분석 결과를 가시화된 정보의 형태로 제공하는 시장규모추정장치(100)를 포함할 수 있다.
시장규모추정장치(100)는 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군별 또는 유사한 제품군별 시장규모를 추정하기 위한 장치를 일컫는 것으로서, 예컨대, 유무선 통신망을 통해 접속 가능한 서버의 형태로 구현되거나, 또는 컴퓨터 시스템(예: 컴퓨터, 모바일 폰) 내 프로그램 형태로도 구현될 수 있다.
이러한 시장규모추정장치(100)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.
한편, 배경 기술에서 잠시 언급한 바와 같이, 기업들은 국내외 시장 진입 시 가장 일차적으로 동일 또는 유사한 제품 범주 내에서 다른 기업의 제품들과 경쟁하기 때문에 현재 자신들이 판매하고 있는 제품이나 개발 예정인 신제품 등 특정한 제품에 대한 구체적인 시장규모 및 수요정보를 필요로 하고 있다.
그러나 기업들이 실질적으로 필요로 하는 제품 수준의 시장규모를 추정하는 것은 다음과 같은 이유로 그 동안 많은 어려움이 있었다.
시장규모는 일반적으로 기업의 제품 생산량(출하량) 또는 생산액(출하액)을 조사하여 집계함으로써 산출되는 반면 동일한 제품군에 대해서도 기업별로 사용하는 제품의 명칭이 매우 다양하고 통일된 용어로 되어있지 않다.
따라서 제 각기 다른 명칭으로 존재하는 기업별 데이터를 동일 또는 유사한 제품군으로 분류하여 시장규모를 산출하기는 쉽지 않은 것이 현실이다.
특히 한 국가의 전체 시장규모를 추정해야 할 경우 해당 국가에서 생산되는 모든 제품을 포괄해야 하는데, 자연어로 존재하는 대량의 기업별 제품 정보를 사전에 정의된 분류 기준이나 체계 없이 제품군 단위로 구분하여 시장규모를 산출하기는 매우 어려운 실정이다.
이와 관련하여 통계청이나 각종 산업분야별 협회, 시장조사기관 등에서 발표하는 시장규모 통계를 살펴보면 대부분 품목분류코드나 생산물분류코드와 같이 사전에 정해진 특정한 분류체계를 기준으로 이용하고 있거나 산업범위를 기준으로 산출하여 제공되고 있다.
그러나 대부분의 분류체계는 상세하지 못하고 범위가 클 뿐만 아니라, 사전에 정의되고 자주 바뀌지 않는 분류체계의 특성상 새롭게 개발된 제품에 대해서는 적합한 분류체계가 존재하지 않는 등 정확한 분류가 어려운 경우가 많다.
따라서 개별 제품 데이터가 사전에 정의된 분류체계 중 적합한 항목이 없는 경우 혹은 제품 데이터에 분류체계나 기준이 사전에 부여되지 않은 경우에는 집계가 어려운 한계점이 있다.
더욱이 동일하거나 유사한 제품의 범위를 어디까지로 볼 것인지에 대해서도 시장규모를 파악하고자 하는 주체마다 모두 기준이 다르기 때문에, 개별 제품 데이터로부터 사전에 부여된 기준이나 체계에 한정되지 않고 사용자가 생각하는 기준에 따라 제품군을 분류하고, 그 범위를 조절할 수 있으며, 보다 상세한 제품 수준에서 시장규모를 산출할 수 있는 방법이 요구된다.
이에, 본 발명의 일 실시예에 따른 시장 규모 추정 환경에서는, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하고자 하는 것이며, 이하에서는 이를 실현하기 위한 시장규모추정장치의 구성에 대해 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 시장규모추정장치(100)의 구성을 보여주고 있다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 제품정보를 수집하는 수집부(10), 제품관계정보를 생성하는 생성부(20), 및 유사제품군을 추출하는 추출부(30)를 포함하는 구성을 가질 수 있다.
또한, 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 전술한 구성 외에, 시장규모를 산출하는 산출부(40)의 구성을 더 포함할 수 있다.
이상의 수집부(10), 생성부(20), 추출부(30), 및 산출부(40)를 포함하는 시장규모추정장치(100)의 전체 구성 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.
여기서, 소프트웨어 모듈이란, 예컨대, 시장규모추정장치(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 시장규모추정장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.
한편, 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 전술한 구성 이외에, 유무선 통신망 접속을 지원하기 위한 통신 기능을 담당하는 RF 모듈인 통신부(50)의 구성을 더 포함할 수 있다.
여기서, 통신부(15)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.
이상 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 전술한 구성을 통해서, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정할 수 있는데, 이하에서는 이를 실현하기 위한 시장규모추정장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.
수집부(10)는 기업의 생산 제품 각각에 대해 제품정보를 수집하는 기능을 수행한다.
보다 구체적으로, 수집부(10)는 국내외 존재하는 다수의 데이터베이스로부터 기업의 생산 제품 각각에 대해 제품정보를 수집한다.
여기서, 데이터베이스는, 예컨대, 정부부처 및 공공기관의 공공데이터(통계청의 전국사업체조사, 경제총조사, 광업 및 제조업조사 마이크로데이터, 관세청의 무역액 데이터 등), 국내외에 공표된 시장통계 원시데이터, 민간의 기업신용평가 및 재무 데이터, 개별기업의 공시자료, IR 자료 등을 포함할 수 있다.
이러한 데이터베이스로부터 수집되는 제품정보에는 예컨대, 제품명 및 해당 제품의 생산액(생산량), 출하액(출하량), 및 매출액(매출량) 정보 등이 포함될 수 있다.
예를 들어, 통계청에서 조사 및 발표하는 경제총조사 마이크로데이터를 수집하는 경우, 조사 항목 중에서는 사업체 고유번호, 전체 매출액, 사업의 종류, 생산제품명칭, 전체 매출액 중 개별 사업의 매출액 비중, 산업분류부호(품목분류부호), 품목분류명, 제품명, 연간 제품 출하액, 수출액, 연초 재고액, 연말 재고액 등의 데이터를 수집할 수 있으며, 조사 대상 중에서는 전체 조사대상(한국표준산업분류 대분류 기준 T(자가소비), U(외국기관)를 제외한 모든 산업의 사업체(전국 약 340만개))에 대한 데이터를 수집할 수 있다.
생성부(20)는 제품정보의 텍스트 분석한 제품관계정보를 생성하는 기능을 수행한다.
보다 구체적으로, 생성부(20)는 제품정보의 수집이 완료되면, 텍스트 마이닝 기법을 이용한 제품정보의 텍스트 분석 결과에 따라 제품 간의 연관 관계를 나타내는 제품관계정보를 생성한다.
여기서, 제품관계정보란, 텍스트 마이닝 기법에 따라 제품정보가 포함하는 텍스트(예: 제품명)에 대해 자연어 처리, 수치화, 벡터화 등을 수행하여 텍스트 간 연관 관계를 도출한 결과로서 이해될 수 있다.
이를 위해, 생성부(20)는 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법을 선택하여, 선택된 텍스트 마이닝 기법에 따라 제품식별데이터를 분석할 수 있다.
여기서, 제품식별데이터는 예컨대, 제품명, 및 제품을 설명하는 제품속성(설명자료) 중 적어도 하나를 포함할 수 있으며, 이러한 제품식별데이터는, 제품명 또는 제품속성의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.
이때, 생성부(20)는 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용할 수 있으며, 또한 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용하는 것이 가능하다.
여기서, 본 발명의 일 실시예에 따라 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 텍스트 마이닝 기법으로는 예컨대, 워드투벡터(Word2Vec) 알고리즘이 적용될 수 있다.
워드투벡터(Word2Vec) 알고리즘은 분포 가설에 기반하여 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 워드 임베딩(Word Embedding) 방식으로, 워드투벡터 알고리즘을 적용하여 유사한 의미를 가지는 제품명끼리 가까운 벡터 공간에 위치하도록 벡터화하고, 제품명 간의 의미 관계를 파악할 수 있다.
이러한 워드투벡터 알고리즘은 학습데이터의 양이 많을수록 추론의 정확도가 높아지는 특징이 있기 때문에, 학습데이터로서 상기 데이터 수신부에서 수집한 제품 관련 데이터, 한국어 어휘에 대해 사전에 학습된 데이터(pretrained model), 각종 산업·시장분석 보고서, 뉴스 기사, 위키피디아, 백과사전 등의 텍스트 데이터, 소셜 네트워크 서비스의 텍스트 데이터 등 대용량 데이터를 학습 데이터로 포함할 수 있다.
한편, 이와 관련하여 도3에서는 본 발명의 일 실시예에 따른 워드투벡터 학습 결과에 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 적용한 것으로서, 차원을 축소하여 시각화한 결과를 예시적으로 확인할 수 있다.
이처럼, 본 발명의 일 실시예에서는 다차원 벡터 공간에 매핑한 제품명을 차원축소 알고리즘을 적용하여 2차원으로 축소시킴으로써 유사한 제품명끼리 클러스터링이 되었는지 시각적으로 확인하는 것이 가능하다.
또한, 본 발명의 일 실시예에서 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법으로는, 예컨대, 단어 간 유사도 분석이 적용될 수 있다.
단어 간 유사도 분석의 경우, 제품명을 음절 단위로 쪼개어 하나의 문서로 만들고, 각 음절을 하나의 단어로 간주하여 문서-단어 행렬을 만들 수 있다.
즉, 특정 음절이 등장했을 때 또 다른 특정 음절이 동시에 등장하는 지에 대한 연관관계를 피어슨 상관계수 등을 통해 계산함으로써 특정한 제품명(기준 제품명)과 유사한 제품명을 연관 관계가 높은 순서대로 추출할 수 있는 것이다.
그리고, 본 발명의 일 실시예에 따라 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법으로는 예컨대, 토픽 모델링(Topic Modeling)이 적용될 수 있다.
토픽 모델링은 비정형 텍스트에서 주제를 탐색하는 텍스트 마이닝 기법 중 하나로, 제품에 대한 문서로부터 키워드를 추출하고, 공통된 키워드를 가지는 문서를 유사한 제품 그룹으로 분류할 수 있다.
결국, 생성부(20)는 제품정보 내 제품식별데이터의 텍스트 특성에 상응하도록 선택되는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 벡터화 등을 수행함으로써, 제품 간 연관 관계를 나타내는 제품관계정보를 생성할 수 있는 것이다.
이하에서는, 본 발명의 일 실시예에 따라 서로 다른 텍스트 마이닝 기법이 적용되는 예시적인 상황들을 살펴볼 수 있다.
예를 들어, 제품정보에 일차적인 카테고리 분류 정보나 판매처/거래처 정보가 있는 경우, 또는 제품 속성에 대한 메타데이터가 존재하거나 제품 데이터셋에 일정한 기준에 따른 순서가 존재하는 경우에는 워드투벡터 알고리즘을 적용할 수 있으며, 또한 제품명에 유사한 단어가 많이 사용되었거나, 동일한 어근으로부터의 파생어나 합성어로 이루어진 경우 등 제품명간에 언어적인 특성이 두드러진 경우에는 제품명간 유사도 분석 알고리즘을 적용할 수 있다.
아울러, 제품명이 제품에 대한 정확한 의미나 개념을 충분히 표현하지 못하는 경우, 또는 제품에 대한 정의를 포함하여 제품의 내용을 보다 상세하게 설명하는 문서 형태의 데이터가 존재하는 경우에는 토픽 모델링 알고리즘을 적용할 수 있다.
한편, 본 발명의 일 실시예에서는 모델의 성능 향상을 위해 다양한 텍스트 마이닝 알고리즘을 선택적으로 결합하거나, 개별 알고리즘의 성능 평가를 통해 특정 알고리즘에 가중치를 주어 결합한 혼성 모델(hybrid model)을 적용하는 것도 가능하다.
즉, 동일한 조건에서 단일 알고리즘의 실험 결과를 비교함으로써 성능이 좋은 알고리즘 순으로 더 높은 가중치를 부여하여 혼성 모델을 생성하거나, 하나의 알고리즘으로 얻은 결과를 또 다른 알고리즘에 다시 반영함으로써 반복적으로 모델링을 수행하는 방법 등을 활용할 수 있는 것이다.
여기서 모델의 성능 평가는 예컨대, 시장규모 정보가 이미 공표되어 존재하는 품목들에 대해, 공표된 수치와 일정한 조건 하에서 각 모델들의 시장규모 추정 결과값 사이의 손실함수(평균제곱오차, 교차엔트로피오차 등) 및 상관계수 등을 비교함으로써 평가할 수 있다.
예를 들어, 통계청 경제총조사 마이크데이터에 워드투벡터 알고리즘을 적용하여 벡터 공간에 임베딩 하는 경우, 정제되지 않은 제품명(문장 또는 명사 및 서술어의 집합)에 대해서는 먼저 형태소 분석을 통해 명사만을 추출할 수 있다. 그 후 정제된 제품명을 제품 정보에 존재하는 상품 분류 또는 카테고리 정보 등을 활용하여 제품명에 일차적으로 분류 정보를 부여할 수 있을 것이다.
즉, 제품에 부여된 한국표준산업분류(KSIC)부호에 따라 동일한 산업분류/품목분류에 포함되는 제품명끼리 하나의 문서에 존재하도록 나열한 후, 워드투벡터 알고리즘을 적용하여 학습시킴으로써 유사한 의미를 가지는 제품명끼리 근접한 벡터 공간에 위치하도록 벡터화 할 수 있다.
이때, 동일한 분류에 포함되는 제품명들을 하나의 문서에 나열 시, 정렬 기준을 포함한 사전에 정의한 규칙 부여, 제품의 속성 정보를 활용한 순서 부여 등을 통해 워드투벡터 학습의 성능을 향상시킬 수 있을 것이며, 또한 워드투벡터 알고리즘 파라미터와 조건의 최적화 등을 통해 정확도/신뢰도를 포함한 모델의 전반적인 워드투벡터 학습의 성능을 향상을 기대해 볼 수 있다.
추출부(30)는 유사제품군을 추출하는 기능을 수행한다.
보다 구체적으로, 추출부(30)는 제품 간 연관 관계를 나타내는 제품관계정보의 생성이 완료되면, 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하게 된다.
다시 말해, 추출부(30)는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 및 벡터화된 결과인 제품관계정보를 이용하여 제품 간의 유사도가 기준수치 이상인 유사제품군을 추출하고 있는 것이다.
이때, 추출부(30)는 제품관계정보가 벡터화된 결과인 경우, 벡터화된 제품명을 기초로 제품명간 거리(유사도) 계산을 통해 특정한 제품명과의 거리가 미리 설정한 기준값 이내에 존재하는 제품명들을 유사제품군으로 추출할 수 있다.
여기서, 제품명간 거리는 코사인거리, 유클리드거리, 맨하탄거리 등의 방식으로 계산할 수 있으며, 유사도 판단의 기준이 되는 기준 제품명의 경우, 사용자가 입력한 불특정 제품명, 또는 추출 기준 제품명으로 사용할 데이터가 있을 경우에는 이를 활용할 수 있다.
참고로, 이처럼 기준 제품명으로 사용할 데이터는 텍스트 마이닝 단계에서 분석 대상으로 병합하여 처리되어야 함은 물론이다.
또한, 추출부(30)는 수치화/벡터화된 제품명을 기초로 기계학습 알고리즘을 이용하여 유사제품군을 추출할 수 있다.
이때, 추출부(30)는 예컨대, k-평균 클러스터링(k-means clustering), 계층적 클러스터링(Hierarchical clustering), 밀도 기반 클러스터링(DBSCAN; Density-based spatial clustering of applications with noise) 등을 이용하여 유사한 제품 간의 그룹을 군집화할 수 있다.
예를 들어, 벡터화/좌표화된 제품명 데이터의 분포 형태가 구형이면서 유사한 형태를 보이는 경우(분산이 비슷할 경우) 또는 제품 데이터의 용량이 대용량일 경우에는 k-평균 클러스터링 알고리즘을 적용할 수 있으며, 각 제품 데이터의 좌표상 분포 밀도에 차이가 뚜렷한 경우, 다른 데이터들과 멀리 떨어져 있는 이상치가 특정 비율 이상으로 많이 존재하는 경우에는 밀도 기반 클러스터링 알고리즘을 적용할 수 있는 것이다.
만약, 단어간 유사도 분석을 통해 제품명간 유사도를 측정한 경우라면 가장 하위 단계에서 유사도가 높은 제품명끼리 군집을 형성하고, 다시 유사도가 높은 군집 쌍끼리 그룹화 하여 하위 계층에서부터 상위 계층으로 순차적으로 군집화 하고자 할 경우에는 계층적 클러스터링 알고리즘을 적용할 수 있다.
여기서의 클러스터링 알고리즘은 사전 레이블(label) 없이 주어진 데이터들을 가장 잘 설명하는 클러스터를 찾아서 유사한 데이터를 하나의 그룹으로 군집화 하는 비지도(unsupervised) 방식의 기계학습 알고리즘일 수 있으며, 이 경우 군집된 제품명 중 가장 출현 빈도가 높은 제품명을 대표 제품명으로 선택하거나 사람이 직접 선택하는 등의 방법에 따라 해당 군집의 대표적 제품명을 선정할 수 있다.
반대로 제품명 분류에 사용할 사전 레이블(label)이 있는 경우라면, 최근접 이웃 알고리즘(k-NN; k-Nearest Neighbor), 로지스틱 회귀(logistic regression), 서포트 벡터 머신(SVM; Support Vector Machine), 랜덤 포레스트(Random forest) 등의 지도(supervised) 방식의 기계학습 알고리즘을 이용하여 사전 레이블에 따라 제품군을 분류할 수 있다.
한편, 추출부(30)는 이처럼 유사제품군 추출함에 있어서, 미리 설정한 유사도 기준수치를 조절함으로써 원하는 수준으로 유사 제품의 범위를 조절할 수 있다.
다시 말해, 추출부(30)는 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하는 방식을 통해 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있는 것이다.
예를 들어, 특정한 유사도 기준수치를 적용하여 추출된 제품명을 확인하고, 사용자가 이에 만족할 시 후속 단계를 진행하며, 만족하지 않을 시 유사도 기준수치를 증가 또는 감소시킴으로써 입력한 제품명에 대한 유사 제품명을 다시 추출할 수 있는 것이다.
만약, 기계학습 알고리즘을 적용한 경우에는 군집 개수를 직접 선택하여 조절하거나, 각 알고리즘 함수에서 찾아준 최적의 군집 개수를 적용하거나, 각 알고리즘별 모델의 성능 평가(정확도, 오류율, 민감도, 특이도, 정밀도, 재현율 등) 결과를 반영함으로써 유사 제품의 범주를 조절하는 것이 가능하다.
이와 관련하여, 도 4에는 제품명간 유사도 계산을 통해 유사제품군을 추출한 경우를 예시적으로 보여주고 있다.
도 4 (a)에 도시된 바와 같이, 사용자가 입력한 제품명(target_word)이 ‘ABS수지’일 경우, 특정한 코사인 유사도 수치(0.85)를 기준으로 유사제품명(sim_word)을 추출한 결과, ‘ABS수지’, ‘ABS플라스틱’, ‘ABSresin’, ‘난연ABS수지’, ‘내열ABS수지’, ‘강화ABS수지’, ‘열가소성수지’, ‘열가소성플라스틱’ 등이 유사한 제품명으로 추출되며, 이들의 코사인 유사도 수치(cos_sim)와 추출된 제품에 대한 출하액 합산 결과를 확인할 수 있다(sum_sales).
이에 대해, 유사 제품의 범주를 확대/축소하고 싶을 경우, 코사인 유사도 기준수치를 하향/상향시킬 수 있으며, 0.9로 조절 시 도 4 (b)에서와 같이 추출된 제품명(sim_word) 및 출하액 산출 결과(sum_sales)가 변경될 수 있다.
산출부(40)는 유사제품군의 시장규모를 산출하는 기능을 수행한다.
보다 구체적으로, 산출부(40)는 유사제품군이 추출되면, 유사제품군에 속하는 각 제품의 제품정보로부터 제품의 생산, 출하, 및 매출 중 적어도 하나의 금액과 관련된 수치데이터를 추출하고, 추출된 수치데이터를 취합하는 방식을 통해 유사제품군의 시장규모를 산출하게 된다.
즉, 산출부(40)는 유사제품군에 속하는 각 제품의 제품정보로부터 생산량(생산액), 출하량(출하액), 매출량(매출액)을 추출하여, 추출된 수치데이터를 합산함으로써, 생산규모, 출하규모, 또는 매출규모 등에 해당하는 시장규모를 산출할 수 있는 것이다.
한편, 본 발명의 일 실시예에 따르면, 일정한 유사도 수치를 기준으로 추출된 유사제품군과 동일한 제품군에 대한 시장규모 정보가 이미 공표되어 존재하는 경우, 산출된 시장규모 수치와 공표된 시장규모 수치를 비교하고, 수치 비교 결과 사전에 이상치로 정의한 기준 비율 이상으로 차이가 있을 경우, 공표된 시장규모 수치로 대체하는 작업을 수행할 수 있다.
또한 보다 정확한 시장규모의 추정을 위해 다양한 방식의 보정 작업을 추가로 수행할 수 있는데, 유사도 수치를 기준으로 유사도가 낮은 제품일수록 생산액/출하액/매출액에 가중치를 작게 부여하는 방식으로 보정 작업을 수행하여 시장규모를 산출할 수 있다.
다시 말해, 산출부(40)는 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 보다 정확한 시장규모를 산출할 수 있는 것이다.
뿐만 아니라, 본 발명의 일 실시예에서는 시장정보의 일환으로서, 제품명에 연결된 기업에 대한 정보를 기초로 해당 제품 시장에 참여하고 있는 경쟁기업의 수 및 경쟁기업 정보를 산출할 수 있으며, 기업별 출하액을 토대로 해당 제품 시장의 기업별 시장점유율과 시장집중도, 그리고 연도별 데이터를 연계하여 시장규모 수치의 변화량을 계산함으로써 시장 성장률을 산출할 수 있으며, 나아가 동일한 제품군에 대해 무역액(수출/수입액)과의 연계를 통해 수요 기반의 내수 시장규모를 추정하고, 시계열 분석을 통해 미래 시장규모를 예측할 수 있다.
이와 관련하여, 도 5에는 본 발명의 일 실시예에 따른 시장규모의 산출 결과를 예시적으로 보여주고 있다.
도 5에 도시된 바와 같이, 입력한 제품명이‘강화플라스틱제 기계류 구성부품’일 경우, 특정한 유사도 기준수치를 적용하여 유사한 제품명을 추출한 결과, ‘강화플라스틱 기계 부품’, ‘강화 플라스틱 부품’, ‘냉장고용 강화플라스틱 부품’, ‘세탁기용 강화플라스틱 부품’, ‘에어컨용 강화플라스틱 부품’, ‘청소기용 강화플라스틱 부품’, ‘가습기용 강화플라스틱 부품’이 추출된 것을 확인할 수 있으며, 이들의 개별 출하액 정보를 연산하여 ‘강화플라스틱제 기계류 구성부품’에 대한 국내 기업의 출하규모를 추정할 수 있다. 또한 ‘강화플라스틱제 기계류 구성부품’제품을 출하하는 국내 기업의 수를 산출할 수 있으며, 연도별 데이터를 연계하여 일정 기간 동안의 ‘강화플라스틱제 기계류 구성부품’ 시장의 연평균 성장률을 산출할 수 있음을 확인할 수 있다.
이상에서 살펴본 바와 같이 본 발명의 일 실시예에 따른 시장규모추정장치(100)의 구성에 따르면, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하므로, 현재 산업 수준의 넓은 범주로 집계 및 산출되는 시장규모를 보다 세분화하여 제품 수준의 상세한 시장규모를 추정할 수 있다. 또한 사전에 정의된 분류체계나 기준이 부여되지 않은 제품 데이터로부터도 사용자가 관심 있는 특정 제품과 유사하거나 포함 관계에 있는 제품들이 무엇인지 쉽고 빠르게 추출할 수 있으며, 유사 제품의 범주를 조절함으로써 원하는 수준의 제품별 시장규모를 추정할 수 있다. 또한 전(全) 산업분야에 걸쳐 국내 기업이 생산하는 모든 제품에 대한 제품별 시장규모 추정이 가능하기 때문에, 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 사업 주체를 포함한 시장정보 수요자들에게 보다 폭넓고 구체적인 맞춤형 정보를 제공할 수 있다.
이하에서는, 도 6을 참조하여 시장규모추정장치(100)의 동작 방법에 대한 설명을 이어 가기로 한다.
먼저, 수집부(10)는 국내외 존재하는 다수의 데이터베이스로부터 기업의 생산 제품 각각에 대해 제품정보를 수집한다(S10).
이때, 수집부(10)는 예컨대, 정부부처 및 공공기관의 공공데이터(통계청의 전국사업체조사, 경제총조사, 광업 및 제조업조사 마이크로데이터, 관세청의 무역액 데이터 등), 국내외에 공표된 시장통계 원시데이터, 민간의 기업신용평가 및 재무 데이터, 개별기업의 공시자료, IR 자료 등을 포함하는 데이터베이스로부터 예컨대, 제품명, 해당 제품의 생산액(생산량), 출하액(출하량), 매출액(매출량) 정보 등을 포함하는 제품정보를 수집할 수 있다.
그리고 나서, 생성부(20)는 제품정보의 수집이 완료되면, 텍스트 마이닝 기법을 적용한 제품정보의 텍스트 분석 결과에 따라 제품 간의 연관 관계를 나타내는 제품관계정보를 생성한다(S20-S50).
여기서, 제품관계정보란, 텍스트 마이닝 기법에 따라 제품정보가 포함하는 텍스트(예: 제품명)에 대해 자연어 처리, 수치화, 벡터화 등을 수행하여 텍스트 간 연관 관계를 도출한 결과로서 이해될 수 있다.
이를 위해, 생성부(20)는 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하고, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 제품식별데이터를 분석할 수 있다.
여기서, 제품식별데이터는 예컨대, 제품명, 및 제품을 설명하는 제품속성(제품 설명) 중 적어도 하나를 포함할 수 있으며, 이러한 제품식별데이터는, 제품명 또는 제품속성의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.
이때, 생성부(20)는 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용할 수 있으며, 또한 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용하는 것이 가능하다.
여기서, 본 발명의 일 실시예에 따라 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 텍스트 마이닝 기법으로는 예컨대, 워드투벡터(Word2Vec) 알고리즘이 적용될 수 있다.
워드투벡터(Word2Vec) 알고리즘은 분포 가설에 기반하여 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 워드 임베딩(Word Embedding) 방식으로, 워드투벡터 알고리즘을 적용하여 유사한 의미를 가지는 제품명끼리 가까운 벡터 공간에 위치하도록 벡터화하고, 제품명 간의 의미 관계를 파악할 수 있다.
이러한 워드투벡터 알고리즘은 학습데이터의 양이 많을수록 추론의 정확도가 높아지는 특징이 있기 때문에, 학습데이터로서 상기 데이터 수신부에서 수집한 제품 관련 데이터, 한국어 어휘에 대해 사전에 학습된 데이터(pretrained model), 각종 산업·시장분석 보고서, 뉴스 기사, 위키피디아, 백과사전 등의 텍스트 데이터, 소셜 네트워크 서비스의 텍스트 데이터 등 대용량 데이터를 학습 데이터로 포함할 수 있다.
한편, 이와 관련하여 도2에서는 본 발명의 일 실시예에 따른 워드투벡터 학습 결과에 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 적용한 것으로서, 차원을 축소하여 시각화한 결과를 예시적으로 확인할 수 있다.
이처럼, 본 발명의 일 실시예에서는 다차원 벡터 공간에 매핑한 제품명을 차원축소 알고리즘을 적용하여 2차원으로 축소시킴으로써 유사한 제품명끼리 클러스터링이 되었는지 시각적으로 확인하는 것이 가능하다.
또한, 본 발명의 일 실시예에서 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법으로는, 예컨대, 단어 간 유사도 분석이 적용될 수 있다.
단어 간 유사도 분석의 경우, 제품명을 음절 단위로 쪼개어 하나의 문서로 만들고, 각 음절을 하나의 단어로 간주하여 문서-단어 행렬을 만들 수 있다.
즉, 특정 음절이 등장했을 때 또 다른 특정 음절이 동시에 등장하는 지에 대한 연관관계를 피어슨 상관계수 등을 통해 계산함으로써 특정한 제품명(기준 제품명)과 유사한 제품명을 연관 관계가 높은 순서대로 추출할 수 있는 것이다.
그리고, 본 발명의 일 실시예에 따라 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법으로는 예컨대, 토픽 모델링(Topic Modeling)이 적용될 수 있다.
토픽 모델링은 비정형 텍스트에서 주제를 탐색하는 텍스트 마이닝 기법 중 하나로, 제품에 대한 문서로부터 키워드를 추출하고, 공통된 키워드를 가지는 문서를 유사한 제품 그룹으로 분류할 수 있다.
결국, 생성부(20)는 제품정보 내 제품식별데이터의 텍스트 특성에 상응하도록 선택되는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 벡터화 등을 수행함으로써, 제품 간 연관 관계를 나타내는 제품관계정보를 생성할 수 있는 것이다.
나아가, 추출부(30)는 제품 간 연관 관계를 나타내는 제품관계정보의 생성이 완료되면, 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출한다(S60).
다시 말해, 추출부(30)는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 및 벡터화된 결과인 제품관계정보를 이용하여 제품 간의 유사도가 기준수치 이상인 유사제품군을 추출하고 있는 것이다.
이때, 추출부(30)는 벡터화된 제품명을 기초로 제품명간 거리(유사도) 계산을 통해 특정한 제품명과의 거리가 미리 설정한 기준값 이내에 존재하는 제품명들을 유사제품군으로 추출할 수 있다.
여기서, 제품명간 거리는 코사인거리, 유클리드거리, 맨하탄거리 등의 방식으로 계산할 수 있으며, 유사도 판단의 기준이 되는 기준 제품명의 경우, 사용자가 입력한 불특정 제품명, 또는 추출 기준 제품명으로 사용할 데이터가 있을 경우에는 이를 활용할 수 있다.
참고로, 이처럼 기준 제품명으로 사용할 데이터는 텍스트 마이닝 단계에서 분석 대상으로 병합하여 처리되어야 함은 물론이다.
또한, 추출부(30)는 수치화/벡터화된 제품명을 기초로 기계학습 알고리즘을 이용하여 유사제품군을 추출할 수 있다.
이때, 추출부(30)는 예컨대, k-평균 클러스터링(k-means clustering), 계층적 클러스터링(Hierarchical clustering), 밀도 기반 클러스터링(DBSCAN; Density-based spatial clustering of applications with noise) 등을 이용하여 유사한 제품 간의 그룹을 군집화할 수 있다.
예를 들어, 벡터화/좌표화된 제품명 데이터의 분포 형태가 구형이면서 유사한 형태를 보이는 경우(분산이 비슷할 경우) 또는 제품 데이터의 용량이 대용량일 경우에는 k-평균 클러스터링 알고리즘을 적용할 수 있으며, 각 제품 데이터의 좌표상 분포 밀도에 차이가 뚜렷한 경우, 다른 데이터들과 멀리 떨어져 있는 이상치가 특정 비율 이상으로 많이 존재하는 경우에는 밀도 기반 클러스터링 알고리즘을 적용할 수 있는 것이다.
만약, 단어간 유사도 분석을 통해 제품명간 유사도를 측정한 경우라면 가장 하위 단계에서 유사도가 높은 제품명끼리 군집을 형성하고, 다시 유사도가 높은 군집쌍끼리 그룹화 하여 하위 계층에서부터 상위 계층으로 순차적으로 군집화 하고자 할 경우에는 계층적 클러스터링 알고리즘을 적용할 수 있다.
한편, 추출부(30)는 이처럼 유사제품군 추출함에 있어서, 미리 설정한 유사도 기준수치를 조절함으로써 원하는 수준으로 유사 제품의 범위를 조절할 수 있다(S70-S80).
다시 말해, 추출부(30)는 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하는 방식을 통해 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있는 것이다.
예를 들어, 특정한 유사도 기준수치를 적용하여 추출된 제품명을 확인하고, 사용자가 이에 만족할 시 후속 단계를 진행하며, 만족하지 않을 시 유사도 기준수치를 증가 또는 감소시킴으로써 입력한 제품명에 대한 유사 제품명을 다시 추출할 수 있는 것이다.
만약, 기계학습 알고리즘을 적용한 경우에는 군집 개수를 직접 선택하여 조절하거나, 각 알고리즘 함수에서 찾아준 최적의 군집 개수를 적용하거나, 각 알고리즘별 모델의 성능 평가(정확도, 오류율, 민감도, 특이도, 정밀도, 재현율 등) 결과를 반영함으로써 유사 제품의 범주를 조절하는 것이 가능하다.
이후, 산출부(40)는 유사제품군이 추출되면, 유사제품군에 속하는 각 제품의 제품정보로부터 제품의 생산, 출하, 및 매출 중 적어도 하나의 금액과 관련된 수치데이터를 추출하고, 추출된 수치데이터를 취합하는 방식을 통해 유사제품군의 시장규모를 산출하게 된다(S90-S110).
즉, 산출부(40)는 유사제품군에 속하는 각 제품의 제품정보로부터 생산량(생산액), 출하량(출하액), 매출량(매출액)을 추출하여, 추출된 수치데이터를 합산함으로써, 생산규모, 출하규모, 또는 매출규모 등에 해당하는 시장규모를 산출할 수 있는 것이다.
한편, 본 발명의 일 실시예에 따르면, 유사제품군에 대한 시장규모 정보가 이미 공표되어 존재하는 경우, 일정한 유사도 수치를 기준으로 추출된 시장규모 수치와 공표된 시장규모 수치를 비교하여 사전에 이상치로 정의한 기준 비율 이상으로 차이가 있을 경우, 공표된 시장규모 수치로 대체하는 작업을 수행할 수 있다.
또한 보다 정확한 시장규모의 추정을 위해 다양한 방식의 보정 작업을 추가로 수행할 수 있는데, 유사도 수치를 기준으로 유사도가 낮은 제품일수록 생산액/출하액/매출액에 가중치를 작게 부여하는 방식으로 보정 작업을 수행하여 시장규모를 산출할 수 있다.
다시 말해, 산출부(40)는 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 보다 정확한 시장규모를 산출할 수 있는 것이다.
뿐만 아니라, 본 발명의 일 실시예에서는 시장정보의 일환으로서, 제품명에 연결된 기업에 대한 정보를 기초로 해당 제품 시장에 참여하고 있는 경쟁기업의 수 및 경쟁기업 정보를 산출할 수 있으며, 기업별 출하액을 토대로 해당 제품 시장의 기업별 시장점유율과 시장집중도, 그리고 연도별 데이터를 연계하여 시장규모 수치의 변화량을 계산함으로써 시장 성장률을 산출할 수 있으며, 나아가 동일한 제품군에 대해 무역액(수출/수입액)과의 연계를 통해 수요 기반의 내수 시장규모를 추정하고, 시계열 분석을 통해 미래 시장규모를 예측할 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 시장규모추정장치(100)의 동작 방법에 따르면, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하므로, 현재 산업 수준의 넓은 범주로 집계 및 산출되는 시장규모를 보다 세분화하여 제품 수준의 상세한 시장규모를 추정할 수 있다. 또한 사전에 정의된 분류체계나 기준이 부여되지 않은 제품 데이터로부터도 사용자가 관심 있는 특정 제품과 유사하거나 포함 관계에 있는 제품들이 무엇인지 쉽고 빠르게 추출할 수 있으며, 유사 제품의 범주를 조절함으로써 원하는 수준의 제품별 시장규모를 추정할 수 있다. 또한 전(全) 산업분야에 걸쳐 국내 기업이 생산하는 모든 제품에 대한 제품별 시장규모 추정이 가능하기 때문에, 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 사업 주체를 포함한 시장정보 수요자들에게 보다 폭넓고 구체적인 맞춤형 정보를 제공할 수 있다.
한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.
본 발명에 따른 시장규모추정장치 및 그 동작 방법에 따르면, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 쉽고 빠르게 추정할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.
100: 시장규모추정장치
10: 수집부 20: 생성부
30: 추출부 40: 산출부

Claims (14)

  1. 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집부;
    상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성부; 및
    상기 제품관계정보를 기초로 제품 간 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출부를 포함하는 것을 특징으로 하는 시장규모추정장치.
  2. 제 1 항에 있어서,
    상기 시장규모추정장치는,
    상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출부를 더 포함하는 것을 특징으로 하는 시장규모추정장치.
  3. 제 1 항에 있어서,
    상기 생성부는,
    상기 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 상기 제품식별데이터를 분석하는 것을 특징으로 하는 시장규모추정장치.
  4. 제 3 항에 있어서,
    상기 제품식별데이터는,
    제품명, 및 제품을 설명하는 제품속성 중 적어도 하나의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정되는 것을 특징으로 하는 시장규모추정장치.
  5. 제 4 항에 있어서,
    상기 생성부는,
    상기 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용하며,
    상기 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용하는 것을 특징으로 하는 시장규모추정장치.
  6. 제 1 항에 있어서,
    상기 추출부는,
    제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정하는 것을 특징으로 하는 시장규모추정장치.
  7. 제 2 항에 있어서,
    상기 산출부는,
    상기 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출하는 것을 특징으로 하는 시장규모추정장치.
  8. 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집단계;
    상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성단계; 및
    상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출단계를 포함하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
  9. 제 8 항에 있어서,
    상기 방법은,
    상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출단계를 더 포함하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
  10. 제 8 항에 있어서,
    상기 생성단계는,
    상기 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 상기 제품식별데이터를 분석하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
  11. 제 10 항에 있어서,
    상기 제품식별데이터는,
    제품명, 및 제품을 설명하는 제품속성 중 적어도 하나의 포함 여부에 따라 텍스트 마이닝 기법 선택을 위한 텍스트 특성이 결정되는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
  12. 제 11 항에 있어서,
    상기 생성단계는,
    상기 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용하며,
    상기 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
  13. 제 8 항에 있어서,
    상기 추출단계는,
    제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
  14. 제 8 항에 있어서,
    상기 산출단계는,
    상기 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
KR1020190112446A 2019-09-10 2019-09-10 시장규모추정장치 및 그 동작 방법 KR102358357B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190112446A KR102358357B1 (ko) 2019-09-10 2019-09-10 시장규모추정장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190112446A KR102358357B1 (ko) 2019-09-10 2019-09-10 시장규모추정장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20210030808A true KR20210030808A (ko) 2021-03-18
KR102358357B1 KR102358357B1 (ko) 2022-02-04

Family

ID=75232331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190112446A KR102358357B1 (ko) 2019-09-10 2019-09-10 시장규모추정장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102358357B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230060802A (ko) 2021-10-28 2023-05-08 콤비로 주식회사 딥러닝을 이용한 시장규모 예측 장치 및 그 방법
KR20240003465A (ko) 2022-07-01 2024-01-09 박양수 통계모형을 이용한 시장규모 추정 장치 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990031784A (ko) * 1997-10-14 1999-05-06 정선종 전자상거래 상품정보 검색용 자연언어 질의어 처리방법
JP2005292871A (ja) * 2004-03-31 2005-10-20 Nomura Research Institute Ltd 技術文献の市場性分析システム及び市場性分析プログラム
KR20150010740A (ko) * 2012-05-22 2015-01-28 알리바바 그룹 홀딩 리미티드 온라인 제품 검색 방법 및 시스템
KR20170028052A (ko) * 2015-09-03 2017-03-13 사단법인 한국신용정보원 시장 예측방법
KR20180123826A (ko) * 2017-05-10 2018-11-20 네모커머스(주) 이종 분류 간 상품분류의 대응관계 생성시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990031784A (ko) * 1997-10-14 1999-05-06 정선종 전자상거래 상품정보 검색용 자연언어 질의어 처리방법
JP2005292871A (ja) * 2004-03-31 2005-10-20 Nomura Research Institute Ltd 技術文献の市場性分析システム及び市場性分析プログラム
KR20150010740A (ko) * 2012-05-22 2015-01-28 알리바바 그룹 홀딩 리미티드 온라인 제품 검색 방법 및 시스템
KR20170028052A (ko) * 2015-09-03 2017-03-13 사단법인 한국신용정보원 시장 예측방법
KR20180123826A (ko) * 2017-05-10 2018-11-20 네모커머스(주) 이종 분류 간 상품분류의 대응관계 생성시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230060802A (ko) 2021-10-28 2023-05-08 콤비로 주식회사 딥러닝을 이용한 시장규모 예측 장치 및 그 방법
KR20240003465A (ko) 2022-07-01 2024-01-09 박양수 통계모형을 이용한 시장규모 추정 장치 및 그 방법

Also Published As

Publication number Publication date
KR102358357B1 (ko) 2022-02-04

Similar Documents

Publication Publication Date Title
US10410138B2 (en) System and method for automatic generation of features from datasets for use in an automated machine learning process
US9489627B2 (en) Hybrid clustering for data analytics
CN109918563B (zh) 一种基于公开数据的图书推荐的方法
US20110264651A1 (en) Large scale entity-specific resource classification
US20220398857A1 (en) Document analysis architecture
US11379665B1 (en) Document analysis architecture
KR102249466B1 (ko) 인공지능 추천 모델을 사용하여 추천 정보를 제공하는 데이터 카탈로그 제공 방법 및 시스템
Rao Data mining and clustering techniques
KR102294555B1 (ko) 자동보고서생성장치 및 그 동작 방법
CN111651678B (zh) 一种基于知识图谱的个性化推荐方法
Qiu et al. Clustering Analysis for Silent Telecom Customers Based on K-means++
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
WO2021252419A1 (en) Document analysis architecture
Chen et al. Actionable high-coherent-utility fuzzy itemset mining
Hasheminejad et al. Clustering of bank customers based on lifetime value using data mining methods
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
US10586163B1 (en) Geographic locale mapping system for outcome prediction
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
Li et al. Exceptional events classification in warehousing based on an integrated clustering method for a dataset with mixed-valued attributes
US11776291B1 (en) Document analysis architecture
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
Akyol Clustering hotels and analyzing the importance of their features by machine learning techniques
Bochkaryov et al. Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty
Zhang et al. Extending associative classifier to detect helpful online reviews with uncertain classes
US11893065B2 (en) Document analysis architecture

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant