KR20210037488A - Big Data Analytics-Based Advertising Marketing System - Google Patents

Big Data Analytics-Based Advertising Marketing System Download PDF

Info

Publication number
KR20210037488A
KR20210037488A KR1020190120179A KR20190120179A KR20210037488A KR 20210037488 A KR20210037488 A KR 20210037488A KR 1020190120179 A KR1020190120179 A KR 1020190120179A KR 20190120179 A KR20190120179 A KR 20190120179A KR 20210037488 A KR20210037488 A KR 20210037488A
Authority
KR
South Korea
Prior art keywords
information
analysis
result
unit
search
Prior art date
Application number
KR1020190120179A
Other languages
Korean (ko)
Inventor
이충열
Original Assignee
(주) 엔제이랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 엔제이랩스 filed Critical (주) 엔제이랩스
Priority to KR1020190120179A priority Critical patent/KR20210037488A/en
Publication of KR20210037488A publication Critical patent/KR20210037488A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a big data analysis-based advertisement marketing system which allows small and medium-sized companies incapable of easily collecting sufficient information with internal information only to effectively collect information for providing desired marketing information and analyze collected massive information in a systematic manner through a model optimized for marketing. Information from sources (websites) on a network selected based on keywords and internal customer information is searched and the results are collected by an information collection unit. The properties of a plurality of information collection units are taken into consideration to distribute and store the collected information. The distributed and stored information is analyzed by an analysis method including value analysis through item association analysis to provide the results. Marketing support information or management support information can be effectively provided even if internal analysis information is limited by effectively analyzing the customer information dispersion state changed in time series through the repeated process of storing the analysis results and provided results as data again and then analyzing the association with newly accumulated and analyzed data. An analysis company instead of individual companies has such a configuration and collected information is universally used to allow a method of providing marketing support information desired by individual customer companies through analysis methods requested by the individual customer companies. In this case, the customer companies can procure marketing support information or management support information through big data analysis at low costs.

Description

빅데이터 분석 기반 광고 마케팅 시스템{Big Data Analytics-Based Advertising Marketing System}Big Data Analytics-Based Advertising Marketing System

본 발명은 빅데이터 분석 기반 광고 마케팅 시스템에 관한 것으로, 특히 내부 정보 만으로는 충분한 정보를 수집하기 어려운 중소업체들이 마케팅에 최적화된 모델을 통해 원하는 마케팅 정보를 제공할 수 있는 정보를 효과적으로 수집하고 수집된 방대한 정보를 체계적 방법으로 분석할 수 있도록 한 빅데이터 분석 기반 광고 마케팅 시스템에 관한 것이다.The present invention relates to an advertisement marketing system based on big data analysis, and in particular, small and medium-sized companies that are difficult to collect sufficient information with only internal information effectively collect and collect information capable of providing desired marketing information through a model optimized for marketing. It relates to an advertisement marketing system based on big data analysis that enables information to be analyzed in a systematic way.

새로운 유형의 멀티미디어 컨텐츠, SNS(social network service)의 광범위한 확장, 그리고 스마트 기기들의 보급과 이용으로 인해 웹상에서 발생 및 유통되는 데이터의 규모가 기하 급수적으로 늘어나고 있다. 웹상에서 존재하고 지금도 늘어나고 있는 엄청난 양의 데이터는 세상을 해석하기 위해 사용될 수 있다. 이것이 바로 ‘빅데이터’이다. 빅 데이터란 쉽게 말해 디지털화된 방대한 양의 정보를 뜻한다. 빅 데이터에서 불필요한 데이터들을 걸러내고 유용한 정보만을 추출 및 분석하여 사람들의 생각과 의견, 트랜드를 읽어내고 더 나아가 그들의 행동을 미리 예측할 수 있다. 빅 데이터는 이러한 유용성으로 인해 현재 우리나라에서뿐만 아니라 전세계적으로 각광받고 있는 차세대 IT(information technology) 기술 중 하나이다.Due to the widespread expansion of new types of multimedia contents, social network service (SNS), and the spread and use of smart devices, the scale of data generated and distributed on the web is increasing exponentially. The vast amount of data that exists and continues to grow on the web can be used to interpret the world. This is'big data'. Big data simply means a vast amount of digitized information. By filtering out unnecessary data from big data and extracting and analyzing only useful information, it is possible to read people's thoughts, opinions, and trends, and further predict their behavior in advance. Big data is one of the next generation IT (information technology) technologies that are currently in the limelight not only in Korea but also around the world due to such usefulness.

국내 빅 데이터 시장은 2015년 3,000억 원대를 형성하며, 2020년 1조원 규모로 성장할 것으로 예상된다. 빅 데이터와 관련된 국내 시장 규모도 매년 28% 이상 성장하고 있다. 빅 데이터의 활용이, 리서치, 컨설팅 영역에서 집중되고 있지만, 아직 상업 목적, 광고 목적의 시장에서도 활용가능성이 높다.The domestic big data market is expected to reach KRW 300 billion in 2015 and is expected to grow to KRW 1 trillion in 2020. The size of the domestic market related to big data is also growing by more than 28% every year. Although the use of big data is concentrated in the areas of research and consulting, it is still highly likely to be used in commercial and advertising markets.

현재 광고 마케팅 분야의 빅 데이터 기술 활용은 일부 대기업을 중심으로, 활발하게 진행되고 있으나, 전체 기업에 적용하기에는 비용이 높은 관계로 대중화되고 있지 못한 실정이다. 빅 데이터가 활용될 수 있는 다양한 분야에서 빅 데이터를 효과적으로 활용하는 방안에 대한 논의가 추가적으로 필요하다.Currently, the use of big data technology in the field of advertising marketing is actively progressing, centering on some large companies, but it has not been popularized due to the high cost to apply it to all companies. There is an additional need for discussion on how to effectively use big data in various fields where big data can be used.

일반적으로 업체가 제품이나 서비스의 개발을 통해 사업화에는 성공했지만 이후 자금 부족 등에 의해 도산하는 소위 '죽음의 계곡(Death valley)'을 통과하는 것은 상당히 어려워 일반적으로 수백 혹은 수천 분의 일이라는 확률로 이야기된다. 이러한 죽음의 계곡을 지나 제품이나 서비스를 시장에 출시했다 하더라도 초기시장과 주류시장으로 진입하기까지의 사이에는 일시적으로 수요가 정체되거나 후퇴하는 단절현상을 거치게 되는데 이를 캐즘(chasm)이라 하며, 이 단계를 넘어서야 기술범용화를 거쳐 일반대중에게 확산되고 시장 전체에 대한 파급효과가 나타난다. 이러한 죽음의 계곡이나 캐즘은 일반적인 중소기업의 2대 위기 상황으로 구분되며 이를 극복하기 위해서는 시장의 트랜드나 제품 혹은 서비스의 확산을 위한 마케팅의 효과를 효율적으로 검증하여 마케팅 방향을 설정하는 적절한 경영 지원 정보가 필수적이다.In general, it is quite difficult for a company to commercialize through the development of products or services, but it is quite difficult to pass through the so-called'Death Valley', which goes bankrupt due to lack of funds, etc. do. Even if a product or service is released on the market through the Valley of Death, demand temporarily stagnates or retreats between the initial market and the mainstream market. This is called a chasm, and at this stage. It is only beyond that, through the generalization of technology, it spreads to the general public, and a ripple effect appears on the entire market. These death valleys or chasm are classified into two major crises of general SMEs. To overcome this, appropriate management support information that establishes the marketing direction by efficiently verifying the effect of marketing for the spread of market trends or products or services is required. It is essential.

대형 포털이나 대기업 등은 자본이나 축적된 자사 이용고객들의 정보를 활용한 빅데이터 분석으로 이러한 경영 정보를 활용할 수 있거나 곧 활용할 수 있게 되겠지만 중소기업이나 벤처기업 등은 이러한 빅데이터 분석을 통한 경영 정보 활용이 어려운 일일 수밖에 없다.Large portals and large corporations may or will soon be able to use such management information through big data analysis using capital or accumulated information of their own customers, but small and medium-sized businesses and venture companies are not able to utilize management information through such big data analysis. It has to be difficult.

한편, 대형 포털의 경우 자사가 보유하는 방대한 정보들을 활용할 수 있는 빅데이터 분석 도구를 무료로 제공하여 플랫폼 시장에 대한 선점을 원하는 경우가 있어 이를 통해서 자신이 보유한 여러 정보들을 분석해 볼 수 있는 기회가 있기는 하지만 아직 대용량 데이터에 대한 분산 저장과 알려져 있는 분석 방식을 통한 정적인 분석정도가 일반적일 뿐 중소기업이나 벤처기업이 이러한 시스템을 자사에 맞추어 커스터마이징하거나 시간에 따라 가변되는 시장 상황을 효과적으로 분석하기 위한 방법론 및 분석 프로세스를 직접 개발하여 적용하기는 여전히 어려운 상황이다. 따라서, 빅데이터 분석을 통한 경영 정보 확보를 포기하고 전통적인 마케팅 방법론을 따르거나 빅데이터 분석을 실시하더라도 신뢰성이 없는 단순 보조 자료 정도로만 활용하고 있다.On the other hand, in the case of large portals, there are cases where you want to preoccupy the platform market by providing a big data analysis tool that can utilize the vast amount of information owned by the company, so you have the opportunity to analyze various information you have. However, a methodology for SMEs and venture companies to customize these systems according to their own or to effectively analyze market conditions that change over time. It is still difficult to directly develop and apply the analysis process. Therefore, even if they abandon securing management information through big data analysis and follow the traditional marketing methodology or conduct big data analysis, they are only using it as a simple auxiliary material that is not reliable.

전술한 문제점을 개선하기 위한 본 발명 실시예들의 목적은 내부 고객 정보와 키워드를 기반으로 선택된 네트워크 상의 소스들(웹사이트)로부터의 정보를 탐색하여 그 결과를 정보 수집부에서 수집하고, 복수의 정보 수집부 특성을 고려하여 수집된 정보를 분산 저장하며, 분산 저장된 정보를 항목 연관 분석을 통한 가치 분석을 포함하는 분석 방식으로 분석하여 그 결과를 제공하되, 분석 결과와 제공 결과를 다시 데이터로서 저장한 후 신규 축적되어 분석되는 데이터와의 연관성을 분석하는 반복적 프로세스를 통해 시계열적으로 변화되는 고객의 정보 확산 상태를 효과적으로 분석함으로써 자체 보유 분석 정보가 한정적이라 하더라도 마케팅 지원 정보나 경영 지원정보를 효과적으로 제공할 수 있도록 한 빅데이터 분석 기반 광고 마케팅 시스템을 제공하는 것이다.An object of the embodiments of the present invention for improving the above-described problem is to search for information from sources (websites) on a network selected based on internal customer information and keywords, and collect the result in the information collection unit, and to obtain a plurality of information. The collected information is distributed and stored in consideration of the characteristics of the collection unit, and the distributed stored information is analyzed by an analysis method including value analysis through item association analysis, and the result is provided, but the analysis result and the provided result are saved as data again. By analyzing the spread of customer information that changes over time through an iterative process that analyzes the relationship with the newly accumulated and analyzed data, marketing support information or management support information can be effectively provided even if the analysis information owned by itself is limited. It is to provide an advertisement marketing system based on big data analysis.

본 발명 실시예들의 다른 목적은 자사 고객의 한정된 정보가 아닌 필요로 하는 정보를 웹상에서 능동적으로 수집하되 수집 대상에 따른 다양한 비정형 정보를 효과적으로 분석하기 위해서 수집 대상에 따라 다양한 비정형 항목들로 수집되는 수집 정보를 처리 가능한 수준으로 정형화하는 정보 수집부를 구성하는 것으로 다양하게 수집되는 웹상 정보들을 항목을 기준으로 가치 분석이 가능하도록 하며, 분석된 정보를 신규 분석 정보와 항목을 기반으로 재분석하도록 하는 과정을 반복하도록 함으로써 항목을 기준으로 하는 1:N 관계의 연관 분석이 가능하도록 하여 시계열 분석과 바이럴 마케팅에 대한 분석이 가능하도록 한 빅데이터 분석 기반 광고 마케팅 시스템을 제공하는 것이다.Another object of the embodiments of the present invention is to actively collect necessary information on the web, not limited information of its own customers, but collect collected in various unstructured items according to the collection object in order to effectively analyze various unstructured information according to the collection object. It constitutes an information collection unit that standardizes information to a level that can be processed, enabling value analysis of various collected web information based on items, and repeating the process of re-analyzing the analyzed information based on new analysis information and items. This is to provide an advertisement marketing system based on big data analysis that enables analysis of time series analysis and viral marketing by enabling correlation analysis of 1:N relationships based on items.

본 발명 실시예들의 또 다른 목적은 분석된 정보를 활용 데이터베이스에 저장한 후 사용자의 요구나 결과 제공 어플리케이션에 의해 활용 데이터베이스의 내용을 처리하여 사용자에게 결과로서 제공하며, 이러한 결과 제공을 위한 분석 과정에서 산출된 이벤트를 분석하여 이들 중 일부를 다시 분산 저장하거나 재활용 가능하도록 활용데이터베이스에 저장하도록 함으로써 결과 제공을 위한 실제 업무 처리자의 경험에 따라 산출되는 정보들을 분석에 추가 반영하고 다른 사용자들이 재활용할 수 있도록 한 빅데이터 분석 기반 광고 마케팅 시스템을 제공하는 것이다.Another object of the embodiments of the present invention is to store the analyzed information in the utilization database and then process the contents of the utilization database by the user's request or result providing application and provide it as a result to the user. By analyzing the calculated events and storing some of them in the utilization database so that they can be distributed or reused, the information calculated according to the experience of the actual business processor for providing results is additionally reflected in the analysis and other users can reuse it. It is to provide an advertisement marketing system based on big data analysis.

본 발명의 일 실시예에 따른 빅데이터 분석 기반 광고 마케팅 시스템은 기 설정된 종류의 웹사이트로부터 설정된 탐색 기준에 따라 정보를 탐색한 후 탐색된 정보를 파싱하여 미리 마련된 계층적 공통 코드와 항목을 기준으로 하는 포맷으로 변환하는, 웹사이트 종류별로 마련된 정보 수집부와 상기 정보 수집부가 변환한 정보를 공통 코드와 크기를 참조하여 분산 저장하는 분산 저장부와 상기 분산 저장부가 분산 저장한 정보에 분산 처리 방식으로 접근하여 항목 기준 가치 분석을 포함하는 분석 프로세스들에 따라 분석한 후 그 결과를 활용 데이터베이스에 저장하고, 활용 데이터베이스에 기 저장된 이전 가치 분석 결과와 신규 분석된 가치 분석 결과를 항목을 기준으로 재분석하여 그 결과를 활용 데이터베이스에 더 저장하는 분석부와The advertising marketing system based on big data analysis according to an embodiment of the present invention searches for information according to a set search criterion from a preset type of website and then parses the searched information based on a pre-prepared hierarchical common code and item. The information collection unit prepared for each type of website and the distributed storage unit distributedly storing the information converted by the information collection unit by referring to the common code and size, and the distributed storage unit distributedly stored information in a distributed processing method. Approach and analyze according to the analysis processes including item-based value analysis, then store the result in the utilization database, and re-analyze the previous value analysis result and the newly analyzed value analysis result stored in the utilization database based on the item. An analysis unit that further stores the results in the utilization database and

활용 데이터베이스의 분석 결과를 원하는 프로세스로 재분석하거나 요청된 쿼리에 따라 검색하여 그 결과를 출력하며 출력 내용을 분석하여 데이터 포맷에 따라 상기 분산 저장부에 데이터로 제공하거나 재사용을 위해 활용 데이터 베이스에 저장하는 결과 제공부를 포함한다.Re-analyze the analysis result of the utilization database by a desired process or search according to the requested query and output the result, analyze the output content and provide it as data to the distributed storage unit according to the data format, or store it in the utilization database for reuse. Includes a result provider.

또한, 정보 수집부의 탐색 기준을 제공하고, 분석부의 분석 프로세스를 갱신하며, 결과 제공부에 재분석 프로세스나 쿼리를 제공하고 그 결과를 사용자에게 제공하는 사용자 지원부를 포함할 수 있다.In addition, it may include a user support unit that provides the search criteria of the information collection unit, updates the analysis process of the analysis unit, provides a reanalysis process or query to the result providing unit, and provides the result to the user.

정보 수집부는 탐색 기준으로 기 설정된 회원 정보를 포함하며, 해당 회원에 관련된 정보를 탐색할 수 있다.The information collection unit includes member information preset as a search criterion, and may search information related to a corresponding member.

한편, 정보 수집부는 탐색 기준으로 키워드를 포함하며, 범용 사용자를 위한 기초 정보로 복수의 웹사이트로부터 상기 키워드에 따른 정보를 탐색하고 탐색 결과를 분류하기 위해 마련된 계층적 공통 키워드로 구분하며, 정보를 파싱하여 관련성 정보가 설정된 항목들을 포함하는 포맷으로 변환할 수 있다.Meanwhile, the information collection unit includes a keyword as a search criterion, and divides the information into hierarchical common keywords prepared to search for information according to the keyword from a plurality of websites as basic information for general-purpose users and classify the search result. It can be parsed and converted into a format including items for which relevance information is set.

정보 수집부는 수집되는 개인정보는 익명 처리하고 식별 정보는 암호화하거나 삭제할 수 있다.The information collection unit may anonymize collected personal information and encrypt or delete identification information.

또한, 정보 수집부는 항목을 기준으로 포맷을 변환하되, 비정형 데이터를 포함할 수도 있다.In addition, the information collection unit converts the format based on the item, but may include unstructured data.

정보 수집부는 검색 포털 사이트, 소셜 네트워크 사이트, 클라우드 사이트를 포함하는 개방형 웹사이트 별로 각 웹사이트에 접속하여 검색이나 공개된 오픈 API를 통해 탐색 기준에 따른 정보를 수집할 수 있다. 여기서, 정보 수집부는 웹사이트 종류별로 구분되어 구성되며, 각 정보 수집부는 웹사이트 종류에 따라 탐색 결과를 공통 코드로 구분하기 위한 기준이나 탐색 결과를 항목을 기준으로 파싱하기 위한 기준이 다른 것이 바람직하다.The information collection unit may access each website for each open website including a search portal site, a social network site, and a cloud site, and collect information according to search criteria through a search or open API. Here, it is preferable that the information collection unit is divided and configured for each type of website, and each information collection unit has different criteria for classifying search results into a common code or for parsing search results based on items according to the type of website. .

분석부는 분석 결과를 분산 저장부에 데이터로서 다시 제공할 수 있다.The analysis unit may provide the analysis result back to the distributed storage unit as data.

분석부는 항목을 기준으로 수행되는 가치 분석 결과를 활용 데이터베이스에 저장하여 1:N의 연관 분석을 위한 데이터를 반복적으로 수집하는 것이 바람직하다.It is desirable for the analysis unit to repeatedly collect data for 1:N association analysis by storing the result of the value analysis performed on the basis of the item in the utilization database.

결과 제공부는 외부 분석 솔루션 혹은 외부 분석 솔루션과의 연계를 위한 인터페이스이거나 외부 사용자 사이트에 커스터마이징될 수 있는 분석 구성을 포함할 수 있다.The result providing unit may include an external analysis solution, an interface for linking with an external analysis solution, or an analysis configuration that can be customized on an external user site.

본 발명의 다른 실시예에 따른 빅데이터 분석 기반 광고 마케팅 시스템은 기 설정된 종류의 웹사이트에 따라 구분되는 정보 수집부가 설정된 탐색 기준에 따라 정보를 탐색하여 그 탐색 내용을 미리 마련된 계층적 공통 코드와 항목을 기준으로 하는 포맷으로 변환하는 정보 수집 단계와; 상기 정보 수집 단계에서 수집된 변환된 정보를 수신한 분산 저장부가 공통 코드와 크기를 기준으로 수신 정보를 분산 저장하는 분산 저장 단계와 상기 분산 저장 단계에서 분산 저장된 정보를 이용하여 요구되는 분석을 수행하는 분석부가 상기 분산 저장된 정보에 분산처리 방식으로 접근하여 항목 기준 가치 분석을 포함하는 분석 프로세스들에 따라 분석을 실시한 후 그 결과를 활용 데이터베이스에 저장하고, 활용 데이터베이스에 기 저장된 이전 가치 분석 결과와 신규 분석된 가치 분석 결과를 항목을 기준으로 재분석하여 그 결과를 활용 데이터베이스에 다시 저장하는 분석 단계와; 사용자에게 결과를 제공하는 결과 제공부가 활용 데이터베이스의 분석 결과를 원하는 프로세스로 재분석하거나 요청된 쿼리에 따라 검색하여 그 결과를 출력하며 출력 내용을 분석하여 데이터 포맷에 따라 상기 분산 저장부에 데이터로 제공하거나 재사용을 위해 활용 데이터 베이스에 저장하는 결과 제공 단계를 포함한다.In the big data analysis-based advertisement marketing system according to another embodiment of the present invention, an information collection unit classified according to a preset type of website searches for information according to a set search criterion, and the search contents are pre-prepared hierarchical common codes and items. An information collection step of converting the format into a format based on the data; A distributed storage step in which the distributed storage unit receiving the converted information collected in the information collecting step distributes and stores the received information based on a common code and size, and performs the required analysis using the information distributedly stored in the distributed storage step. The analysis unit accesses the distributed information in a distributed processing method, performs analysis according to the analysis processes including item-based value analysis, stores the result in the utilization database, and analyzes the previous value analysis results and new analysis previously stored in the utilization database. An analysis step of reanalyzing the result of the value analysis based on the item and storing the result again in a utilization database; The result providing unit that provides the result to the user re-analyzes the analysis result of the utilization database in a desired process, or searches according to the requested query and outputs the result, analyzes the output content, and provides it as data to the distributed storage unit according to the data format. It includes the step of providing results that are stored in the utilization database for reuse.

정보 수집부에 탐색 기준을 제공하고, 분석부의 분석 프로세스를 갱신하며, 결과 제공부에 재분석 프로세스나 쿼리를 제공하고 그 결과를 사용자에게 제공하는 사용자 지원부를 통해 사용자의 요구를 수신하여 처리하는 단계를 포함할 수 있다.Provides search criteria to the information collection unit, updates the analysis process of the analysis unit, provides a reanalysis process or query to the result providing unit, and receives and processes the user's request through the user support unit that provides the result to the user. Can include.

정보 수집 단계에서, 정보 수집부는 탐색 기준으로 기 설정된 회원 정보를 포함하며, 해당 회원에 관련된 정보를 탐색할 수 있다.In the information collection step, the information collection unit includes member information preset as a search criterion, and may search information related to a corresponding member.

정보 수집단계에서, 정보 수집부는 탐색 기준으로 키워드를 포함하며, 범용 사용자를 위한 기초 정보로 복수의 웹사이트로부터 상기 키워드에 따른 정보를 탐색하고 탐색 결과를 분류하기 위해 마련된 계층적 공통 키워드로 구분하며, 정보를 파싱하여 관련성 정보가 설정된 항목들을 포함하는 포맷으로 변환할 수 있다.In the information collection step, the information collection unit includes a keyword as a search criterion, and searches for information according to the keyword from a plurality of websites as basic information for general-purpose users, and divides it into hierarchical common keywords provided to classify the search result. , The information may be parsed and converted into a format including items for which relevance information is set.

상기 정보 수집 단계에서, 정보 수집부는 검색 포털 사이트, 소셜 네트워크 사이트, 클라우드 사이트를 포함하는 개방형 웹사이트 별로 각 웹사이트에 접속하여 검색이나 공개된 오픈 API를 통해 탐색 기준에 따른 정보를 수집할 수 있다. 또한, 이러한 정보 수집부는 웹사이트 종류별로 구분되어 구성되며, 각 정보 수집부는 웹사이트 종류에 따라 탐색 결과를 공통 코드로 구분하기 위한 기준이나 탐색 결과를 항목을 기준으로 파싱하기 위한 기준이 다를 수 있다.In the information collection step, the information collection unit may access each website for each open website including a search portal site, a social network site, and a cloud site, and collect information according to the search criteria through a search or open API. . In addition, such information collection units are divided and configured for each type of website, and each information collection unit may have different criteria for classifying search results into common codes or parsing search results based on items depending on the type of website. .

분석 단계에서, 분석부는 분석 결과를 분산 저장부에 데이터로서 다시 제공할 수 있다.In the analysis step, the analysis unit may provide the analysis result back as data to the distributed storage unit.

분석 단계에서, 분석부는 항목을 기준으로 수행되는 가치 분석 결과를 활용 데이터베이스에 저장하여 1:N의 연관 분석을 위한 데이터를 반복적으로 수집할 수 있다.In the analysis step, the analysis unit may repeatedly collect data for 1:N association analysis by storing the result of the value analysis performed on the basis of the item in the utilization database.

본 발명 실시예에 따른 마케팅을 위한 빅데이터 분석 시스템 및 방법은 내부 고객 정보와 키워드를 기반으로 선택된 네트워크 상의 소스들(웹사이트)로부터의 정보를 탐색하여 그 결과를 정보 수집부에서 수집하고, 복수의 정보 수집부 특성을 고려하여 수집된 정보를 분산 저장하며, 분산 저장된 정보를 항목 연관 분석을 통한 가치 분석을 포함하는 분석 방식으로 분석하여 그 결과를 제공하되, 분석 결과와 제공 결과를 다시 데이터로서 저장한 후 신규 축적되어 분석되는 데이터와의 연관성을 분석하는 반복적 프로세스를 통해 시계열적으로 변화되는 고객의 정보 확산 상태를 효과적으로 분석함으로써 자체 보유 분석 정보가 한정적이라 하더라도 마케팅 지원 정보나 경영 지원 정보를 효과적으로 제공할 수 있는 효과가 있는 것은 물론이고, 이러한 구성을 개별 업체가 아닌 분석 전문 업체가 구성하고 수집되는 정보를 범용적으로 활용하여 개별 고객사에서 요구하는 분석 방식을 통해 개별 고객사가 원하는 마케팅 지원 정보를 제공하는 방식도 가능하며 이 경우 개별 고객사는 빅데이터 분석을 통한 마케팅 지원 정보나 경영 지원 정보를 낮은 비용으로 확보할 수 있는 효과가 있다.The big data analysis system and method for marketing according to an embodiment of the present invention searches for information from sources (websites) on a network selected based on internal customer information and keywords, and collects the results in the information collection unit, and In consideration of the characteristics of the information collection unit, the collected information is distributed and stored, and the distributed stored information is analyzed in an analysis method including value analysis through item association analysis, and the results are provided. Through an iterative process that analyzes the relationship with the newly accumulated and analyzed data after storage, it effectively analyzes the spread of customer information that changes in time series, so that even if the analysis information owned by itself is limited, marketing support information or management support information is effectively used. Not only is there an effect that can be provided, but this composition is not only composed by individual companies, but by specialized analysis companies, and by using the collected information universally, the marketing support information desired by individual customers is provided through an analysis method required by individual customers. It is also possible to provide a method, and in this case, there is an effect that individual clients can secure marketing support information or management support information through big data analysis at low cost.

본 발명 실시예에 따른 빅데이터 분석 기반 광고 마케팅 시스템은 자사 고객의 한정된 정보가 아닌 필요로하는 정보를 웹상에서 능동적으로 수집하되 수집 대상에 따른 다양한 비정형 정보를 효과적으로 분석하기 위해서 수집 대상에 따라 다양한 비정형 항목들로 수집되는 수집 정보를 처리 가능한 수준으로 정형화하여 분산 저The advertising marketing system based on big data analysis according to an embodiment of the present invention actively collects information on the web, not limited information of its own customers, but in order to effectively analyze various unstructured information according to the collection object, various unstructured information according to the collection object Reduces distribution by standardizing the collected information collected as items to a level that can be processed.

장하는 정보 수집부를 구성하는 것으로 다양하게 수집되는 웹상 정보들을 항목을 기준으로 가치 분석이 가능하도록 하며, 분석된 정보를 신규 분석 정보와 항목을 기반으로 재분석하도록 하는 과정을 반복하도록 함으로써 항목을 기준으로 하는 1:N 관계의 연관 분석이 가능하도록 하여 시계열 분석과 바이럴 마케팅에 대한 신속하여 신뢰성 있는 분석 결과를 경제적으로 제공할 수 있는 효과가 있다.As a part of the information collection unit, it is possible to analyze the value of various collected information on the web based on the item, and repeat the process of reanalyzing the analyzed information based on new analysis information and items. It has the effect of economically providing fast and reliable analysis results for time series analysis and viral marketing by enabling the association analysis of the 1:N relationship.

본 발명 실시예에 따른 빅데이터 분석 기반 광고 마케팅 시스템은 분석된 정보를 활용 데이터베이스에 저장한 후 사용자의 요구나 결과 제공 어플리케이션에 의해 활용 데이터베이스의 내용을 처리하여 사용자에게 결과로서 제공하며, 이러한 결과 제공을 위한 분석 과정에서 산출된 이벤트를 분석하여 이들 중 일부를 다시 분산저장하거나 재활용 가능하도록 활용 데이터베이스에 저장하도록 함으로써 결과 제공을 위한 실제 업무 처리자의 경험에 따라 산출되는 정보들을 분석에 추가 반영하고 다른 사용자들이 재활용할 수 있도록 하여 제공되는 마케팅 정보의 품질을 높이고 사용에 따라 신뢰성과 만족도가 높아지는 효과가 있다.The advertising marketing system based on big data analysis according to an embodiment of the present invention stores the analyzed information in the utilization database, then processes the contents of the utilization database by the user's request or result provision application, and provides the result to the user. By analyzing the events calculated during the analysis process for the purpose of analysis and storing some of them in the utilization database so that they can be distributed or reused, the information calculated according to the experience of the actual business processor for providing results is additionally reflected in the analysis and other users By allowing them to be recycled, the quality of the provided marketing information is improved, and reliability and satisfaction are increased according to the use.

도 1은 종래 빅데이터 분석 시스템의 구성도.
도 2는 본 발명의 실시예에 따른 빅데이터 분석 시스템의 개념도.
도 3은 본 발명의 실시예에 따른 빅데이터 분석 시스템의 구성도.
도 4는 본 발명의 실시예에 따른 정보 수집부 구성도.
도 5는 본 발명의 실시예에 따른 분산 저장부 구성도.
도 6은 본 발명의 실시예에 따른 분석부 구성도.
도 7은 본 발명의 실시예에 따른 결과 제공부 구성도.
1 is a block diagram of a conventional big data analysis system.
2 is a conceptual diagram of a big data analysis system according to an embodiment of the present invention.
3 is a block diagram of a big data analysis system according to an embodiment of the present invention.
4 is a configuration diagram of an information collection unit according to an embodiment of the present invention.
5 is a block diagram of a distributed storage unit according to an embodiment of the present invention.
6 is a block diagram of an analysis unit according to an embodiment of the present invention.
7 is a configuration diagram of a result providing unit according to an embodiment of the present invention.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in the present invention are only used to describe specific embodiments, and are not intended to limit the present invention. In addition, the technical terms used in the present invention should be interpreted as generally understood by those of ordinary skill in the technical field to which the present invention belongs, unless otherwise defined in the present invention, and is excessively comprehensive. It should not be construed as a human meaning or an excessively reduced meaning. In addition, when a technical term used in the present invention is an incorrect technical term that does not accurately express the spirit of the present invention, it should be replaced with a technical term that can be correctly understood by those skilled in the art. In addition, general terms used in the present invention should be interpreted as defined in the dictionary or according to the context before and after, and should not be interpreted as an excessively reduced meaning.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다.In addition, the singular expression used in the present invention includes a plurality of expressions unless the context clearly indicates otherwise.

본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.In the present invention, terms such as “consisting of” or “comprising” should not be construed as necessarily including all of the various elements or various steps described in the invention, and some of the elements or some steps are included. It should be interpreted that it may not be, or may further include additional components or steps.

또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.In addition, terms including ordinal numbers such as first and second used in the present invention may be used to describe the elements, but the elements should not be limited by the terms. The terms are used only to distinguish one component from another. For example, without departing from the scope of the present invention, a first element may be referred to as a second element, and similarly, a second element may be referred to as a first element.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings, but the same or similar components are assigned the same reference numerals regardless of the reference numerals, and redundant descriptions thereof will be omitted.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.In addition, in describing the present invention, when it is determined that a detailed description of a related known technology may obscure the subject matter of the present invention, a detailed description thereof will be omitted. In addition, it should be noted that the accompanying drawings are only for easily understanding the spirit of the present invention and should not be construed as limiting the spirit of the present invention by the accompanying drawings.

도 2는 본 발명의 실시예에 따른 빅데이터 분석 시스템의 개념도를 보인 것으로, 도시된 바와 같이 보유한 내부 정보만을 이용하는 것이 아니라 능동적으로 웹상에서 생성되는 수많은 이용자 정보들을 수집하는 정보탐색 수집시스템(10)과, 이렇게 수집된 방대한 정보를 분산 저장하는 분산 저장 시스템(20)과, 분산 저장된 정보에 분산처리 방식으로 접근하여 분석을 수행하고 분석 결과 중 재활용이 가능한 정보를 다시 분산 저장하도록 하는 분석 시스템(30)과, 분석 시스템(30)을 통해 분석된 결과를 수신하여 제공하거나, 분석 시스템(30)이 분석한 결과들을 기준으로 필요한 분석을 재실시하도록 하거나, 혹은 쿼리에 따라 분석 결과를 검색하여 결과를 제공하며, 재활용할 수 있는 검색 결과 정보는 그 종류에 따라 분산 저장 시스템(20)에 데이터로 제공하고 분석된 자체로서 활용할 수 있다면 이를 분석 시스템(30)에서 재활용하도록 제공하는 결과 제공 시스템(40)과, 정보탐색 수집 시스템(10)이 수집할 정보에 대한 탐색 기준을 제공하고, 분석 시스템(30)에 분석할 내용(스크립트, 분석 알고리즘, 설정 등의 프로세스)을 제공하거나 분석할 내용을 갱신하며, 결과 제공 시스템(40)에 재분석을 위한 내용(스크립트, 분석 알고리즘, 설정 등의 프로세스)이나 쿼리를 제공하고 그 결과를 사용자에게 제공하는 사용자지원 시스템(50)을 포함한다. 여기서, 사용자 지원 시스템(50)은 상기 각 시스템들에 접근하도록 하는 사용자 인터페이스일 수 있으나 각 시스템의 일부 기능들을 구비한 시스템일 수 있으므로 구체적인 구성은 다양할 수 있다.FIG. 2 is a conceptual diagram of a big data analysis system according to an embodiment of the present invention. As shown, an information search and collection system 10 that actively collects numerous user information generated on the web rather than using only the internal information possessed. And, a distributed storage system 20 that distributes and stores the vast amount of information collected in this way, and an analysis system 30 that performs analysis by accessing the distributed information in a distributed processing method, and re-distributes and stores reusable information among the analysis results. ) And, the analysis result analyzed through the analysis system 30 is received and provided, or the analysis system 30 re-executes necessary analysis based on the analyzed result, or the analysis result is searched according to a query and the result is retrieved. The search result information that can be provided and reused is provided as data to the distributed storage system 20 according to its type, and if it can be used as the analyzed itself, the result providing system 40 provides it to be recycled in the analysis system 30 And, the information search and collection system 10 provides search criteria for the information to be collected, provides the analysis system 30 with content to be analyzed (processes such as scripts, analysis algorithms, settings, etc.) or updates the content to be analyzed. , A user support system 50 that provides content (a script, an analysis algorithm, a process such as setting, etc.) or a query for re-analysis to the result providing system 40 and provides the result to a user. Here, the user support system 50 may be a user interface for accessing each of the systems, but since it may be a system having some functions of each system, a specific configuration may vary.

결국, 도시된 구성은 정형화된 내부 정보를 수집하여 이를 분석하는 기존 방식이 아니라 모바일 서비스, 포털, 소셜 네트워크 서비스, 클라우드 서비스 등을 포함하는 다양한 서비스를 제공하는 웹사이트에서 발생되는 다양한 정보들 중에서 원하는 분석 대상에 적합한 정보들을 수집하여 이들로부터 원하는 마케팅이나 경영 지원을 위한 정보 분석을 실시하는 방식이다.In the end, the configuration shown is not a conventional method of collecting and analyzing standardized internal information, but a desired among various information generated from websites that provide various services including mobile services, portals, social network services, and cloud services. This is a method of collecting information suitable for the target of analysis and analyzing the information for marketing or management support desired from them.

만일 회원에 대한 정보를 일부 구비하고 있는 경우, 해당 회원에 대한 내부 정보는 물론이고 해당 다양한 웹사이트에서 해당 회원에 관련된 정보들을 더 수집하는 방식으로 다양한 관련 정보들을 수집할 수도 있다.If some information about a member is provided, as well as internal information about the member, various related information may be collected by collecting additional information related to the member from the various websites.

정보를 수집하는 웹사이트는 예를 들어 구글, 네이버, 다음, 빙, 네이트, 야후, 바이두 등의 다양한 포털일 수 있고 이로부터 특정한 검색 결과나 회원 식별자를 이용한 정보들을 수집할 수 있고, 각 포털에서 결과로 제공하는 웹페이지, 뉴스, 블로그, 문서 등을 정보 수집 대상으로 할 수 있다. 이러한 포털에서는 검색 뿐만 아니라 해당 포털에서 제공하는 각종 서비스에 대한 검색과 정보 수집이 가능하도록 하는 오픈 API(Application Program Interface)를 제공하기도 한다. 이러한 정보를 수집하는 웹사이트는 예를 들어 페이스북, 트위터, 유튜브, 핀터레스트, 라인, 인스타그램, 미투데이, 텀블러, 리슨미, 라스트 에프엠 등의 다양한 소셜 네트워크일 수 있다. 이러한 소셜 네트워크는 대부분 외부에서 해당 소셜 네트워크의 내부 정보를 검색하거나 수집할 수 있도록 하는 오픈 API를 제공하는 경우가 많다.Websites that collect information may be various portals such as Google, Naver, Daum, Bing, Nate, Yahoo, Baidu, etc., from which specific search results or information using member identifiers can be collected. Web pages, news, blogs, documents, etc. provided as a result can be targeted for information collection. These portals provide an open API (Application Program Interface) that enables not only search, but also search and information collection for various services provided by the portal. Websites that collect such information may be various social networks such as Facebook, Twitter, YouTube, Pinterest, Line, Instagram, Me2day, Tumblr, Listen Me, Last FM. Most of these social networks often provide open APIs that allow external search and collection of internal information of the social network.

그 외에도 다양한 클라우드 서비스 사이트, 모바일 서비스 사이트 등 다양한 웹사이트들로부터 정보를 수집할 수 있으며 이러한 사이트들 역시 오픈 API를 제공하는 경우가 많다.In addition, information can be collected from various websites such as various cloud service sites and mobile service sites, and these sites also provide open APIs in many cases.

따라서, 로봇을 이용한 정보의 수집이 가능하므로 원하는 기준(키워드, 시간, 인기도, 필터링 조건 등)에 따른 방대한 정보를 수집할 수 있다.Therefore, since it is possible to collect information using a robot, it is possible to collect a vast amount of information according to desired criteria (keyword, time, popularity, filtering conditions, etc.).

그러나 이렇게 다양한 웹상의 정보를 단순하게 수집한다고 하여 이를 직접 빅데이터 분석에 활용할 수 있는 것은 아니며, 이렇게 수집된 데이터를 분산 처리 방식을 통한 분석 스크립트로 분석한다고 하여 마케팅에 적합한 정보를 생성할 수 있는 것은 아니다.However, simply collecting various information on the web does not mean that it can be directly used for big data analysis, and by analyzing the collected data with an analysis script through a distributed processing method, it is possible to generate information suitable for marketing. no.

따라서, 본 발명의 실시예에서는 기본적으로 두 가지 새로운 방식을 도입한다. 우선 수집 정보를 어느 정도 정형화하도록 웹사이트의 종류에 대응되는 정보 수집부들을 구성하는 방식과, 시계열적 분석이나 온라인 마케팅에서 중요도가 높아지는 바이럴 마케팅 분석을 위해서 항목을 기준으로 가치분석을 실시한 후 이를 저장하고 새로 수집되어 분석된 데이터와의 연관성을 분석하는 반복적 프로세스를 통해 항목을 기준으로 1:N 관계의 연관 분석이 가능하도록 함으로써 마케팅 지원을 위한 잠재적 가치 분석이 가능하도록 하는 방식을 도입한다. Therefore, the embodiment of the present invention basically introduces two new methods. First, a method of organizing the information collection units corresponding to the type of website so as to standardize the collected information to some extent, and for viral marketing analysis, which is of increasing importance in time-series analysis or online marketing, conducts value analysis on the basis of items, and then stores it. It introduces a method that enables analysis of potential value for marketing support by making it possible to analyze the association of 1:N relationships based on items through an iterative process that analyzes the association with newly collected and analyzed data.

그 외에도 실제 마케팅 전문가들의 분석 요청(원하는 분석을 위한 스크립트, 알고리즘, 설정 등)이나 검색 쿼리 등에 따른 결과 정보를 생성하여 사용자에게 제공함과 아울러 생성된 결과 정보 중 실무적으로 의미가 있는 분석 정보들이 재활용할 수 있도록 하는 방식도 적용함으로써 단순한 대용량 데이터 분석이 아닌 실질적으로 의미가 있는 마케팅 지원이나 경영 지원을 위한 분석 정보가 제공될 수 있도록 한다. 또한, 이러한 본 발명의 실시 예에 따른 시스템을 특정한 업체를 위한 종속적 시스템이 아닌 범용 사용자를 대상으로 하는 전문 서비스로 특화시킬 경우 범용적으로 수집되는 정보들을 각 서비스 이용 업체들의 분석 요구에 맞추어 분석한 후 그 결과를 제공할 수 있다. 이 경우 시스템 활용도가 높아지므로 서비스 이용 업체의 부담을 줄일 수 있고, 각 서비스 이용 업체의 마케팅 담당자가 분석한 결과들을 재활용 가능하게 수집하므로 이러한 다양한 서비스 이용 업체들이 원하는 결과를 빠르고 다양하게 획득할 수 있게 된다. 또한, 분석 결과를 신규 수집되는 정보들과 통합하여 재분석하는 것으로 시계열적 분석이나 항목을 기준으로 하는 연관 분석등의 효율을 높일 수 있다.In addition, result information according to actual marketing experts' analysis requests (scripts, algorithms, settings, etc. for desired analysis) or search queries are generated and provided to users, and analysis information that is practically meaningful among the generated result information can be reused. By applying a method that enables the analysis of large-scale data, it is possible to provide practically meaningful marketing support or analysis information for management support. In addition, when the system according to an embodiment of the present invention is specialized as a specialized service targeting general users rather than a subordinate system for a specific company, information collected universally is analyzed according to the analysis requirements of each service user. After that, you can provide the result. In this case, since the system utilization is increased, the burden on service users can be reduced, and the results analyzed by marketing managers of each service user are collected in a recyclable manner, so that various service users can obtain the desired results quickly and in various ways. do. In addition, by integrating the analysis result with newly collected information and reanalyzing it, the efficiency of time-series analysis or correlation analysis based on items can be improved.

이러한 구성을 적용한 좀 더 구체적인 예를 도 3을 통해 살펴보도록 한다.A more specific example to which this configuration is applied will be described with reference to FIG. 3.

도 3은 본 발명의 실시예에 따른 빅데이터 분석 시스템의 구성도로서, 도시된 바와 같이, 기 설정된 종류의 웹 사이트로부터 설정된 탐색 기준에 따라 정보를 탐색한 후 탐색된 정보를 파싱하여 미리 마련된 계층적 공통 코드와 항목을 기준으로 하는 포맷으로 변환하는, 웹사이트 종류별로 마련된 정보 수집부(100)와, 정보 수집부(100)가 변환한 정보를 공통 코드와 크기를 참조하여 분산 저장소(300)에 분산 저장하는 분산 저장부(200)와, 분산 저장부(200)가 분산 저장한 정보에 분산 처리 방식으로 접근하여 항목 기준 가치 분석을 포함하는 분석 프로세스들에 따라 분석한 후 그 결과를 데이터베이스부(400)에 저장하고, 데이터베이스부(400)에 기 저장된 이전 가치 분석 결과와 신규 분석된 가치 분석 결과를 항목을 기준으로 재분석하여 그 결과를 데이터베이스부(400)에 더 저장하는 분석부(500)와, 데이터베이스부(400)의 분석 결과를 원하는 프로세스로 재분석하거나 요청된 쿼리에 따라 검색하여 그 결과를 출력하며 출력 내용을 분석하여 데이터 포맷에 따라 상기 분산 저장부에 데이터로 제공하거나 재사용을 위해 데이터베이스부(400)에 저장하는 결과 제공부(600)와, 정보 수집부(100)의 탐색 기준을 제공하고, 분석부(500)의 분석 프로세스를 갱신하며, 결과 제공부(600)에 재분석 프로세스나 쿼리를 제공하고 그 결과를 사용자에게 제공하는 사용자 지원부(700)를 포함한다.3 is a block diagram of a big data analysis system according to an embodiment of the present invention. As shown, a layer prepared in advance by parsing the searched information after searching for information according to a set search criterion from a preset type of website The information collection unit 100 prepared for each type of website, which converts into a format based on the enemy common code and item, and the distributed storage 300 by referring to the information converted by the information collection unit 100 with a common code and size. The distributed storage unit 200 distributedly stores the information in the distributed storage unit 200 and the distributed storage unit 200 accesses the information distributedly stored in a distributed processing method, analyzes it according to analysis processes including item-based value analysis, and then analyzes the result in a database unit. An analysis unit 500 that stores the results in the database 400, re-analyzes the previous value analysis results previously stored in the database unit 400 and the newly analyzed value analysis results based on the item, and further stores the results in the database unit 400 Wow, the analysis result of the database unit 400 is re-analyzed by a desired process or searched according to a requested query and the result is output, and the output is analyzed and provided as data to the distributed storage unit according to the data format, or a database for reuse Provides the search criteria of the result providing unit 600 stored in the unit 400 and the information collection unit 100, updates the analysis process of the analysis unit 500, and re-analysis process or It includes a user support unit 700 that provides a query and provides the result to a user.

여기서, 사용자 지원부(700)는 통합적인 사용자 인터페이스를 의미하는 [0057] 것으로 단순한 인터페이스뿐만 아니라 연관되는 각 기능부(정보 수집부(100), 분석부(500), 결과 제공부(600))에 대한 확장 기능을 제공할 수도 있으며, 경우에 따라서는 상기 각 기능부의 일부 기능으로서 해당 기능부에 포함될 수도 있다. 따라서, 사용자 지원부(700)는 다양하게 구성되거나 다양한 기능을 가질 수 있으므로 본 발명의 실시예에 따른 구성으로 한정되지 않는다.Here, the user support unit 700 refers to an integrated user interface, and not only a simple interface, but also to each associated functional unit (information collection unit 100, analysis unit 500, result providing unit 600) An extended function for each function may be provided, and in some cases, it may be included in the corresponding function unit as a partial function of each function unit. Accordingly, the user support unit 700 is not limited to the configuration according to the embodiment of the present invention, since it may be configured in various ways or have various functions.

한편, 도시된 분산 저장부(200)와 분산 저장소(300)는 데이터를 크기에 따라 구분하여 여러 곳의 저장 장소에 데이터를 저장하는 다양한 분산 저장 방식을 이용할 수 있는데, 본 실시예에서는 널리 알려져 있는 하둡 파일시스템(HDFS)을 분산 저장의 기본으로 한다. 이 경우 분석부(500)는 하둡 파일 시스템을 이용하는 맵 리듀스를 분산 처리의 기본으로 활용할 수 있다.Meanwhile, the illustrated distributed storage unit 200 and the distributed storage 300 may use various distributed storage methods of storing data in several storage locations by dividing data according to size. Hadoop file system (HDFS) is the basis for distributed storage. In this case, the analysis unit 500 may utilize map reduce using the Hadoop file system as a basis for distributed processing.

도시된 데이터베이스부(400)는 분산 저장되는 파일의 정보나 정보 수집부(100)의 탐색을 위한 탐색 기준을 저장하는 메타데이터베이스(410)와, 분류를 위한 계층적 통합 코드에 대한 정보를 구비한 코드 데이터베이스(420)와, 분석부(500)와 결과 제공부(600)가 분석을 위해 분석 결과를 저장하고 항목 기반 가치 분석 결과를 누적하며 검색 결과 중 재활용을 위한 결과를 저장하는 활용 데이터베이스(420)를 포함한다.The illustrated database unit 400 includes a metadata database 410 that stores information on a file to be distributed and a search criterion for searching the information collection unit 100, and information on a hierarchical integration code for classification. The code database 420, the analysis unit 500 and the result providing unit 600 store the analysis results for analysis, accumulate the item-based value analysis results, and store the results for recycling among the search results. ).

즉, 앞서 설명된 도 3의 설명에서 실질적으로 설명된 데이터베이스부(400)는 활용 데이터베이스(420)를 의미한다. 그 외의 데이터베이스(410, 430)는 이후 추가로 설명한다.That is, the database unit 400 substantially described in the description of FIG. 3 described above refers to the utilization database 420. Other databases 410 and 430 will be described later.

한편, 도시된 구성에서 정보 수집부(100)는 회원 정보 획득부(110)와 정보 탐색 수집부(120)를 포함하는데, 이중에서 회원 정보 획득부(110)는 선택적으로 적용될 수 있다. 도시된 회원 정보 획득부(110)는 정보 수집 시 내부 회원 정보나 내부 회원의 이용 정보를 수집하며 필요에 따라 정보 탐색 수집부(120)에서 다양한 웹사이트로부터 정보를 수집할 때 회원 정보에 관련된 정보를 수집할 수 있도록 하는 정보를 제공해 줄 수 있다.Meanwhile, in the illustrated configuration, the information collection unit 100 includes a member information acquisition unit 110 and an information search and collection unit 120, of which the member information acquisition unit 110 may be selectively applied. The illustrated member information acquisition unit 110 collects internal member information or use information of internal members when collecting information, and information related to member information when the information search and collection unit 120 collects information from various websites as needed. You can provide information that allows you to collect.

물론, 정보 수집부(100)는 사용자 지원부(700)를 통해 사용자가 설정하는 키워드를 기준으로 설정되는 웹사이트들에서 정보를 수집하는 정보 탐색 수집부(120) 만을 구성할 수도 있다.Of course, the information collection unit 100 may configure only the information search and collection unit 120 that collects information from websites set based on keywords set by the user through the user support unit 700.

앞서 설명했던 바와 같이 본 발명의 실시예에서는 다양한 웹사이트들로부터 원하는 정보를 탐색하여 수집하면서 이들을 파싱하여 적절한 분류 코드와 항목을 가지는 포맷으로 변환하는 정보 수집부를 웹사이트의 종류별로 구성한다.As described above, in an embodiment of the present invention, an information collection unit that searches for and collects desired information from various websites, parses them, and converts them into a format having appropriate classification codes and items, is configured for each type of website.

이를 도 4를 참조하여 좀 더 상세히 설명한다.This will be described in more detail with reference to FIG. 4.

도 4는 본 발명의 실시예에 따른 정보 탐색 수집부(120)의 구성과, 이러한 정보 탐색 수집부(120)의 정보 탐색을 위한 탐색 기준이 설정된 메타데이터 데이터베이스(410) 및 해당 탐색 기준을 메타데이터 데이터베이스(410)에 제공하는 사용자 지원부(700)의 구성이 도시된다.4 illustrates the configuration of an information search and collection unit 120 according to an embodiment of the present invention, a metadata database 410 in which a search criterion for information search by the information search and collection unit 120 is set, and a corresponding search criterion. The configuration of the user support unit 700 provided to the data database 410 is shown.

본 발명의 실시예에서는 도시된 정보탐색 수집부(120)가 빅데이터 분석이 가능하도록 다양한 정보를 수집하는 방식을 채택하는데, 이를 좀 더 구체적으로 살펴본다.In an embodiment of the present invention, the illustrated information search and collection unit 120 adopts a method of collecting various information to enable big data analysis, which will be described in more detail.

우선 정형화된 내부 정보가 아닌 다양한 결과 제공 포맷이나 제공 결과들(웹페이지, 문서, 게시판, 덧글 등)을 통합적으로 분석할 수 있도록 항목을 기준으로 규격화하고 검색된 내용을 종류별로 구분하기 위해서 분류 기준을 계층적 통합 코드로 구분하도록 한다. 이를 위에서 각 웹사이트 종류에 따라 각각 달리 제공되는 탐색 결과들을 파싱 방식으로 분석하여 통합 코드와 항목을 기준으로 하는 포맷으로 변환하도록 하는 정보 검색부를 웹사이트 종류에 맞추어 구성하도록 한다. 이를 통해서 웹사이트 자체의 규정이 변경되거나 탐색 결과의 상태가 변화되더라도 해당 정보 검색부만 갱신하면 되도록 하고, 신규 웹사이트를 추가할 경우에도 대응되는 정보 검색부를 추가하면 되도록 하여 정보 탐색을 위한 관리가 용이하도록 함과 아울러 다양한 웹사이트에 따라 수집 정보가 다양하더라도 수집 정보들을 통합적으로 분석 가능한 데이터로 변환할 수 있게 된다. 물론 이렇게 포맷을 맞춘다 하더라도 유사성을 가지는 항목들 중 하나를 선택하여 항목을 결정하는 정도까지 탐색 결과를 구분하는 것은 가능하지만 그 항목의 데이터 종류까지도 일치시키는 것은 대단히 어렵다. 따라서 관련 항목으로 수집되는 데이터라 하더라도 그 데이터는 정형 혹은 비정형 데이터일 수 있고, 이는 분석부에서 정형 데이터와 비정형 데이터를 연동하여 처리하는 여러 알려져 있는 방식들 중 하나를 선택하여 처리하도록 한다.이를 위하여 도시된 정보탐색 수집부(120)는 메타데이터(410)에 설정된 탐색 기준(키워드, 탐색 대상 정보의 생성 시간, 대상 웹사이트, 탐색 주기, 탐색 정도, 회원 정보 등)에 따라 정보를 탐색하도록 하는 수집 관리 모듈(122)과, 수집 관리 모듈(122)의 요청에 따라 설정된 웹사이트(800)에 접속하여 정보를 탐색하는 정보 탐색 모듈(121)과, 정보 탐색 모듈(121)에 의해 탐색된 정보를 해당 웹사이트의 특성을 고려하여 파싱한 후 관계성이 정의된 항목들을 기준으로 포맷을 변환하는 데이터 생성 모듈(123)과, 데이터 생성 모듈(123)이 생성한 정보를 분산 저장부(200)에 제공하는 데이터 제공 모듈(124)을 포함한다.First, standardize on the basis of items so that various results provision formats or provision results (webpages, documents, bulletin boards, comments, etc.) can be analyzed in an integrated manner rather than standardized internal information, and classification criteria are established to classify the searched contents by type. It should be classified as a hierarchical integration code. In the above, an information search unit that analyzes the search results that are provided differently according to each website type in a parsing method and converts it into a format based on an integrated code and item is configured according to the website type. Through this, even if the regulations of the website itself change or the status of the search result changes, only the relevant information search unit needs to be updated, and when a new website is added, the corresponding information search unit can be added, so that management for information search is possible. In addition to making it easier, even if the collected information varies according to various websites, it is possible to convert the collected information into data that can be analyzed in an integrated manner. Of course, even if the format is tailored in this way, it is possible to classify the search results to the extent that an item is determined by selecting one of items with similarity, but it is very difficult to match the data type of the item. Therefore, even if the data is collected as a related item, the data may be structured or unstructured data, and the analysis unit selects and processes one of several known methods in which structured data and unstructured data are interlinked and processed. The illustrated information search and collection unit 120 searches for information according to a search criterion (keyword, generation time of search target information, target website, search cycle, search degree, member information, etc.) set in the metadata 410. The collection management module 122, the information search module 121 for searching for information by accessing the website 800 set at the request of the collection management module 122, and the information searched by the information search module 121 The data generation module 123 converts the format based on the items for which the relationship is defined after parsing the data in consideration of the characteristics of the corresponding website, and the distributed storage unit 200 It includes a data providing module 124 to provide to.

여기서, 데이터 생성 모듈(123)은 탐색된 정보를 파싱하여 규격화된 포맷으로 변환하면서 해당 정보가 속하는 분류를 계층적 공통 코드 정보로 추가할 수 있다. 예를 들어, 해당 정보가 최근 사용했던 립스틱에 관한 정보라면 여성용품-화장품-립스틱에 해당하는 공통 코드 정보일 수 있다.Here, the data generation module 123 may parse the searched information and convert it into a standardized format, and add a classification to which the information belongs as hierarchical common code information. For example, if the information is information about a lipstick that has been recently used, it may be common code information corresponding to women's products-cosmetics-lipstick.

또한, 필요한 경우 데이터 생성 모듈(123)은 수집되는 개인정보를 익명 처리하고 식별 정보는 암호화하거나 삭제하는 보안 관련 처리를 수행할 수도 있다.In addition, if necessary, the data generation module 123 may perform security-related processing of anonymizing collected personal information and encrypting or deleting identification information.

한편, 탐색된 정보는 임의의 웹사이트로부터 얻은 정보이기 때문에 특정 웹사이트에서는 제공되는 항목을 다른 웹사이트에서는 제공하지 않을 수 있고, 특정 웹페이지에서는 확인되는 항목이 다른 웹페이지에서는 확인되지 않을 수도 있으므로 빅데이터 분석을 위해서 관계성을 설정한 항목들을 마련하고 그로부터 해당 웹사이트에 적합한 항목을 선택하여 마련된 포맷으로 정리할 수 있도록 한다. 예를 들어, 사용자의 성별, 나이, 위치와 같은 항목들은 관련 항목에 대응되는 정보가 수집될 수도 있고 수집되지 않을 수도 있다. 따라서, 이러한 경우 수집 대상 기본 정보로서 성별, 나이, 위치 등을 관계성이 있는 항목으로 마련하고 이들 중에서 해당 웹사이트에서 얻어지는 정보를 대응되는 항목으로 설정할 수 있다. 다른 예로서, 사용자의 위치 정보가 소정 웹사이트에서는 사용자 IP 정보로서 대략적 사용자 위치를 확인할 수 있는 정보로 수집되고, 다른 웹사이트에서는 주소 정보로 수집되며, 또 다른 웹사이트에서는 GPS 정보로 수집될 수 있는데, 이들은 모두 위치 항목으로 관계성을 가질 수 있다. 하지만 이들은 각각 데이터 구조가 상이하다. 따라서, 이들을 특정한 정보(주소나 GPS 위치)로 변환하여 포맷에 맞출 수도 있고 관계성을 가지는 위치 항목들 중 적절한 세부 항목들로 분류하여 포맷을 구성할 수도 있다.On the other hand, since the searched information is information obtained from a certain website, the items provided on a specific website may not be provided on other websites, and the items identified on a specific webpage may not be confirmed on other webpages. For big data analysis, items with relational settings are prepared, and from them, items suitable for the website are selected and arranged in the prepared format. For example, for items such as the user's gender, age, and location, information corresponding to the related item may or may not be collected. Accordingly, in this case, gender, age, location, etc., as the basic information to be collected may be provided as related items, and information obtained from the corresponding website among them may be set as corresponding items. As another example, the user's location information may be collected as user IP information on a certain website as information that can confirm the approximate user location, on another website as address information, and on another website as GPS information. However, all of these can have a relationship as a location item. However, each of them has a different data structure. Accordingly, it is possible to convert them into specific information (address or GPS location) to fit the format, or to classify them into appropriate detailed items among location items having a relationship to form a format.

이러한 항목 정보는 이후 분석 시 항목들 간 관계성에 따른 가치 분석이나 항목을 기준으로 하는 1:N 정보 생성에 따른 연관 분석 등에서 활용될 수 있으므로 그 포맷 설정은 중요한 부분이라 할 수 있으며, 본 발명의 실시예에서는 이러한 포맷 설정을 웹사이트의 특성을 반영하여 파싱할 수 있도록 함으로서 수집 대상의 특성에 최적화된 변환이 가능하게 된다.Since such item information can be used in value analysis according to the relationship between items in subsequent analysis, or in association analysis according to 1:N information generation based on items, the format setting can be said to be an important part, and implementation of the present invention. In the example, this format setting can be parsed by reflecting the characteristics of the website, thereby enabling conversion optimized for the characteristics of the collection target.

도 5는 본 발명의 실시예에 따른 분산 저장부(200)의 구성 예를 보인 것으로 도시된 바와 같이 분산 저장부(200)는 웹사이트 종류별로 별도로 마련된 복수의 정보 수집부들에 대응되는 복수의 단위 분산 저장부(210)를 구비하는데, 이러한 단위 분산 저장부(210)는 정보 수집부가 자신의 변환 규칙에 맞추어 제공하는 포맷의 탐색정보를 수집하고 그에 대한 통합 코드를 코드 데이터베이스(430)에서 확인하여 분류 식별자를 부가하고 그 크기를 구분하여 분산 저장소(300)에 분산하여 저장한다.5 is a configuration example of a distributed storage unit 200 according to an embodiment of the present invention. As shown, the distributed storage unit 200 includes a plurality of units corresponding to a plurality of information collecting units separately provided for each type of website. A distributed storage unit 210 is provided, and the unit distributed storage unit 210 collects search information in a format provided by the information collection unit according to its own conversion rule, and checks the integrated code for it in the code database 430 A classification identifier is added, the size is classified, and distributed in the distributed storage 300 and stored.

각 단위 분산 저장부(210)는 수집된 정보를 분산 저장소(300)에 분산 저장하면서 분산 저장한 위치, 파일명, 그룹 코드, 입력 날짜 등에 대한 정보를 메타데이터 데이터베이스(410)에 제공하는 수집 에이전트 모듈(211)과, 수집되는 데이터의 크기에 따라 분할하여 저장하도록 하는 데이터 흐름 제어 모듈(212)을 포함한다.Each unit distributed storage unit 210 distributedly stores the collected information in the distributed storage 300 and provides information on the distributed storage location, file name, group code, input date, etc. to the metadata database 410 (211) and a data flow control module 212 that divides and stores according to the size of the collected data.

도 6은 본 발명의 실시예에 따른 분석부(500) 구성을 보인 것으로, 도시된 바와 같이 분산 저장부(200)에 의해 분산 저장소(300)에 분산 저장된 데이터를 쿼리하거나 맵리듀스 방식 등으로 분산 처리하고 필요한 경우 그 분석 결과 중 데이터와 같은 포맷을 재활용을 위해 다시 분산 저장소(300)에 데이터로 저장하도록 하는 분산 처리모듈(510)과, 항목 기반 가치 분석을 포함하는 다양한 분석 프로세스(분석 스크립트, 알고리즘, 설정 등)를 관리하는 분석 프로세스 모듈(530)과, 분석 프로세스 모듈(530)의 각 분석 프로세스에 따라 분석을 자동적으로 수행하여 그 결과를 산출하는 데이터 분석 모듈(520)과, 데이터 프로세스 모듈(530)의 개별 분석 프로세스들을 등록, 갱신, 제거하고, 필요한 경우 코드 데이터베이스(430)로부터 통합 코드 정보를 확인하여 데이터 분석 모듈(520)에 제공하며, 데이터 분석 모듈(520)이 분석한 결과를 수집하여 활용 데이터베이스(420)에 기록하는 분석제어 모듈(540)을 포함한다. 사용자 지원부(700)는 분석부(500)에 원하는 분석을 위한 분석 프로세스를 제공하거나 기존 프로세스를 갱신하거나 혹은 기존 프로세스를 삭제하는 등에 대한 정보를 제공할 수 있다.6 shows the configuration of the analysis unit 500 according to an embodiment of the present invention. As shown, data distributed in the distributed storage 300 by the distributed storage unit 200 are queried or distributed by a MapReduce method, etc. Distributed processing module 510 that processes and, if necessary, stores the same format as data in the distributed storage 300 for recycling as data, and various analysis processes including item-based value analysis (analysis script, An analysis process module 530 that manages algorithms, settings, etc.), a data analysis module 520 that automatically performs analysis according to each analysis process of the analysis process module 530 and calculates the result, and a data process module The individual analysis processes of 530 are registered, updated, and removed, and if necessary, the integrated code information is checked from the code database 430 and provided to the data analysis module 520, and the results of the data analysis module 520 are analyzed. It includes an analysis control module 540 that collects and records it in the utilization database 420. The user support unit 700 may provide the analysis unit 500 with an analysis process for a desired analysis, update an existing process, or provide information about deleting an existing process.

상기 분석 제어 모듈(540)은 효과적인 바이럴 마케팅 분석을 위해서 항목 기준 연관성 분석에 의한 가치 분석을 포함하는 분석 프로세스들(조회, 정형.비정형 연계분석, 통계분석, 텍스트 분석, 기계학습, 배치 분석, 데이터 연관 관계 파악, 패턴 추출, 랭킹, 이슈 분석, 시기 분석, 연관어 분석, 상관 분석, 회귀 분석 등)을 이용하여 수집된 데이터를 분석한 후 그 결과를 활용 데이터베이스(420)에 저장하고, 활용 데이터베이스에 기 저장된 이전 가치 분석 결과와 신규 분석된 가치 분석 결과를 항목을 기준으로 재분석하여 그 결과를 활용 데이터베이스(420)에 더 저장한다. 이러한 과정이 반복되면 항목에 대해 1:N 분석 정보를 누적할 수 있고 이를 통해 연관 분석이 가능하게 되므로 분석 결과들의 변화에 대해서 다양한 정보를 확인할 수 있게 된다. 예를 들어 특정 립스틱에 대한 사용 정보들이 시간에 따라 어떻게 확산되거나 어떠한 방향(나이, 지역, 특정 소속, 웹사이트 기준방향)으로 변화되는지 확인할 수 있으며 이를 광고의 실시와 관련하여 분석하는 것으로 바이럴 마케팅 효과를 확인할 수 있다.The analysis control module 540 includes analysis processes including value analysis based on item-based correlation analysis for effective viral marketing analysis (inquiry, formal and unstructured linkage analysis, statistical analysis, text analysis, machine learning, batch analysis, and data). After analyzing the collected data using correlation identification, pattern extraction, ranking, issue analysis, timing analysis, association word analysis, correlation analysis, regression analysis, etc.), the result is stored in the utilization database 420, and the utilization database The previous value analysis result and the newly analyzed value analysis result are re-analyzed based on the item, and the result is further stored in the utilization database 420. If this process is repeated, 1:N analysis information can be accumulated for an item, and a correlation analysis is possible through this, so that various information about changes in analysis results can be checked. For example, it is possible to check how the usage information for a specific lipstick spreads over time or in what direction (age, region, specific affiliation, website reference direction), and analyze this in relation to the execution of advertisements, which is the effect of viral marketing. You can check.

한편, 데이터 분석 모듈(520)이나 분석 제어 모듈(540)은 분석된 결과를 다시 데이터로서 분산 저장소(300)에 저장하도록 할 수 있다.Meanwhile, the data analysis module 520 or the analysis control module 540 may store the analyzed result in the distributed storage 300 again as data.

여기서, 활용 데이터베이스(420)는 하둡 분산 처리를 효과적으로 수행하기 위해 고속 데이터베이스 분석을 지원하는 데이터베이스로서, 로(Row)의 길이가 수조개에 이르는 빅데이터 분산 처리를 위한 NoSQL 기반 데이터베이스인 HBase를 이용할 수 있다. 이는 인메모리 기반으로 구성되어 빅데이터 분석 속도를 높일 수 있으며, 분석부(500)를 통해 분석된 결과를 저장하여 저장 내용을 다양한 서비스에 빠르게 활용할 수 있도록 한다. 물론 활용데이터베이스(420)는 이러한 HBase외에도 다양한 다른 종류의 데이터베이스와의 호환성을 제공하기 위해 메모리 스토어 및 인터페이스의 형태를 가질 수도 있다. 따라서 다양한 종류의 메모리 기반 데이터베이스로 동작할 수 있다.Here, the utilization database 420 is a database that supports high-speed database analysis in order to effectively perform Hadoop distributed processing, and HBase, a NoSQL-based database for distributed processing of big data with a row length of several trillions, can be used. have. This is configured on an in-memory basis to increase the speed of big data analysis, and stores the analyzed result through the analysis unit 500 so that the stored contents can be quickly utilized for various services. Of course, the utilization database 420 may have the form of a memory store and an interface in order to provide compatibility with various other types of databases in addition to the HBase. Therefore, it can operate with various types of memory-based databases.

도 7은 본 발명의 실시예에 따른 결과 제공부(600)의 구성을 보인 것으로, 도시된 바와 같이 활용 데이터베이스(420)의 분석 결과를 원하는 프로세스로 재분석하거나 요청된 쿼리에 따라 검색하여 그 결과를 출력하도록 하는 정보 유통 모듈(610)과 활용 데이터베이스(420)를 활용할 프로세스나 쿼리를 제공하는 서비스 어플리케이션 모듈(620)과, 결과 출력 내용을 분석하여 데이터 포맷에 따라 로그와 분석이 가능한 이벤트는 분산 저장부를 통해 분산 저장소에 데이터로 제공하고 즉시 활용 및 서비스가 가능한 결과 이벤트는 재사용을 위해 활용 데이터베이스(420)에 저장하는 이벤트 분석 모듈(630)을 포함할 수 있다.7 shows the configuration of the result providing unit 600 according to an embodiment of the present invention. As shown, the analysis result of the utilization database 420 is re-analyzed by a desired process or the result is retrieved according to a requested query. The information distribution module 610 to be output and the service application module 620 to provide a process or query that utilizes the utilization database 420, and the log and events that can be analyzed according to the data format by analyzing the result output content are distributed and stored. The event analysis module 630 that is provided as data to a distributed storage through the unit and can be immediately utilized and serviced may include an event analysis module 630 that stores the result event in the utilization database 420 for reuse.

여기서, 서비스 어플리케이션 모듈(620)은 사용자와 연동하는 시스템으로서 실질적으로 사용자 지원부(700)에 연동되는 인터페이스일 수 있고, 실질적인 분석 프로세스나 쿼리는 사용자 지원부(700)를 통해서 제공되는 것일 수 있다.Here, the service application module 620 may be a system interlocking with a user and may be an interface that is substantially interlocked with the user support unit 700, and a substantial analysis process or query may be provided through the user support unit 700.

한편, 사용자 지원부(700)의 일부 기능은 결과 제공부(600)와 통합될 수 있는데, 이 경우 상기 정보 유통 모듈(610)은 활용 데이터베이스(420)에 저장된 분석 결과들을 활용하는 기능 외에도 필요한 경우 분석부(500)에 새로운 분석 프로세스를 제공하여 그에 따른 분석 결과를 수집하여 사용자에게 출력하도록 하는 일종의 디스패처 기능을 제공할 수도 있다. 이 경우 결과 제공부(600)는 외부 분석 솔루션 혹은 외부 분석 솔루션과의 연계를 위한 인터페이스이거나 외부 사용자 사이트에 커스터마이징될 수 있는 분석 구성을 포함할 수도 있고, 서비스 어플리케이션 모듈은 분산 처리를 위한 분석 엔진(예를 들어 분산 처리 데이터베이스의 분석을 위한 도구인 알스튜디오(R-studio)를 통해 구성된 분석 엔진)일 수도 있다.On the other hand, some functions of the user support unit 700 may be integrated with the result providing unit 600. In this case, the information distribution module 610 analyzes when necessary in addition to the function of utilizing the analysis results stored in the utilization database 420. A new analysis process may be provided to the unit 500 to provide a kind of dispatcher function that collects and outputs the analysis result to the user. In this case, the result providing unit 600 may be an interface for linking with an external analysis solution or an external analysis solution, or may include an analysis configuration that can be customized on an external user site, and the service application module is an analysis engine for distributed processing ( For example, it may be an analysis engine configured through R-studio, a tool for analyzing distributed processing databases.

한편, 사용자인 마케터, 관리자, 광고주 등은 자신이 필요한 분석을 위해 키워드 등의 탐색 기준을 제공하여 정보를 수집하도록 하면 본 발명의 실시예에 따른 빅데이터 분석 시스템은 해당 탐색 기준에 따라 정보들을 주기적으로 수집한다. 이렇게 수집되는 정보들을 분산 저장하고, 분산 처리 방식으로 접근하여 분석하되 분석 정보들을 연관 분석이 가능하도록 반복적으로 분석하여 정보들을 누적한다. 이렇게 누적되는 분석 정보들을 필요에 따라 원하는 기준으로 쿼리하여 결과를 산출하거나 새로운 분석 프로세스를 제시하여 그 분석 결과를 활용할 수 있으며, 이는 실무적인 노하우에 따른 것으로 분석 시스템 설계자가 모두 지원할 수 없는 부분이다. 이러한 실무적인 분석 프로세스나 쿼리에 따른 결과들을 활용 데이터베이스에 저장하는 것으로 관련된 분석 데이터에 대한 분석 결과를 요청하는 경우 즉시 재활용할 수 있고, 이러한 분석에 따른 지속적인 사용자의 사용 기록들은 분석부에서 기계학습 방식으로 학습되어 관련 분석의 신뢰성을 높일 수 있다.On the other hand, when marketers, managers, advertisers, etc., who are users, provide search criteria such as keywords for their necessary analysis to collect information, the big data analysis system according to the embodiment of the present invention periodically collects information according to the search criteria. To collect. The collected information is stored in a distributed manner, and the information is accumulated by repeatedly analyzing the analyzed information so that the analysis information can be analyzed by accessing it in a distributed processing method. If necessary, the accumulated analysis information can be queried according to the desired criteria and the result can be calculated, or a new analysis process can be presented and the analysis result can be utilized. This is based on practical know-how, which is a part that cannot be supported by all analysis system designers. By storing the results of these practical analysis processes or queries in the utilization database, the analysis results for related analysis data can be immediately recycled, and the continuous user's usage records according to this analysis are stored in a machine learning method in the analysis unit. As it is learned, it can increase the reliability of related analysis.

이상에서는 본 발명에 따른 바람직한 실시예들에 대하여 도시하고 또한 설명하였다. 그러나 본 발명은 상술한실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.In the above, preferred embodiments according to the present invention have been illustrated and described. However, the present invention is not limited to the above-described embodiments, and any person with ordinary knowledge in the technical field to which the present invention pertains may implement various modifications without departing from the gist of the present invention appended in the claims. .

10: 정보탐색 수집 시스템 20: 분산 저장 시스템
30: 분석 시스템 40: 결과 제공 시스템
50: 사용자 지원 시스템 100: 정보 수집부
200: 분산 저장부 300: 분산 저장소
400: 데이터베이스부 500: 분석부
600: 결과 제공부 700: 사용자 지원부
10: information search and collection system 20: distributed storage system
30: analysis system 40: result providing system
50: user support system 100: information collection unit
200: distributed storage unit 300: distributed storage
400: database unit 500: analysis unit
600: result providing unit 700: user support unit

Claims (19)

기 설정된 종류의 웹사이트로부터 설정된 탐색 기준에 따라 정보를 탐색한 후 탐색된 정보를 파싱하여 미리 마련된 계층적 공통 코드와 항목을 기준으로 하는 포맷으로 변환하는, 웹사이트 종류별로 마련된 정보 수집부와 상기 정보 수집부가 변환한 정보를 공통 코드와 크기를 참조하여 분산 저장하는 분산 저장부와 상기 분산 저장부가 분산 저장한 정보에 분산 처리 방식으로 접근하여 항목 기준 가치 분석을 포함하는 분석 프로세스들에 따라 분석한 후 그 결과를 활용 데이터베이스에 저장하고, 상기 활용 데이터베이스에 기 저장된 이전 가치 분석 결과와 신규 분석된 가치 분석 결과를 항목을 기준으로 재분석하여 그 결과를 상기 활용 데이터베이스에 더 저장하는 분석부와 상기 활용 데이터베이스의 분석 결과를 원하는 프로세스로 재분석하거나 요청된 쿼리에 따라 검색하여 그 결과를 출력하며 출력 내용을 분석하여 데이터 포맷에 따라 상기 분산 저장부에 데이터로 제공하거나 재사용을 위해 상기 활용 데이터 베이스에 저장하는 결과 제공부를 포함하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.An information collection unit provided for each website type and the above, which searches for information according to a set search criteria from a preset type of website and then parses the searched information and converts the searched information into a format based on a hierarchical common code and item prepared in advance. A distributed storage unit that distributes and stores the information converted by the information collection unit with reference to a common code and size, and the distributed storage unit accesses the information distributedly stored in a distributed processing method and analyzes it according to analysis processes including item-based value analysis. After that, the analysis unit and the utilization database store the result in the utilization database, reanalyze the previous value analysis result previously stored in the utilization database and the newly analyzed value analysis result based on the item, and further store the result in the utilization database Re-analyze the analysis result of a desired process or search according to a requested query and output the result, analyze the output content and provide it as data to the distributed storage unit according to the data format, or store the result in the utilization database for reuse Big data analysis-based advertising marketing system comprising a providing unit. 청구항 1에 있어서, 상기 정보 수집부의 탐색 기준을 제공하고, 상기 분석부의 분석 프로세스를 갱신하며, 상기 결과 제공부에 재분석 프로세스나 쿼리를 제공하고 그 결과를 사용자에게 제공하는 사용자 지원부를 포함하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method according to claim 1, comprising a user support unit that provides a search criterion for the information collection unit, updates an analysis process of the analysis unit, provides a reanalysis process or a query to the result providing unit, and provides the result to a user. Advertising marketing system based on big data analysis. 청구항 1에 있어서, 상기 정보 수집부는 탐색 기준으로 기 설정된 회원 정보를 포함하며, 해당 회원에 관련된 정보를 탐색하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The big data analysis-based advertisement marketing system of claim 1, wherein the information collection unit includes member information preset as a search criterion, and searches information related to a corresponding member. 청구항 1에 있어서, 상기 정보 수집부는 탐색 기준으로 키워드를 포함하며, 범용 사용자를 위한 기초 정보로 복수의 웹사이트로부터 상기 키워드에 따른 정보를 탐색하고 탐색 결과를 분류하기 위해 마련된 계층적 공통 키워드로 구분하며, 정보를 파싱하여 관련성 정보가 설정된 항목들을 포함하는 포맷으로 변환하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method according to claim 1, wherein the information collection unit includes a keyword as a search criterion, and is divided into hierarchical common keywords provided to search for information according to the keyword from a plurality of websites as basic information for general-purpose users and classify the search result. And, by parsing the information and converting it into a format including items for which relevance information is set. 청구항 1에 있어서, 상기 정보 수집부는 수집되는 개인정보는 익명 처리하고 식별 정보는 암호화하거나 삭제하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The advertising marketing system based on big data analysis according to claim 1, wherein the information collection unit anonymizes collected personal information and encrypts or deletes identification information. 청구항 1에 있어서, 상기 정보 수집부는 항목을 기준으로 포맷을 변환하되, 비정형 데이터를 포함하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The big data analysis-based advertisement marketing system of claim 1, wherein the information collection unit converts a format based on an item and includes unstructured data. 청구항 1에 있어서, 상기 정보 수집부는 검색 포털 사이트, 소셜 네트워크 사이트, 클라우드 사이트를 포함하는 개방형 웹사이트 별로 각 웹사이트에 접속하여 검색이나 공개된 오픈 API를 통해 탐색 기준에 따른 정보를 수집하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method according to claim 1, wherein the information collection unit accesses each website for each open website including a search portal site, a social network site, and a cloud site, and collects information according to search criteria through a search or open API. Advertising marketing system based on big data analysis. 청구항 7에 있어서, 상기 정보 수집부는 웹사이트 종류별로 구분되어 구성되며, 각 정보 수집부는 웹사이트 종류에 따라 탐색 결과를 공통 코드로 구분하기 위한 기준이나 탐색 결과를 항목을 기준으로 파싱하기 위한 기준이 다른 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method according to claim 7, wherein the information collection unit is configured by being classified for each type of website, and each information collection unit has a criterion for classifying the search result into a common code or a criterion for parsing the search result based on an item according to the type of website. Big data analysis-based advertising marketing system, characterized in that another. 청구항 1에 있어서, 상기 분석부는 분석 결과를 상기 분산 저장부에 데이터로서 다시 제공하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The big data analysis-based advertisement marketing system of claim 1, wherein the analysis unit provides the analysis result as data to the distributed storage unit again. 청구항 1에 있어서, 상기 분석부는 항목을 기준으로 수행되는 가치 분석 결과를 상기 활용 데이터베이스에 저장하여 1:N의 연관 분석을 위한 데이터를 반복적으로 수집하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The big data analysis-based advertisement marketing system of claim 1, wherein the analysis unit repeatedly collects data for 1:N association analysis by storing a value analysis result performed on an item basis in the utilization database. 청구항 1에 있어서, 상기 결과 제공부는 외부 분석 솔루션 혹은 외부 분석 솔루션과의 연계를 위한 인터페이스이거나 외부 사용자 사이트에 커스터마이징될 수 있는 분석 구성을 포함하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The big data analysis-based advertisement marketing system of claim 1, wherein the result providing unit is an interface for linking with an external analysis solution or an external analysis solution, or includes an analysis configuration that can be customized to an external user site. 기 설정된 종류의 웹사이트에 따라 구분되는 정보 수집부가 설정된 탐색 기준에 따라 정보를 탐색하여 그 탐색 내용을 미리 마련된 계층적 공통 코드와 항목을 기준으로 하는 포맷으로 변환하는 정보 수집 단계와 상기 정보 수집 단계에서 수집된 변환된 정보를 수신한 분산 저장부가 공통 코드와 크기를 기준으로 수신 정보를 분산 저장하는 분산 저장 단계와 상기 분산 저장 단계에서 분산 저장된 정보를 이용하여 요구되는 분석을 수행하는 분석부가 상기 분산 저장된 정보에 분산 처리 방식으로 접근하여 항목 기준 가치 분석을 포함하는 분석 프로세스들에 따라 분석을 실시한 후 그 결과를 활용 데이터베이스에 저장하고, 활용 데이터베이스에 기 저장된 이전 가치 분석 결과와 신규 분석된 가치 분석 결과를 항목을 기준으로 재분석하여 그 결과를 활용 데이터베이스에 다시 저장하는 분석 단계와 사용자에게 결과를 제공하는 결과 제공부가 활용 데이터베이스의 분석 결과를 원하는 프로세스로 재분석하거나 요청된 쿼리에 따라 검색하여 그 결과를 출력하며 출력 내용을 분석하여 데이터 포맷에 따라 상기 분산 저장부에 데이터로 제공하거나 재사용을 위해 활용 데이터 베이스에 저장하는 결과 제공 단계를 포함하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.An information collection step and the information collection step in which an information collection unit classified according to a preset type of website searches for information according to a set search criterion and converts the search content into a format based on a hierarchical common code and item prepared in advance. The distributed storage step in which the distributed storage unit receiving the converted information collected in the distributed storage unit distributes and stores the received information based on the common code and size, and the analysis unit performs the required analysis using the information distributedly stored in the distributed storage step. Approach the stored information in a distributed processing method, perform analysis according to the analysis processes including item-based value analysis, store the result in the utilization database, and save the previous value analysis result and the newly analyzed value analysis result previously stored in the utilization database The analysis step of reanalyzing the data based on the item and saving the result back to the utilization database, and the result providing unit that provides the result to the user, re-analyzes the analysis result of the utilization database in a desired process or retrieves it according to the requested query and outputs the result And providing a result of analyzing the output content and providing it as data to the distributed storage unit according to the data format or storing it in a utilization database for reuse. 청구항 12에 있어서, 상기 정보 수집부에 탐색 기준을 제공하고, 상기 분석부의 분석 프로세스를 갱신하며, 상기 결과 제공부에 재분석 프로세스나 쿼리를 제공하고 그 결과를 사용자에게 제공하는 사용자 지원부를 통해 사용자의 요구를 수신하여 처리하는 단계를 포함하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method of claim 12, wherein a search criterion is provided to the information collection unit, an analysis process of the analysis unit is updated, a reanalysis process or a query is provided to the result providing unit, and the user support unit provides the result to the user. Big data analysis-based advertising marketing system comprising the step of receiving and processing the request. 청구항 12에 있어서, 상기 정보 수집 단계에서, 상기 정보 수집부는 탐색 기준으로 기 설정된 회원 정보를 포함하며, 해당 회원에 관련된 정보를 탐색하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The advertising marketing system according to claim 12, wherein in the information collecting step, the information collecting unit includes member information preset as a search criterion, and searches information related to a corresponding member. 청구항 12에 있어서, 상기 정보 수집단계에서, 상기 정보 수집부는 탐색 기준으로 키워드를 포함하며, 범용 사용자를 위한 기초 정보로 복수의 웹사이트로부터 상기 키워드에 따른 정보를 탐색하고 탐색 결과를 분류하기 위해 마련된 계층적 공통 키워드로 구분하며, 정보를 파싱하여 관련성 정보가 설정된 항목들을 포함하는 포맷으로 변환하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method according to claim 12, wherein in the information collection step, the information collection unit includes a keyword as a search criterion, and is provided to search for information according to the keyword from a plurality of websites as basic information for a general-purpose user and classify the search result. A big data analysis-based advertisement marketing system, characterized in that it is classified into hierarchical common keywords, and converts the information into a format including items for which relevance information is set. 청구항 12에 있어서, 상기 정보 수집 단계에서, 상기 정보 수집부는 검색 포털 사이트, 소셜 네트워크 사이트, 클라우드 사이트를 포함하는 개방형 웹사이트 별로 각 웹사이트에 접속하여 검색이나 공개된 오픈 API를 통해 탐색 기준에 따른 정보를 수집하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method of claim 12, wherein in the information collection step, the information collection unit accesses each website for each open website including a search portal site, a social network site, and a cloud site, and searches according to a search criterion through an open API. Big data analysis-based advertising marketing system, characterized in that collecting information. 청구항 16에 있어서, 상기 정보 수집부는 웹사이트 종류별로 구분되어 구성되며, 각 정보 수집부는 웹사이트 종류에 따라 탐색 결과를 공통 코드로 구분하기 위한 기준이나 탐색 결과를 항목을 기준으로 파싱하기 위한 기준이 다른 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method according to claim 16, wherein the information collection unit is configured by being classified for each type of website, and each information collection unit has a criterion for dividing the search result into a common code or a criterion for parsing the search result based on the item according to the type of the website. Big data analysis-based advertising marketing system, characterized in that another. 청구항 12에 있어서, 상기 분석 단계에서, 상기 분석부는 분석 결과를 다시 분산 저장부에 데이터로서 다시 제공하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The advertising marketing system based on big data analysis according to claim 12, wherein in the analysis step, the analysis unit provides the analysis result back to the distributed storage unit as data. 청구항 12에 있어서, 상기 분석 단계에서, 상기 분석부는 항목을 기준으로 수행되는 가치 분석 결과를 활용 데이터베이스에 저장하여 1:N의 연관 분석을 위한 데이터를 반복적으로 수집하는 것을 특징으로 하는 빅데이터 분석 기반 광고 마케팅 시스템.The method of claim 12, wherein in the analysis step, the analysis unit stores a value analysis result performed on an item basis in a utilization database to repeatedly collect data for 1:N association analysis. Advertising marketing system.
KR1020190120179A 2019-09-27 2019-09-27 Big Data Analytics-Based Advertising Marketing System KR20210037488A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190120179A KR20210037488A (en) 2019-09-27 2019-09-27 Big Data Analytics-Based Advertising Marketing System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190120179A KR20210037488A (en) 2019-09-27 2019-09-27 Big Data Analytics-Based Advertising Marketing System

Publications (1)

Publication Number Publication Date
KR20210037488A true KR20210037488A (en) 2021-04-06

Family

ID=75472989

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190120179A KR20210037488A (en) 2019-09-27 2019-09-27 Big Data Analytics-Based Advertising Marketing System

Country Status (1)

Country Link
KR (1) KR20210037488A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230039988A (en) * 2021-09-15 2023-03-22 네이버클라우드 주식회사 Method, computer system, and computer program to provide data analysis environment with controlled tempering

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230039988A (en) * 2021-09-15 2023-03-22 네이버클라우드 주식회사 Method, computer system, and computer program to provide data analysis environment with controlled tempering

Similar Documents

Publication Publication Date Title
KR101463974B1 (en) Big data analysis system for marketing and method thereof
US11663254B2 (en) System and engine for seeded clustering of news events
US10546006B2 (en) Method and system for hybrid information query
US20220292103A1 (en) Information service for facts extracted from differing sources on a wide area network
Chen et al. Approximate parallel high utility itemset mining
Shmueli-Scheuer et al. Extracting user profiles from large scale data
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN105205104A (en) Cloud platform data acquisition method
CN102053983A (en) Method, system and device for querying vertical search
US20140006369A1 (en) Processing structured and unstructured data
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
CA2956627A1 (en) System and engine for seeded clustering of news events
CN105183809A (en) Cloud platform data query method
Hammond et al. Cloud based predictive analytics: text classification, recommender systems and decision support
Liang et al. Co-clustering WSDL documents to bootstrap service discovery
KR20210037488A (en) Big Data Analytics-Based Advertising Marketing System
Sarkar et al. Introducing hdinsight
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
Cheng Product recommendation system design
KR20220156731A (en) Big Data Building and Data Mining System through Marketing Information Collection and Analysis for Small and Medium Businesses
KR20220104098A (en) Big data analysis system and method of search service for marketing company thereof
KR20220106416A (en) Sports Marketing System
KR20240015277A (en) Big data analysis system for marketing and method thereof
KR20220050007A (en) Big data analysis system for advertise marketing and method thereof
KR20210105687A (en) Big data analysis system for marketing and method thereof