KR20220074572A

KR20220074572A - 딥러닝 기반 신조어 추출 방법 및 그 장치

Info

Publication number: KR20220074572A
Application number: KR1020200163232A
Authority: KR
Inventors: 이진형; 장원홍; 윤동준
Original assignee: 주식회사 데이터마케팅코리아
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-03

Abstract

본 발명의 실시 예에 따른 서비스 제공 장치는, 신조어 사전 구축을 처리하는 서비스 제공 장치에 있어서, 마케팅 문서 데이터의 원문 데이터를 수집하는 원문 데이터 수집부; 및 상기 원문 데이터로부터 학습 데이터를 인덱싱 처리하는 학습 데이터 인덱싱부를 포함하고, 상기 학습 데이터 인덱싱부는, 상기 원문 데이터를 유니코드 글자 단위의 임베딩 레이어로 벡터화 처리하여, 상기 유니코드 글자 단위로 상기 학습 데이터를 인덱싱 처리한다.

Description

딥러닝 기반 신조어 추출 방법 및 그 장치{A METHOD AND AN APPARATUS FOR EXTRACTING NEW WORDS BASED ON DEEP LEARNING TO GENERATE MARKETING KNOWLEDGE GRAPHS}

본 발명은 서비스 제공 방법 및 그 장치에 관한 것이다. 보다 구체적으로, 본 발명은 딥러닝 기반 신조어 추출 방법 및 그 장치에 관한 것이다.

인터넷 기술이 발달함에 따라서, 교양, 쇼핑, 엔터테인먼트, 마케팅 등 다양한 분야에서 온라인 서비스가 제공되고 있다. 그 중, 온라인 마케팅은 최초 홈페이지를 통해서 기업 또는 제품의 정보를 사용자에게 일방적으로 전달하는 형식으로 시작되었으며, 최근에는 SNS 이용이 급증함에 따라서 SNS를 활용한 다양한 마케팅도 시도되고 있다.

특히 스마트 폰과 같은 고성능 단말 장치의 등장과, Wi-Fi 망과 같은 저렴하게 이용 가능한 무선 네트워크의 구축에 따라, 온라인 환경의 이용자는 급증하고 있는 추세이며, 이러한 온라인 환경에서 수집되는 다양한 정보들이 빅데이터로 활용되면서 마케팅 및 효과 분석에도 이용되고 있다.

그러나, 최근 분석 데이터량의 급격한 증가에 의해 이를 분석하기 위한 비용 및 시간 또한 급격히 증가되고 있다. 특히, 이러한 데이터량 증가로 인한 마케팅 환경은, 마케팅 비용 대비 효과 등을 분석하기 위한 분석 전문가와 마케터를 추가 고용하여야 하는 생산 인프라를 요구하고 있으며, 고용이 어려운 중소/중견 기업에서는 결과적으로 단편적이고 직관적인 일부 분석만이 가능할 뿐 저비용으로 효과적인 마케팅 분석 컨설팅을 제공받기는 매우 어려운 실정이다.

이에 따라, 현재로서는 중소/중견 기업에서는 마케터 직원의 직관과 감에 의존한 의사결정 마케팅이 주를 이루고 있으며, 분석할 수 있는 데이터량은 증가함에도 불구하고 그 흐름을 쫓아가기가 사실상 어려운 문제점이 있다.

따라서, 저비용으로도 정확한 근거에 기반하여 마케팅 의사결정을 용이하게 하는 효율적 마케팅 분석 서비스의 필요성이 대두되고 있다.

한편, 마케팅 데이터 분석의 품질을 보장을 위해서는 분석 대상이 되는 데이터의 품질이 매우 중요하다.

특히, SNS, 뉴스기사, 블로그, 웹페이지 등에서 매일 생산되는 신규 명사들이 도출되고 있으며, 이러한 신규 브랜드명, 신규 제품명, 10대신조어, 인플루언서 이름, 신규 채널명, 건물이름 등을 모두 텍스트 분석에 사용해야 하나, 매번 신조어 사전을 인위적으로 만들고 수정하기에는 어려움이 있는 실정이다.

이를 해결하기 위해, 일반적으로 한글 텍스트 원문을 분석하기 전 전처리로서, 문장 내 각 단어를 konlpy라는 룰 기반의 형태소로 분류하는 처리를 수행하고, 이를 통해 분류된 형태소를 이용하여 기본적인 사전 틀을 구축한 후 이에 대응하는 신조어를 구별해내는 방식이 일부 사용되고 있다.

그러나, 이러한 종래 형태소 분석 기술은 특정인이 기존에 만들어 공개한 사전 데이터를 기반으로 형태소 분석을 진행하기 때문에, 사전에 없는 신규 제품명, 신규어, 인플루언서명 등 나날이 새로 생겨나는 고유명사, 일반명사들을 쉽게 찾아내지 못하는 문제점이 있다.

또한, 종래의 기술들은 다변화되는 언어적 특징으로서, 10대 신조어, 비속어, 슬랭(slang), 사투리, 유행어와 같은 구어체를 판별해 낼 수 없는 문제점이 있다.

이처럼 데이터 전처리 측면에서 양질의 문장분석을 하지 못하기에 데이터 분석의 질이 낮아지고 있는 실정이다.

본 발명은 상기한 바와 같은 신조어 미반영으로 인한 데이터 분석의 품질 저하 문제점을 해결하기 위해, 미리 만들어진 형태소 사전에 제한되지 않고, 문장 내 명사 위치, 결합조사, 어미 등 명사의 딥러닝 기반 공통 패턴 분석을 이용하여 신조어를 추출할 수 있는 장치 및 그 동작 방법을 제공함으로써, 전반적인 신조어 추출의 정확도를 향상시키고, 마케팅 문서 데이터의 품질을 향상시킬 수 있는 딥러닝 기반 신조어 추출 방법 및 그 장치를 제공하는 데 그 목적이 있다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 서비스 제공 장치는, 신조어 사전 구축을 처리하는 서비스 제공 장치에 있어서, 마케팅 문서 데이터의 원문 데이터를 수집하는 원문 데이터 수집부; 및 상기 원문 데이터로부터 학습 데이터를 인덱싱 처리하는 학습 데이터 인덱싱부를 포함하고, 상기 학습 데이터 인덱싱부는, 상기 원문 데이터를 유니코드 글자 단위의 임베딩 레이어로 벡터화 처리하여, 상기 유니코드 글자 단위로 상기 학습 데이터를 인덱싱 처리한다.

또한, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 서비스 제공 방법은, 신조어 사전 구축을 처리하는 서비스 제공 장치의 동작 방법에 있어서, 마케팅 문서 데이터를 수집하는 단계; 및 상기 마케팅 문서 데이터에 대응하는 원문 데이터의 패턴 학습 정보로부터 상기 마케팅 특화 지식 그래프 모델 구축을 위한 딥러닝 기반 신조어 예측 처리를 수행하는 단계를 포함한다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램 및 그 프로그램이 기록된 기록 매체로 구현될 수 있다.

본 발명의 실시 예에 따르면, 미리 만들어진 형태소 사전에 제한되지 않고, 문장 내 명사 위치, 결합조사, 어미 등 명사의 딥러닝 기반 공통 패턴 분석을 이용하여 신조어를 추출할 수 있는 장치 및 그 동작 방법을 제공함으로써, 전반적인 신조어 추출의 정확도를 향상시키고, 마케팅 문서 데이터의 품질을 향상시킬 수 있는 딥러닝 기반 신조어 추출 방법 및 그 장치를 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 실시 예에 따른 마케팅 서비스 제공 장치를 보다 구체적으로 도시한 블록도이다.
도 3은 본 발명의 실시 예에 따른 마케팅 서비스 제공 장치의 동작을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 지식 그래프 구축 모듈을 보다 구체적으로 설명하기 위한 블록도이다.
도 5는 본 발명의 실시 예에 따른 지식 그래프 구축 모듈의 동작을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 지식그래프 구축 및 의미 매핑 과정을 설명하기 위한 관계도이다.
도 7은 본 발명의 실시 예에 따른 신조어 사전 구축 모듈을 보다 구체적으로 설명하기 위한 블록도이다.
도 8은 본 발명의 실시 예에 따른 신조어 사전 구축 모듈의 동작을 설명하기 위한 흐름도이다.
도 9는 본 발명의 실시 예에 따른 신조어 사전 구축 프로세스를 도식화하여 설명하기 위한 도면이다.
도 10 내지 도 12는 본 발명의 실시 예에 따른 신조어 출력 데이터를 예시하기 위한 도면들이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.

본 발명의 실시 예에 따른 전체 시스템은 마케팅 정보 분석 서비스 제공 장치(100), 상호 구분되는 하나 이상의 채널을 통해 연결된 마케팅 플랫폼(200) 및 하나 이상의 사용자 단말(300)을 포함하며, 마케팅 정보 분석 서비스 제공 장치(100)는, 머신 러닝 모듈(400)과 연결되거나, 상기 머신 러닝 모듈(400)을 포함할 수 있다.

마케팅 정보 분석 서비스 제공 장치(100)는, 마케팅 정보 분석 서비스 제공을 위해, 각 플랫폼(200) 및 사용자 단말(300)과 유/무선 네트워크를 통해 연결될 수 있으며, 학습 및 인공지능 기반의 마케팅 정보 분석을 위해 머신 러닝 모듈(400)과 연결되거나, 머신 러닝 모듈(400)을 포함할 수 있으며, 각 네트워크에 연결된 장치 또는 단말들은 사전 설정된 네트워크 채널을 통해 상호간 통신을 수행할 수 있다.

여기서 상기 각 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(mobile radiocommunication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.

사용자 단말(300)은 마케팅 의사결정을 위한 마케팅 분석 서비스를 제공 받기 위한 목적으로 마케팅 정보 분석 서비스 제공 장치(100)에 접속하는 다양한 서버 장치, 네트워크 장치 또는 단말 장치를 포함할 수 있다.

특히, 일반적으로 사용자 단말(300)들은 개별적인 보안 네트워크를 통해 마케팅 정보 분석 서비스 제공 장치(100)와 연결될 수 있으며, 마케팅 정보 분석 서비스 제공 장치(100)는 각각의 보안 네트워크를 통해 각 사용자 단말(300)들로부터 제공되는 기업 정보에 기초하여 채널 기반 마케팅 문서 데이터를 수집하고, 수집된 문서 데이터에 대응하는 분석 결과 정보를 상기 보안 네트워크를 통해 사용자 단말(300)로 제공할 수 있다. 여기서 보안 네트워크는 암호화 네트워크 일 수 있으며, 서비스 등록된 사용자 단말(300)은 기업 인증에 따른 복호화 키 정보를 사전 저장하고, 마케팅 정보 분석 서비스 제공 장치(100)로부터 수신되는 마케팅 분석 결과 정보를, 상기 복호화 키 정보에 따라 복호화하여 획득 및 출력할 수 있다.

이와 같은 본 발명의 실시 예에 따르면, 상기 사용자 단말(300)들은 마케팅 정보 분석 서비스 제공 장치(100)에 대응한 기본 정보 등록 프로세스가 완료된 상태일 수 있다.

예를 들어, 사용자 단말(300)은 각 기업 소속으로서 마케팅 정보 분석 서비스를 제공받는 단말일 수 있다. 예를 들어, 직접 마케팅 의사결정을 수행하는 기업의 단말이거나, 복수의 기업과 제휴하여 마케팅 서비스를 제공하는 기업의 단말이거나, 복수의 네트워크간 데이터를 중개하는 네트워크 서비스 기업의 단말일 수도 있다.

그리고, 마케팅 정보 분석 서비스 제공 장치(100)는 각 사용자 단말(300)로부터 기업 정보를 수신하고, 수신된 기업 정보에 기초하여 사전 분류된 마케팅 네트워크 채널 기반의 마케팅 문서 데이터를 수집하며, 상기 문서 데이터의 처리에 따른 비정형 데이터를 머신 러닝 모듈(400)을 통해 학습 처리하여, 미리 구축된 지식그래프 정보 및 온톨로지 정보와, 상기 학습 정보 및 미리 수집 및 분석된 정형 데이터를 이용하여, 마케팅 특화 지식 그래프 모델을 생성한다.

이에 따라, 마케팅 정보 분석 서비스 제공 장치(100)는 상기 마케팅 특화 지식 그래프 모델을 이용한 마케팅 시장 트렌드 및 수요 예측 분석을 처리할 수 있으며, 처리된 결과 정보에 따른 마케팅 분석 정보를 사용자 단말(300)로 제공할 수 있다.

여기서, 상기 마케팅 특화 지식그래프는, 기 구축된 지식그래프 모델 정보를 기업 정보 및 마케팅 문서 수집 정보의 자연어 분석 결과에 따라, 의미 매핑 처리하여 구축될 수 있는 것으로서, 상기 마케팅 정보 분석 서비스 제공 장치(100)는 이러한 의미 매핑 처리를 위한 자연어 처리 및 텍스트 분석에 필요한 사전(DICTIONARY) 정보와, 분류체계 구축을 위한 온톨로지 정보를 미리 수집하여 저장 및 관리할 수 있다.

보다 구체적으로, 마케팅 정보 분석 서비스 제공 장치(100)는 마케팅에 특화된 사전(DICTIONARY)과 분류 체계를 사전 수집 및 설정하고, 기업 정보에 대응하여 각 마케팅 채널별로 수집되는 마케팅 문서 정보의 자연어 분석 기반 학습 처리에 따라, 기 구축된 지식그래프에 의미 매핑을 수행할 수 있다. 이에 따라, 의미 매핑된 마케팅 특화 지식그래프는 마케팅에 특화되어 정보의 최신성과 풍부한 유의어 정보를 포함하고, 풍부한 맥락(CONTEXT)와 관계(ASSOCIATION) 정보를 포함할 수 있게 된다.

이러한 마케팅 특화 지식그래프는 키워드 간 관계 정보를 포함할 수 있으며, 마케팅 트랜드 분석 및 향후 예측 분석과 같은 다양한 솔루션에 이용될 수 있고, 세분화된 마케팅 분야별 사전 및 분류체계를 개별적으로 생성하는 데에도 이용될 수 있다.

본 발명의 실시 예에 따른 마케팅 특화 지식 그래프는 마케팅 개체인 키워드 정보를 노드로 설정하고, 각 노드 간 관계를 엣지로 나타냄으로써, 지식 키워드간 관계 정보를 포함하는 그래프 기반의 데이터 모델로서, 기본적으로는 관계형 데이터 모델이 예시될 수 있으나, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는 관계형 데이터 모델의 복잡성 및 성능 한계를 극복하기 위해 최근 제안된 시맨틱 웹(SEMANTIC WEB) 기술에 기반하여 보다 높은 효율성을 창출하고, 지식 표현 방법의 확장과, 데이터 모델의 확장성 및 시스템 간 상호 운용성 문제를 해결할 수 있다.

특히, 텍스트 분석을 위한 사전과 분류 체계는 특정 분야의 전문가에 의해 수동적으로 이루어져 전술한 바와 같은 데이터량 증가에 따른 비용증가의 문제점이 있으며, 단순히 일방적인 크롤링을 통해 구축되는 사전 및 분류 체계는 품질이 떨어지는 문제점이 있고, 통상의 웹 온톨로지 언어(OWL, Ontology Web Language)과 같은 기술 그 자체는 모델의 복잡성과 재활용성이 낮은 문제점이 있다.

이에 따라, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는, 마케팅 특화 지식 그래프 구축을 위해, 비정형 데이터 분석 정보로부터 머신 러닝을 통해 학습된 학습 정보와, 정형 데이터로부터 추출되는 지식 그래프 변환 규칙 정보와, 오픈 지식 그래프로부터 획득되는 기 구축 지식그래프 정보 및 사전 관리되는 관계 데이터베이스로부터 획득되는 온톨로지 규칙 정보에 기초하여, 다변화된 마케팅 지식 데이터를 효율적으로 의미 매핑 처리함으로써, 자동화가 가능하면서도 그 정확도 및 성능은 높일 수 있다.

특히, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는 이와 같은 다변화된 마케팅 지식 데이터의 의미 매핑 처리를 통해, 마케팅 특화 지식 그래프 기반의 키워드 분류 및 체계 정보를 제공할 수 있으며, 마케팅을 목적으로 하는 최근 이슈 키워드나 신조어 등의 반영을 용이하게 하며, 마케팅 목적의 언어간 호환 정보(예를 들어, 한글 음역에 대응하는 외래어 데이터 등)도 빠르게 구축 및 처리할 수 있다.

한편, 플랫폼(200)은 마케팅 대상이 되는 네트워크 플랫폼일 수 있으며, 각각의 접속 채널을 통해 마케팅 정보 분석 서비스 제공 장치(100)와 연결될 수 있다. 각 채널은 예를 들어, 특정 플랫폼에 대응하는 사이트 주소 정보일 수 있으며, 마케팅 정보 분석 서비스 제공 장치(100)는 사이트 주소 정보에 대응하여 결정된 각 플랫폼 채널별 마케팅 문서 데이터를 수집하고, 수집된 결과를 저장 및 분석할 수 있다.

또한, 분석에 있어서 사용되는 머신 러닝 모듈(400)은, 정형 및 비 정형 데이터의 병렬적 분석을 처리할 수 있으며, 이를 위한 하이브리드형 문서 분류 처리가 사전 수행될 수 있다. 하이브리드형 문서 분류 처리는, 머신 러닝 기반의 1차 문서 분류 프로세스와, 1차 문서 분류 프로세스로부터 획득되는 분류 정보로부터 온톨로지 사전 및 언어 법칙(Linguistic Rule)을 이용한 2차 분류 정보를 이용하여 마케팅 문서 데이터를 분류하는 2차 분류 프로세스를 포함할 수 있다. 이와 같이 1차 및 2차 분류에 따른 분류 정보는 머신 러닝 모듈(400)의 재학습 트레이닝 정보로서 이용될 수 있다.

그리고, 이러한 분류 및 분석 처리에 따라, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는 효과적인 마케팅을 위한 분석 정보 서비스를 사용자 단말(300)로 제공할 수 있다. 예를 들어, 마케팅 정보 분석 서비스 제공 장치(100)는 시장 트렌드 분석을 위한 키워드 사전 구축 서비스, 키워드별 디지털 영향력 정량화 서비스, 예측 모델에 따른 트렌드 예측 정보 제공 서비스 등을 사용자 단말(300)로 제공할 수 있다.

또한, 이러한 서비스 제공을 위해, 마케팅 정보 분석 서비스 제공 장치(100)는 사용자 단말(300)로부터 수신되는 텍스트 또는 음성 기반 요청 데이터를 분석하여, 인공지능 챗 봇 기능을 이용한 마케팅 분석 정보 제공 서비스를 제공할 수도 있다.

도 2는 본 발명의 실시 예에 따른 마케팅 서비스 제공 장치를 보다 구체적으로 도시한 블록도이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 도 2를 참조하면, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는 제어부(110), 통신부(120), 사용자 관리부(130), 채널 기반 정보 수집부(140), SNS 데이터 임베딩부(142), 분석 데이터 처리부(150), 대시보드 구성부(160), 서비스 제공부(170) 및 저장부(190)를 포함하여 구성될 수 있다.

제어부(110)는 마케팅 정보 분석 서비스 제공 장치(100)의 마케팅 문서 데이터 정보 수집, 분석 데이터 처리, 대시보드 구성 및 마케팅 정보 분석 서비스 제공을 포함하는 각 구성요소의 동작 및 기능의 실행을 전반적으로 제어한다. 예를 들어, 제어부(110)는 플랫폼(200)들로부터 수집된 정보의 분석 결과를 사용자 단말(300)들로 제공하는 기능의 전부 또는 일부를 제어하기 위한 프로세서 또는 이를 실행하기 위한 프로그램으로 구현될 수 있다.

그리고, 통신부(120)는 마케팅 정보 분석 서비스 제공 장치(100)와 이동 통신망 또는 인터넷망을 포함하는 무선 통신 시스템 사이 또는 서비스 제공 장치(100)와 플랫폼(200) 또는 사용자 단말(300)이 위치한 네트워크 사이의 유무선 통신을 가능하게 하는 하나 이상의 통신 모듈을 포함할 수 있다. 예를 들어, 통신부(120)는 송신된 신호를 부호화 및 변조하고, 수신된 신호를 복조 및 복호화하는 모뎀(modem) 또는 RF 신호를 처리하는 RF 프론트 엔드 등을 포함할 수 있다.

한편, 사용자 관리부(130)는 서비스 제공 장치(100)를 이용하는 하나 이상의 사용자 단말(300)에 대한 사용자 등록 및 계정 관리를 수행한다.

사용자 관리부(130)는 사용자 단말(300)로부터 로그인한 기업의 담당자 또는 마케팅 서비스 제공자의 계정 식별 정보, 단말 식별 정보 중 적어도 하나를 포함하는 인증 정보를 수신하고, 상기 인증 정보를 이용하여 사용자 정보의 등록을 처리할 수 있다. 이에 따라, 사용자 관리부(130)는 마케팅 서비스를 제공하거나 분석할 플랫폼(200) 정보와 이에 대응하는 사용자 단말(300) 정보를 마케팅 채널별로 등록 및 관리할 수 있다.

그리고, 채널 기반 정보 수집부(140)는 상기 사용자 관리부(130)에서 관리되는 사용자 단말(300)들에 대응하는 플랫폼(200)으로부터 각각 연결된 데이터 채널을 통해 마케팅 문서 데이터를 수집하고, 각 채널별 수집된 마케팅 문서 데이터를 분석 데이터 처리부(150)로 출력한다.

여기서, 마케팅 문서 데이터는, 본 발명의 실시 예에 따른 분석 데이터 처리부(150)에서 처리되는 기본 분석 정보를 형성할 수 있다. 마케팅 문서 데이터는 예를 들어, 플랫폼(200)으로부터 각 채널 별로 수집되는 웹 페이지 문서 데이터이거나, 사전 설정된 포맷에 대응하여 수집되는 키워드 데이터이거나, 또는 사이트 소스 코드 정보를 포함할 수도 있다.

이와 같은 채널별 수집을 위해, 채널 기반 정보 수집부(140)는, 각 플랫폼(200)에 대응하여 산업/주제/브랜드별로 분류된 키워드를 수집 및 저장하는 키워드 크롤러, 사용자 요청 수집 프로세스를 저장하고 채널별 수집 프로세스를 할당하는 수집 프로세스 매니저, 플랫폼(200)에 접속하여 채널별 수집을 수행하고 수집 결과를 저장부(190)에 저장하는 채널별 수집기와, 사이트 소스 변경에 의해 수집이 중단되는 문제를 대비하고 주기적으로 새로 갱신된 정보를 비교 리포팅하는 수집 사이트 소스 관리 매니저를 포함할 수 있다.

이에 따라, 채널 기반 정보 수집부(140)는 사용자 단말(300)로부터 요청되거나, 상기 사용자 단말(300)에 대응하여 사전 설정된 채널 정보에 따라, 특정 채널을 통한 플랫폼(200)에 접속할 수 있다. 또한, 채널 기반 정보 수집부(140)는 사용자 단말(300)로부터 수신되거나 상기 사용자 단말(300)에 대응하셔 사전 설정된 키워드 정보에 따라, 수집할 마케팅 문서 데이터를 상기 플랫폼(200)에 연결된 데이터 채널별 수집기를 통해 수집할 수 있다.

그리고, 채널 기반 정보 수집부(140)의 상기 채널별 수집기는 각 수집 완료된 마케팅 문서 데이터를 저장부(190)의 수집 결과 데이터베이스에 저장할 수 있다.

예를 들어, 채널 기반 정보 수집부(140)는 사용자 단말(300)로부터 요청된 분류 정보에 대응하는 산업/주제/브랜드별 플랫폼(200)들의 채널 정보를 식별하고, 상기 채널을 통해 사용자 단말(300)에 적합한 수집 사이트를 결정하며, 결정된 사이트로부터 사전 설정된 키워드 정보에 대응하는 마케팅 문서 데이터를 수집 및 저장할 수 있다. 특히, 상기 사전 설정된 키워드 정보는 분석 데이터 처리부(150)에서 처리되는 마케팅 온톨로지 기반의 지식그래프로부터 획득될 수 있으며, 이에 대하여는 보다 구체적으로 후술하도록 한다.

또한, 상기 채널 기반 정보 수집부(140)는 마케팅 문서 데이터가 수집된 플랫폼(200)의 사이트 정보를 등록하고, 주기적으로 모니터링할 수 있으며, 소스 코드 갱신 정보가 발생된 경우 사용자 단말(300)로 알람을 제공하며, 갱신된 데이터를 수집 저장할 수 있다.

한편, 채널 기반 정보 수집부(140)는, SNS 데이터 임베딩부(142)와 연동하여, 네트워크를 통해 수집되는 소셜 네트워크 서비스(SNS) 콘텐츠를 벡터 변환 기반으로 딥러닝 학습 처리하여 생성된 패턴 정보를 상기 마케팅 문서 데이터에 임베딩 처리할 수 있다.

이를 위해 SNS 데이터 임베딩부(142)는 채널 기반 정보 수집부(140)에 포함되거나, 별도 모듈로 구비되어 채널 기반 정보 수집부(140)에 연결 구성될 수 있으며, 이미지, 동영상 비중이 증가하고 있는 SNS 콘텐츠의 의미적 해석과 관련하여 부가적인 텍스트나 태그를 통해 콘텐츠의 의미나 의도를 보다 명확하게 식별할 수 있도록 하는 패턴 정보를 채널 기반 정보 수집부(140)에서 수집된 마케팅 문서 데이터에 임베딩 처리할 수 있다.

이와 같이 임베딩 처리된 마케팅 문서 데이터는 분석 데이터 처리부(150)에서의 분석 처리 및 마케팅 특화 지식그래포 모델 구축에 이용될 수 있으며, 이미지, 텍스트, 동영상이 결합된 컨텐츠가 대부분인 SNS데이터를 분석하는데 필요한 결합 패턴 정보를 제공함으로써, SNS 상에서의 컨텐츠 마케팅을 하는 마케터, 광고대행사들을 위한 광고의 효율성을 분석 및 개선하게 할 수 있다.

예를 들어, 본 발명의 실시 예에 따른 SNS 데이터 임베딩부(142)의 임베딩 데이터의 분석을 통해, 기업의 제품을 사용하는 소비자들의 사진 이미지, 사용후기 텍스트 데이터이 고객 프로파일링에 활용될 수 있도록 하는 마케팅 특화 지식그래프 모델이 구축될 수 있는 것이다.

이를 위해, 본 발명의 실시 예에 따른 SNS 데이터 임베딩부(142)는, 다양한 포맷의 데이터를 결합하여 그 의미를 학습하는 멀티모달 러닝(Multimodal Learning) 방식을 이용하여, 데이터 차원의 통합, 분류기 차원의 통합, 학습된 표현 간의 통합 등의 처리를 수행할 수 있으며, 나아가 SNS 채널 별(예를 들어 인스타그램, 페이스북, 유튜브 등) 콘텐츠의 데이터 유형에 최적화된 개별 결합 패턴을 추출하고, 마케팅 문서 데이터 기반 지식그래프 모델상에 임베딩 처리할 수 있다.

보다 구체적으로, SNS 데이터 임베딩부(142)는 SNS 콘텐츠의 영상 데이터, 이미지 데이터, 해시 태그나 원문, 댓글 등의 텍스트 데이터를 각각의 벡터 변환된 1차 벡터 변환 데이터로 구성할 수 있으며, 1차 벡터 변환 데이터를 다시 연결 레이어를 통해 하나의 결합 벡터로 변환하는 2차 벡터 변환 처리를 수행할 수 있다.

이렇게 2차 변환된 결합 벡터는 지식그래프 모델에 임베딩되어 SNS 콘텐츠의 다양한 포맷 데이터들을 하나의 결합 벡터로서 그 의미 정보와의 매핑 학습을 처리할 수 있는 바, 상기 의미 정보는 사전 설정된 사회 전반적 이슈 정보로 구성될 수 있다. 또한, 상기 SNS 데이터 임베딩부(142)는 알려진 SNS 네트워크 뿐만 아니라, SNS 커뮤니티, SNS 카페, SNS 블로그 등 이미지 및 영상이 결합된 SNS 데이터를 업로드 하고 있는 다양한 플랫폼(200)으로부터 SNS 데이터를 수집하여 SNS 임베딩 정보로 가공할 수 있고, 가공된 SNS 임베딩 정보는 마케팅 문서 데이터에 임베딩되어 분석 데이터 처리부(150)로 전달될 수 있다.

그리고, 분석 데이터 처리부(150)는 채널 기반 정보 수집부(140)에서 수집된 마케팅 문서 데이터의 문서 분류 처리를 수행하고, 분류된 문서 데이터를 이용한 마케팅 특화 지식 그래프 모델을 생성 또는 구축할 수 있다.

본 발명의 실시 예에 따르면, 상기 마케팅 특화 지식 그래프 모델은, 미리 구축된 키워드 기반 지식그래프 정보와, 사전 수집된 온톨로지 정보와, 상기 수집 및 분류된 문서 데이터의 머신러닝 학습 정보와, 정형 데이터 정보를 이용하여 구축될 수 있다. 마케팅 특화 지식 그래프 모델은, 모듈형 온톨로지 모델 데이터일 수 있으며, 온톨로지 모델 데이터는 주요 개념, 관계 정보, 일상 키워드 및 감성 키워드 정보로부터 구축되는 코어 온톨로지와, 최신 키워드 반영을 위한 실시간 머신러닝 기반 문서분류된 데이터로부터 구축되는 도메인 온톨로지로 계층화되어 설계될 수 있으며, 시맨틱 웹 표준기술에 의해 상호운용성이 확보될 수 있다. 시맨틱 웹 표준 기술은 예를 들어, 온톨로지 기술 질의에 대응한 표준 프로토콜 언어로의 변환 처리 기술을 포함할 수 있으며, 변환되는 온톨로지 기술 질의 포맷은 RDF(Resource Description Framework) 포맷, OWL(Web Ontoyoly language) 포맷, 스파클(SPARQL, Protocol and RDF Query Language) 포맷 등이 예시될 수 있다.

이러한 처리를 위해, 분석 데이터 처리부(150)는 지식 그래프 구축을 처리하는 지식그래프 구축 모듈(151), 상기 도메인 온톨로지에 대응하는 신조어 사전(Dictionary) 구축 모듈(152), 정형 및 비정형 문서의 필터링 분류를 위한 문서 분류 모듈(153)을 각각 포함할 수 있다. 이에 따라, 분석 데이터 처리부(150)는 생성 또는 구축된 마케팅 특화 지식 그래프 모델을 이용하여 마케팅 온톨로지 기반의 다양한 서비스 정보를 제공할 수 있다. 특히, 지식그래프 구축 모듈(151)은 머신 러닝 기반의 마케팅 학습 정보를 획득할 수 있으며, 획득된 마케팅 학습 정보는 마케팅 특화 지식 그래프 모델 구축에 이용될 수 있다.

마케팅 분석 정보 서비스 제공을 위해, 대시보드 구성부(160)는 사용자 단말(300)로 제공될 마케팅 분석 대시보드 인터페이스를 구성할 수 있으며, 상기 대시보드는 웹 인터페이스 등의 GUI(GRAPHIC USER INTERFACE) 형태로 사용자 단말(300)을 통해 시각적 또는 청각적으로 출력될 수 있다.

또한, 대시보드 구성부(160)는 사용자 친화적 마케팅 정보 분석 서비스를 위하여, 인공지능 챗 봇 기반의 마케팅 인터페이스 대시보드를 구성할 수 있으며, 이러한 마케팅 인터페이스 대시보드를 통해, 사용자 단말(300)에서 요청되는 마케팅 시장 트랜드 분석, 수요 예측 분석, 키워드 영향력 분석, 신조어 키워드 사전, 제품 경쟁력 분석 등의 다양한 서비스를 제공할 수 있다.

그리고, 서비스 제공부(170)는 사용자 단말(300)의 서비스 요청을 수신하며, 서비스 요청에 대응하는 마케팅 정보 분석 서비스 결과를 대시보드 구성부(160)에서 구성된 대시보드 인터페이스를 통해, 사용자 단말(300)로 제공하는 서비스 매니저를 포함할 수 있다.

한편, 저장부(190)는 전술한 제어부(110)의 동작 및 상기한 구성요소들의 동작을 위한 프로그램 정보를 저장하기 위한 하나 이상의 저장매체를 포함하며, 각 목적에 따른 하나 이상의 데이터베이스를 포함할 수 있다.

도 3은 본 발명의 실시 예에 따른 마케팅 서비스 제공 장치의 동작을 설명하기 위한 흐름도이다.

도 3을 참조하면, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는, 먼저 사용자 단말(300)의 서비스 요청에 따라, 플랫폼 채널 기반의 마케팅 문서 데이터를 수집한다(S101).

그리고, 마케팅 정보 분석 서비스 제공 장치(100)는 마케팅 문서 데이터의 1차 필터링 및 머신 러닝 기반의 2차 필터링에 따른 하이브리드 문서 분류 처리를 수행한다(S105).

그리고, 마케팅 정보 분석 서비스 제공 장치(100)는 마케팅 문서 데이터로부터 비정형 데이터를 추출하고(S105), 비정형 데이터에 대응하는 머신 러닝 기반 마케팅 학습 정보를 획득한다(S107).

이후, 마케팅 정보 분석 서비스 제공 장치(100)는, 미리 구축된 지식그래프 정보 및 사전 수집된 온톨로지 정보와, 상기 마케팅 학습 정보 및 정형 데이터를 이용한 마케팅 특화 지식 그래프 모델을 생성한다(S109).

그리고, 마케팅 정보 분석 서비스 제공 장치(100)는 마케팅 특화 지식 그래프 모델 기반의 마케팅 시장 트렌드 및 수요 예측 분석을 수행한다(S111).

여기서, 마케팅 정보 분석 서비스 제공 장치(100)는 사용자 단말(300)의 요청에 따른 서비스에 대응하는 분석을 수행할 수 있으며, 상기 시장 트렌드, 수요 예측 분석 뿐만 아니라, 신조어 사전 구축, 키워드 영향력 분석 등이 더 수행될 수 있다.

그리고, 마케팅 정보 분석 서비스 제공 장치(100)는 대시 보드 인터페이스를 이용하여, 자연어 처리 기반의 마케팅 분석 정보를 상기 분석 결과에 따라 제공할 수 있다(S113).

도 4는 본 발명의 실시 예에 따른 지식 그래프 구축 모듈을 보다 구체적으로 설명하기 위한 블록도이다.

도 4를 참조하면, 본 발명의 실시 예에 따른 마케팅 특화 지식 그래프 모델 데이터 생성을 위하여는, 채널 기반 정보 수집부(140)에서 수집된 마케팅 문서 데이터로부터 분류되는 비정형 데이터와, 사전 수집된 정형 데이터와, 오픈 지식 그래프로부터 획득되는 대용량 지식 그래프 및 온톨로지 정보가 필요할 수 있다.

예를 들어, 마케팅 특화 지식 그래프 모델 구축을 위한 비정형 데이터는 채널 기반 정보 수집부(140)에서 수집된 마케팅 웹페이지 원문 텍스트일 수 있으며, 정형 데이터는 범용적인 파일 포맷이거나, openAPI를 통해 수집 가능한 정형 데이터를 포함할 수 있다. 또한, 오픈 지식그래프 데이터는 RDF 형식으로 공개되어 있는 국내외의 데이터일 수 있으며, RDF 파일 또는 SPARQL Endpoint를 대상으로 한 쿼리 응답을 수신하여 획득할 수 있다.

그리고, 수집 또는 분류된 정보로부터 마케팅 특화 지식그래프 모델 데이터를 구축하기 위하여, 지식그래프 구축 모듈(151)은 도 4에 도시된 바와 같이 2단계 파이프라인 모듈을 통해 단계적으로 처리함으로써, 효과적인 마케팅 특화 지식그래프 모델 구축 처리를 수행할 수 있다.

보다 구체적으로, 도 4를 참조하면, 지식그래프 구축 모듈(151)은, 제1 파이프라인 모듈로서, 비정형 데이터 처리부(1511), 정형 데이터 처리부(1512), 오픈 지식그래프 관리부(1515) 및 관계 데이터베이스(1517)을 포함하며, 제2 파이프라인 모듈로서 자연어 분석부(1513), 지식그래프 정보 변환부(1514), 대용량 지식 그래프 처리부(1516) 및 온톨로지 정보 처리부(1518)를 포함할 수 있다.

그리고, 제2 파이프라인으로부터 출력되는 데이터는 마케팅 특화 지식그래프 구축부(1519)로 전달되어, 마케팅 특화 지식그래프 모델 데이터 생성 또는 키워드 분석 정보 생성에 이용될 수 있다.

먼저, 비정형 데이터 처리부(1511)는 제1 파이프라인 단계에서 수집된 마케팅 문서 데이터로부터 비정형 데이터를 식별하여, 자연어 분석부(1513)로 전달할 수 있다. 비정형 데이터는 예를 들어 마케팅 문서 데이터로부터 식별되는 텍스트 데이터를 포함할 수 있다.

그리고, 자연어 분석부(153)는 비정형 데이터로부터 자연어 처리 기술을 이용한 주요 키워드를 추출할 수 있다. 자연어 처리 기술은 형태소 분석, 개체명 인식 등의 기술이 예시될 수 있으며, 자연어 분석부(1513)는 보다 정확한 키워드 추출 처리를 위해나 문서 분류 모듈(153)의 분류 정보를 이용할 수 있다.

그리고, 추출된 키워드는 지식그래프 정보 변환부(1514)로 전달될 수 있다. 지식그래프 정보 변환부(1514)는, 규칙 기반(Rule-based) 마케팅 키워드 매핑 또는 머신 러닝 알고리즘 기반 매핑 등의 매핑 기술에 의해, 사전 설정된 포맷의 지식 그래프 정보에 매핑 통합되도록 하는 마케팅 지식그래프 정보로서 포맷 변환 처리될 수 있다.

그리고, 오픈 지식그래프 관리부(1515)는 openAPI 등을 이용하여 사전 구축된 오픈 지식그래프 정보를 수집 및 저장할 수 있다.

그리고, 대용량 지식 그래프 처리부(1516)는, 수집된 오픈 지식 그래프 정보가 전술한 자연어 분석 정보로부터 포맷 변환 처리된 마케팅 지식그래프 정보에 매핑될 수 있도록 준비된 대용량 지식 그래프 정보를 사전 구축하고, 구축된 대용량 지식 그래프 정보를 마케팅 특화 지식그래프 모델 구축부(1519)로 전달할 수 있다.

한편, 관계 데이터베이스(1517)는 지식 그래프 정보 변환부(1514)에서 변환된 지식 그래프 정보와 대용량 지식 그래프 처리부(1516)에서 처리된 지식 그래프 정보의 의미 매핑을 위한 온톨로지 정보를 수집 및 저장할 수 있으며, 저장된 온톨로지 정보 중 상호 호환이 가능한 온톨로지 정보를 마케팅 특화 지식그래프 구축부(1519)로 전달할 수 있다.

예를 들어, 마케팅 특화 지식그래프 모델 구축부(1519)는, RDF 파일 또는 SPARQL Endpoint로부터 수집된 오픈 지식그래프 정보를 대용량 지식그래프 처리를 위한 지식그래프 모델 정보로서 수집하고, 상기 변환된 마케팅 지식그래프 정보와 상기 대용량 지식그래프 정보간 매핑 테이블을 구축하여 마케팅 특화 지식그래프 모델을 구축할 수 있다.

이를 위해, 마케팅 특화 지식그래프 모델 구축부(1519)는, 데이터 항목마다 부여되어 있는 고유 식별자를 기준으로 매핑 처리하되, 식별자가 일치하지 않는 동일 데이터의 경우에는 사전 수집된 온톨로지 정보 기반 관계 정보와 속성 정보를 통해 일치 확률을 계산한 후, 높은 확률을 우선적으로 매핑하는 데이터 매핑 처리를 수행할 수 있다.

도 5는 본 발명의 실시 예에 따른 지식 그래프 구축 모듈의 동작을 설명하기 위한 흐름도이며, 도 6은 본 발명의 실시 예에 따른 지식그래프 구축 및 의미 매핑 과정을 설명하기 위한 관계도이다.

도 5 및 도 6은 마케팅 특화 지식 그래프 모델 데이터의 생성 프로세스를 보다 구체적으로 설명하기 위한 것으로, 지식 그래프 구축 모듈(151)은, 먼저 도 6에 도시된 바와 같이, OpenAPI 또는 정형 파일 데이터로부터 지식그래프 변환 규칙 정보를 획득할 수 있다(S201).

예를 들어, 변환 규칙 정보는 W3C 국제 표준인 R2RML(RDB to RDF Mapping Language)로 기술된 변환규칙 파일로부터 획득될 수 있다. 또한 변환 규칙 정보는 OpenAPI 또는 정형 파일 데이터로부터 RML(RDF Mapping Language)로 기술된 변환규칙을 사용하여 지식그래프 변환 규칙 데이터로 변환될 수도 있다.

이후, 지식 그래프 구축 모듈(151)은, 관계형 데이터베이스로부터 온톨로지 변환 규칙 정보를 획득하며(S203), 비정형 데이터의 자연어 분석 정보를 지식그래프 변환 규칙 정보에 따라 변환 처리한다(S205).

이후, 지식 그래프 구축 모듈(151)은 온톨로지 변환 규칙 정보에 따라, 상기 변환된 지식그래프 정보를 기 구축된 대용량 지식그래프에 매핑하여, 마케팅 특화 지식그래프 모델을 구축한다(S207).

도 6에 도시된 바와 같이, 지식 그래프 구축 모듈(151)은 마케팅 특화 지식그래프 모델 데이터를 생성하기 위한 마케팅 특화 지식그래프 모델 구축부(1519)을 포함할 수 있다. 마케팅 특화 지식그래프 모델 구축부(1519)는 의미 매핑 처리부를 포함하여, 전술한 매핑 처리를 보다 정확성이 높으면서도 효율적으로 수행할 수 있다. 여기서 의미 매핑 처리부는 퍼지(Fuzzy) 알고리즘 처리부 및 URI 식별자 처리부를 더 포함할 수 있다.

보다 구체적으로, 의미 매핑 처리부는, 지식그래프 포맷(예를 들어, RDF)으로 변환된 데이터의 항목과, 기 구축된 대용량 지식그래프 항목 간의 의미적 매핑을 처리할 수 있다.

이를 위해, 의미 매핑 처리부는 모든 데이터 항목에 할당되어 있는 URI 식별자를 비교하여 1차 매핑을 처리하는 URI 식별자 처리부를 포함할 수 있다.

그리고, 의미 매핑 처리부는 1차 매핑 처리된 데이터로부터 한국어의 언어적 특성에 맞춰 개발된 레펜슈타인 퍼지 알고리즘(Levenshtein fuzzy metric algorithm)를 기반으로 구현된 단어 간 의미적 매핑 도구를 적용하여, 자동화된 의미 매핑을 처리할 수 있다. 상기 자동 매핑이 완료된 데이터는 샘플링 처리될 수 있으며, 처리된 샘플링 데이터는 이후 매핑 검수 및 교정 처리에 이용될 수 있다.

한편, 지식 그래프 구축 모듈(151)은, 의미 매핑이 완료된 지식그래프 모델 데이터를 마케팅 특화 지식 그래프 모델 데이터로서 획득할 수 있다. 예를 들어, 지식 그래프 구축 모듈은(151)은 기 구축된 대용량 지식 그래프 데이터가 저장된 트리플스토어(Triplestore) 방식의 데이터베이스에 상기 매핑 처리된 지식그래프 데이터를 임포트시켜 지식그래프 모델을 통합적으로 생성할 수 있다.

이에 따라, 최종적인 지식그래프 모델은 RDF(Resource Description Framework) 데이터 모델로 기술되는 것이 바람직하며, 이는 호환성 및 분석 효율을 높일 수 있게 한다.

또한, 기 구축된 대용량 지식그래프의 항목별 분류 체계는 마케팅 분야 도메인 전문가에 의해 생성된 마케팅 특화 체계일 수 있으며, 이를 위해 오픈 지식 그래프 관리부(1515)는 국제적인 웹자원 식별체계인 schema.org와 국내 주요 포털 서비스의 브랜드 및 제품 분류체계 정보를 각각 수집하여 조합함으로써, 보다 효율적인 대용량 지식 그래프를 구축 처리할 수 있다. 이를 위해, 오픈 지식 그래프 관리부(1515)는 각 분류체계 키워드에 대응하는 대중 관심도(주요 포털서비스의 기간별 검색량 수치로 산출될 수 있음)를 기반으로 분야별 분류체계의 관리를 수행하고, 분야별 분류체계의 유지 또는 아카이브를 결정할 수 있다.

이와 같은 지식그래프 모델 구축에 따라, 본 발명의 실시 예에 따른 마케팅 정보 분석 서비스 제공 장치(100)는, 일반적인 지식그래프의 단점으로 지적되는 최신성 있는 키워드의 미 반영 문제와, 한국어 기반 지식그래프 및 분석용 사전(Dictionary) 데이터의 구축의 어려움을 해결하고, 마케팅 특화 지식그래프 모델 구축을 통한 마케팅 트렌드 및 키워드 분석을 용이하게 하며, 특히 신조어 반영 및 한글 키워드 분석을 용이하게 하여 보다 저비용으로도 정확한 마케팅 정보 분석 서비스를 제공할 수 있는 장점이 있다.

도 7은 본 발명의 실시 예에 따른 신조어 사전 구축 모듈(152)을 보다 구체적으로 설명하기 위한 블록도이다.

도 7을 참조하면, 본 발명의 실시 예에 따른 신조어 사전 구축 모듈(152)은, 원문 데이터 수집부(1521), 학습 데이터 인덱싱부(1522), 형태소 딥러닝 기반 신조어 예측 처리부(1523) 및 예측 신조어 처리부(1524)를 포함한다.

신조어 사전 구축 모듈(152)은, 전술한 바와 같은 구어체를 판별 문제 및 데이터 전처리의 양질 분석을 수행하기 위해 도출된 것으로서, 미리 만들어진 형태소 사전에 제한되지 않고, 문장 내 명사 위치, 결합조사, 어미 등 명사의 딥러닝 기반 공통 패턴 학습 분석을 이용하여 신조어를 추출하고 출력할 수 있다.

이를 위해, 신조어 사전 구축 모듈(152)은, 상기 마케팅 문서 데이터에 대응하는 원문 데이터의 패턴 학습 정보로부터 상기 마케팅 특화 지식 그래프 모델 구축을 위한 딥러닝 기반 신조어 예측 처리를 수행할 수 있다.

보다 구체적으로, 원문 데이터 수집부(1521)는, 상기 마케팅 문서 데이터로부터 원문 데이터를 수집 처리한다.

예를 들어, 원문 데이터는 문어체, 구어체 구별 없이 다양한 SNS 데이터, 뉴스기사 데이터, 블로그 데이터 또는 웹 페이지 등에서 매일 생산되는 텍스트 데이터일 수 있으며, 제품명, 브랜드명, 인플루언서 명 등을 포함할 수 있다.

그리고, 학습 데이터 인덱싱부(1522)는, 상기 원문 데이터로부터 학습 데이터를 인덱싱 처리한다.

여기서, 상기 학습 데이터 인덱싱부는, 상기 원문 데이터를 유니코드 글자 단위의 임베딩 레이어로 벡터화 처리하여, 상기 유니코드 글자 단위로 상기 학습 데이터를 인덱싱 처리할 수 있다.

또한, 상기 하나 이상의 단어들은 명사 단어인 것이 바람직하며, 학습 데이터 인덱싱부(1522)는 상기 원문 데이터의 글자 단위 인덱싱에 기초하여, 명사 여부 플래그를 결정하고, 상기 명사 여부 플래그를 상기 인덱싱 처리된 학습 데이터에 삽입 처리할 수 있다. 이에 따라, 신규 단어를 검출할 수 있는 인덱싱 데이터가 구성될 수 있는 바, 이에 대하여는 이하의 도 9 내지 도 12 등을 참조하여 보다 구체적으로 후술하도록 한다.

그리고, 형태소 딥러닝 기반 신조어 예측 처리부(1523)는, 상기 인덱싱 처리된 학습 데이터를 형태소 딥러닝 기반의 학습 모델에 적용하여, 하나 이상의 단어에 대응하는 신조어 예측값을 출력한다.

이에 따라, 예측 신조어 처리부(1524)는, 상기 신조어 예측값이 일정 값 이상인 하나 이상의 단어들을 예측 신조어로 출력할 수 있다.

이에 따라 분석 데이터 처리부(150)는 상기 신조어 사전 구축 모듈(152)로부터 획득되는 예측 신조어를 이용하여, 상기 마케팅 특화 지식 그래프 모델의 자연어 분석 프로세스를 수행할 수 있다.

도 8은 본 발명의 실시 예에 따른 신조어 사전 구축 모듈(152)의 동작을 설명하기 위한 흐름도이며, 도 9는 본 발명의 실시 예에 따른 형태소 딥러닝 학습 모델 구축 및 적용 프로세스를 도식화하여 설명하기 위한 도면이다.

도 8을 참조하면, 본 발명의 실시 예에 따른 신조어 사전 구축 모듈(152)은, 사전 수집된 마케팅 문서 데이터로부터 원문 데이터를 수집한다(S501)

그리고, 신조어 사전 구축 모듈(152)은, 상기 원문 데이터로부터, 유니코드 글자 단위로 학습 데이터의 인덱싱 처리를 수행한다(S503).

그리고, 신조어 사전 구축 모듈(152)은, 인덱싱된 학습 데인터를 형태소 딥러닝 기반의 신조어 예측 처리 모델에 적용한다(S505).

이에 따라, 신조어 사전 구축 모듈(152)은, 예측 결과를 가공하여 신조어 데이터로서 분석 데이터 처리부(150)로 출력한다(S507).

도 9에 도시된 바와 같이, 본 발명의 실시 예에 따른 마케팅 문서 데이터는 "프랑스의 세계적인 의상 디자이너"와 같은 원문 데이터를 포함할 수 있으며, 학습 데이터 인덱싱부(1522)는 이러한 원문 데이터를 사전 구축된 학습 모델에 적용하기 위한 유니코드 글자 단위 인덱싱 처리와 함께, 명사 여부를 결정하여 인덱싱 정보에 부가할 수 있다.

보다 구체적으로, 학습 모델은 딥러닝 기반의 머신러닝 모델일 수 있으며, 예를 들어 국립국어원 데이터로부터 수집된 샘플 원문 데이터에 의해 학습된 모델일 수 있다. 그리고, 본 발명의 실시 예에 따른 학습 데이터 인덱싱부(1522)는, 각 글자 단위별로 명사의 일부분인이 아닌지를 판단할 수 있는 바, 판단 결과는 한글 형태소 품사 태그 정보와 같은 형태로 인덱싱 정보에 삽입될 수 있다. 예를 들어 NNG(일반 명사), NNP(고유 명사) 와 같은 표준화된 한글 형태소 품사 코드가 도출되는 경우, 명사임을 나타내는 플래그 정보 또는 태그 정보가 학습 데이터의 인덱싱 정보에 할당될 수 있다.

예를 들어, 국립 국어원의 원문 데이터 개수가 825563개인 경우, 41689637개의 글자 단위 데이터 각각에 대응하는 태그 정보 또는 플래그 정보가 인덱싱 정보에 할당될 수 있다.

그리고, 이러한 인덱싱된 학습 데이터를 이용한 본 발명의 학습 모델은 CNN(컨볼루션 뉴럴 네트워크) 알고리즘을 이용하여 구축될 수 있다.

여기서, 사용된 학습 모델 구축 및 적용 프로세스는 아래와 같이 설명될 수 있다.

먼저, 학습 데이터 인덱싱부(1522)는 데이터의 벡터 임베딩 를 위한 윈도우 사이즈(window size)를 설정할 수 있으며, 설정된 윈도우 사이즈(7)를 기반으로 앞뒤 문맥에 따라 인덱싱된 부분 데이터를 학습 데이터로서 입력할 수 있다.

이에 따라 학습 데이터는 각 유니코드 글자 단위로 임베딩되어 벡터화 처리될 수 있으며, 형태소 딥러닝 기반 신조어 예측 처리부(1523)는 벡터화 처리된 학습 데이터에 대응하는 1차원 컨볼루션 레이어(convolution layer)를 통과시켜, 사전 설정된 필터 사이즈(Filter size, 또는 n-gram 크기)에 기반한 은닉층을 생성한다.

그리고, 형태소 딥러닝 기반 신조어 예측 처리부(1523)는, 각 필터(filter)들의 결과 레이어(layer)들을 수집하고, 가장 높은 특징 정보를 추출하는 맥스 풀링(max-pooling) 방식으로 풀링 처리하여, 특징 정보를 1차원 벡터로 변환 출력한다.

그리고, 형태소 딥러닝 기반 신조어 예측 처리부(1523)는, 필터 사이즈(n-gram filter size)를 2,3,4 등의 복수의 필터 사이즈로 구분하고, 각각의 컨볼루션 프로세스를 수행하여, 각각의 컨볼루션 결과로서의 전술한 맥스 풀링 레이어(max pooling layer)들을 획득할 수 있다.

그리고, 형태소 딥러닝 기반 신조어 예측 처리부(1523)는, 복수의 맥스 풀링 레이어들을 하나의 조밀 층(dense layer)로 결합 처리할 수 있으며, 조밀 층을 일정 예측 값으로 변환하는 소프트 맥스(softmax) 함수 처리를 수행하여, 각 글자의 형태소에 대응하는 예측 값이 출력될 수 있다.

그리고, 본 발명의 실시 예에 따라 예측된 형태소 예측 값은, 국립국어원 데이터에서 사전 학습된 모델과 비교 처리될 수 있으며, 예측 신조어 처리부(1524)는, 그 예측 비교 값에 기초하여 일정 값 이상 차이가 발생되는 경우 신조어로 결정하고, 결정된 신조어를 예측 신조어로서 출력할 수 있다.

도 10 내지 도 12는 본 발명의 실시 예에 따른 국립국어원 학습 모델을 구축하고, 마케팅 문서 데이터의 원문 데이터로부터 추출되는 신조어들을 나열한 것으로, 기존의 일반 형태소 분석 기반의 신조어 예측 기술과 비교하여, 뉴스 원문의 경우 100% 비율로 신조어를 출력할 수 있었으며, 커뮤니티 원문의 경우 92%, 카페 원문의 경우 88%의 높은 비율로 종래의 절반 확률보다 상당한 정확도를 달성할 수 있음을 확인할 수 있다.

특히, 이는 명사 추출에 있어서 보다 높은 정확도를 확인할 수 있는 바, 본 발명의 실시 예에 따른 형태소 딥러닝 학습 모델은 신규 고유 명사 또는 일반 명사와 같은 명사 신조어에 대해 보다 정확성있는 결과를 출력할 수 있음이 확인되었다. 다만, 본 발명의 권리범위가 명사 단어에 제한되는 것은 아니며, 명사 뿐만 아니라 동일한 과제 해결 원리에 기초하여, 동사, 형용사, 부사 등의 추출도 가능한 것은 자명하며, 이러한 신조어 사전 구축 모듈(152)은 원문 데이터로부터 특정 개체명을 인식하는 개체명 인식기(NER)로도 구현될 수 있다.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 프로그램으로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 각 서버 또는 기기들에 제공될 수 있다. 이에 따라, 사용자 단말(100)은 서버 또는 기기에 접속하여, 상기 프로그램을 다운로드할 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

신조어 사전 구축을 처리하는 서비스 제공 장치에 있어서,
마케팅 문서 데이터의 원문 데이터를 수집하는 원문 데이터 수집부; 및
상기 원문 데이터로부터 학습 데이터를 인덱싱 처리하는 학습 데이터 인덱싱부를 포함하고,
상기 학습 데이터 인덱싱부는, 상기 원문 데이터를 유니코드 글자 단위의 임베딩 레이어로 벡터화 처리하여, 상기 유니코드 글자 단위로 상기 학습 데이터를 인덱싱 처리하는
서비스 제공 장치.
제1항에 있어서,
상기 인덱싱 처리된 학습 데이터를 형태소 딥러닝 기반의 학습 모델에 적용하여, 하나 이상의 단어에 대응하는 신조어 예측값을 출력하는 신조어 예측 처리부를 더 포함하는
서비스 제공 장치.
제2항에 있어서,
상기 신조어 사전 구축 모듈은,
상기 신조어 예측값이 일정 값 이상인 하나 이상의 단어들을 예측 신조어로 출력하는 예측 신조어 출력부를 더 포함하는
서비스 제공 장치.
제3항에 있어서,
상기 하나 이상의 단어들은 명사 단어이며,
상기 학습 데이터 인덱싱부는, 상기 원문 데이터의 글자 단위 인덱싱에 기초하여, 명사 여부 플래그를 결정하고, 상기 명사 여부 플래그를 상기 인덱싱 처리된 학습 데이터에 삽입하는
서비스 제공 장치.
신조어 사전 구축을 처리하는 서비스 제공 장치의 동작 방법에 있어서,
마케팅 문서 데이터를 수집하는 단계; 및
상기 마케팅 문서 데이터에 대응하는 원문 데이터의 패턴 학습 정보로부터 상기 마케팅 특화 지식 그래프 모델 구축을 위한 딥러닝 기반 신조어 예측 처리를 수행하는 단계를 포함하는
서비스 제공 장치의 동작 방법.
제5항에 있어서,
상기 신조어 예측 처리를 수행하는 단계는,
상기 마케팅 문서 데이터로부터 원문 데이터를 수집하는 단계; 및
상기 원문 데이터로부터 학습 데이터를 인덱싱 처리하는 단계를 포함하고,
상기 인덱싱 처리하는 단계는,
상기 원문 데이터를 유니코드 글자 단위의 임베딩 레이어로 벡터화 처리하여, 상기 유니코드 글자 단위로 상기 학습 데이터를 인덱싱 처리하는 단계를 포함하는
서비스 제공 장치의 동작 방법.
제6항에 있어서,
상기 신조어 예측 처리를 수행하는 단계는,
상기 인덱싱 처리된 학습 데이터를 형태소 딥러닝 기반의 학습 모델에 적용하여, 하나 이상의 단어에 대응하는 신조어 예측값을 출력하는 단계를 더 포함하는
서비스 제공 장치의 동작 방법.
제7항에 있어서,
상기 신조어 예측 처리를 수행하는 단계는,
상기 신조어 예측값이 일정 값 이상인 하나 이상의 단어들을 예측 신조어로 출력하는 단계를 더 포함하는
서비스 제공 장치의 동작 방법.
제8항에 있어서,
상기 하나 이상의 단어들은 명사 단어이며,
상기 학습 데이터를 인덱싱 처리하는 단계는,
상기 원문 데이터의 글자 단위 인덱싱에 기초하여, 명사 여부 플래그를 결정하고, 상기 명사 여부 플래그를 상기 인덱싱 처리된 학습 데이터에 삽입하는 단계를 더 포함하는
서비스 제공 장치의 동작 방법.
제5항에 있어서,
상기 구축하는 단계는,
상기 신조어 사전 구축 모듈로부터 획득되는 예측 신조어를 이용하여, 상기 마케팅 특화 지식 그래프 모델의 자연어 분석 프로세스를 수행하는 단계를 포함하는
서비스 제공 장치의 동작 방법.