KR102334276B1

KR102334276B1 - 상품 데이터 관리 시스템

Info

Publication number: KR102334276B1
Application number: KR1020210129307A
Authority: KR
Inventors: 이응천
Original assignee: 주식회사 서플라이디
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-02

Abstract

본 발명은 흩어져 있는 상품 데이터들을 취합하여 최소 상품 단위로 묶어서 중복된 데이터는 제거하고, 오탈자 교정 및 데이터간 부족한 내용들을 상호 보완하기 위해 데이터를 머징 하여 고품질의 데이터를 유지, 관리하기 위한 상품 데이터 관리 방법에 관한 것으로, 상품과 관련된 로우 데이터 및 상기 로우 데이터의 검증을 위한 학습 데이터를 수집하는 데이터 수집부; 상기 로우 데이터에 포함된 상품식별코드(Stock Keeping Unit, SKU)를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 각 하위코드의 유효성을 검증하는 유효성 검증부; 및 유효성이 검증된 상품식별코드를 이용하여 복수의 로우 데이터를 머징(merging)하여 DB화하는 데이터 가공부를 포함한다.

Description

상품 데이터 관리 시스템 {System for managing product data}

본 발명은 상품 데이터 관리 시스템에 관한 것으로, 더욱 상세하게는 흩어져 있는 상품 데이터들을 취합하여 최소 상품 단위로 묶어서 중복된 데이터는 제거하고, 오탈자 교정 및 데이터간 부족한 내용들을 상호 보완하기 위해 데이터를 머징 하여 고품질의 데이터를 유지, 관리하기 위한 상품 데이터 관리 시스템에 관한 것이다.

SKU(Stock Keeping Unit)는 개별적인 상품에 대해 재고 관리 목적으로 추적이 용이하도록 하기 위해 사용되는 식별 관리 코드로, 문자와 숫자 등 기호로 표기하며, 점포 또는 카탈로그에서 구매 또는 판매할 수 있는 상품에 사용하는 것으로 판매자가 정한다.

브랜드에서 상품에 부여한 SKU는 개별 상품에 1개의 코드를 부여하고 동일한 코드가 중복 발행되지 않지만, 여러 유통 단계를 거치며 업체간 데이터가 전달되는 과정에서 오기 등 휴먼 에러(human error)로 인하여 SKU 코드 데이터가 오염되는 경우가 발생한다. 이러한 기준 코드의 오류는 데이터를 머징(merging) 하는데 있어서 많은 문제점을 발생시킨다.

이를 방지하기 위하여 브랜드별로 이미 생성된 SKU 데이터를 수집 분석하여 각 브랜드에서 생성된 상품 코드의 규칙성을 찾아서 정규 표현식을 생성 상품 코드의 오류를 검증하는 기술의 필요성이 대두되고 있다.

한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

한국등록특허 제10-1045587호

본 발명의 일측면은 흩어져 있는 상품 데이터들을 취합하여 최소 상품 단위로 묶어서 중복된 데이터는 제거하고, 오탈자 교정 및 데이터간 부족한 내용들을 상호 보완하기 위해 데이터를 머징 하여 고품질의 데이터를 유지, 관리하기 위한 상품 데이터 관리 시스템을 제공한다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 상품 데이터 관리 시스템은 상품과 관련된 로우 데이터 및 상기 로우 데이터의 검증을 위한 학습 데이터를 수집하는 데이터 수집부; 상기 로우 데이터에 포함된 상품식별코드(Stock Keeping Unit, SKU)를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 각 하위코드의 유효성을 검증하는 유효성 검증부; 및 유효성이 검증된 상품식별코드를 이용하여 복수의 로우 데이터를 머징(merging)하여 DB화하는 데이터 가공부를 포함한다.

상기 유효성 검증부는,

상기 하위코드를 미리 저장된 학습 데이터와 비교하여 유사도를 산출하고, 산출된 유사도에 기초하여 상기 하위코드를 신규 코드, 정상 코드 및 오류 코드 중 어느 하나로 구분하는 하위코드 판별부; 및

상기 학습 데이터로부터 상품식별코드를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 하위코드별로 가중치를 설정하는 학습 데이터 설정부를 포함하고,

상기 하위코드 판별부는,

상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 제1 유사도 미만인 것으로 확인되면 상기 하위코드가 신규 코드인 것으로 판단하고, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 상기 제1 유사도 이상이면서, 상기 제1 유사도보다 큰 제2 유사도 미만인 것으로 확인되면 상기 하위코드가 오류 코드인 것으로 판단하며, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 상기 제2 유사도 이상인 것으로 확인되면 상기 하위코드가 정상 코드인 것으로 판단하고,

상기 하위코드가 정상 코드인 것으로 판단되면 상기 데이터 가공부로 하위코드를 전송하고, 상기 하위코드가 신규 코드인 것으로 판단되면 학습 데이터 목록에 신규 코드로 판단된 하위 코드를 등록한 후 상기 데이터 가공부로 하위코드를 전송하고, 상기 하위코드가 오류 코드인 것으로 판단되면 미리 학습된 인공 신경망을 이용하여 오류 코드로 판단된 하위코드를 교정한 후 교정된 하위코드를 상기 데이터 가공부로 전송하는 것을 특징으로 하고,

상기 학습 데이터 설정부는,

상기 학습 데이터의 출처별로 서로 다른 가중치를 부여하고, 상기 학습 데이터의 사용빈도에 기초하여 상기 학습 데이터를 구성하는 하위 코드별로 서로 다른 가중치를 부여하는 것을 특징으로 한다.

상기 상품 데이터 관리 시스템은,

상기 로우 데이터 및 상기 로우 데이터에 악성코드가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함하고,

상기 비정상 데이터 도출부는,

수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;

수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;

데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및

형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 위크 시그널을 출력하는 데이터 분석 모듈;을 포함한다.

상술한 본 발명의 일측면에 따르면, 분산된 상품 데이터들을 취합하여 최소 상품 단위로 묶어서 중복된 데이터는 제거하고, 오탈자 교정 및 데이터간 부족한 내용들을 상호 보완하기 위해 데이터를 머징 하여 고품질의 데이터 베이스를 구축, 유지, 관리할 수 있다.

도 1은 본 발명의 일 실시예에 따른 상품 데이터 관리 시스템의 개략적인 구성이 도시된 도면이다.
도 2는 도 1에 도시된 상품 데이터 관리 시스템을 구성하는 각 구성요소의 개략적인 기능을 설명하기 위한 개념도이다.
도 3은 상품식별코드의 구조를 설명하기 위한 도면이다.
도 4 및 도 5는 데이터의 가중치를 설정하기 위한 기준이 도시된 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 상품 데이터 관리 시스템의 개략적인 구성이 도시된 블록도이고, 도 2는 도 1에 도시된 상품 데이터 관리 시스템을 구성하는 각 구성요소의 개략적인 기능을 설명하기 위한 개념도이다.

본 발명에 따른 상품 데이터 관리 시스템은 흩어져 있는 상품 데이터들을 취합하여 최소 상품 단위로 묶어서 중복된 데이터는 제거하고, 오탈자 교정 및 데이터간 부족한 내용들을 상호 보완하기 위해 데이터를 머징 하여 고품질의 데이터를 구축, 유지 및 관리하기 위한 시스템이다.

구체적으로, 본 발명의 일 실시예에 따른 상품 데이터 관리 시스템(1000)은 데이터 수집부(100), 유효성 검증부(200) 및 데이터 가공부(300)를 포함한다.

데이터 수집부는 상품과 관련된 로우 데이터(raw data) 및 상기 로우 데이터의 검증을 위한 학습 데이터를 수집한다.

도 2에 도시된 바와 같이, 데이터 수집부는 로우 데이터를 수집하기 위해 최상위 벤더(vender)의 데이터베이스에 접근하여 XML, CSV, JSON, EXCEL, OPEN API를 이용하여 로우 데이터를 수집한다.

또한, 데이터 수집부는 로우 데이터의 유효성 및 교정에 참고할 학습데이터를 브랜드본사, 국가별 브랜드지사, 글로벌 리세일러, 브랜드 오더자료 등으로 부터 수집한다.

유효성 검증부(200)는 상기 로우 데이터에 포함된 상품식별코드(Stock Keeping Unit, SKU)를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 각 하위코드의 유효성을 검증한다.

도 3은 로우 데이터에 포함된 상품식별코드의 구체적인 일 예가 도시된 도면이다.

도시된 바와 같이, 상품식별코드는 스타일코드, 소재코드 및 색상코드로 구성된다. 스타일코드는 상품의 형태, 모양, 디자인에 따라 부여되는 코드이고, 소재코드는 상품의 소재, 혼용율에 따라 부여되는 코드이며, 색상코드는 상품의 색상에 따라 부여되는 코드이다.

상술한 바와 같이, 브랜드에서 상품에 부여한 상품식별코드는 개별 상품에 1개의 코드를 부여하고 동일한 코드가 중복 발행되지 않지만, 여러 유통 단계를 거치며 업체간 데이터가 전달되는 과정에서 오기 등 휴먼 에러(human error)로 인하여 코드 데이터가 오염(변경)되는 경우가 발생한다. 이러한 기준 코드의 오류는 데이터를 머징(merging) 하는데 있어서 많은 문제점을 발생시킨다.

이러한 문제점을 해결하기 위하여, 본 발명에 따른 상품 데이터 관리 시스템은 브랜드별로 이미 생성된 SKU 데이터를 수집 분석하여 각 브랜드에서 생성된 상품 코드의 규칙성을 찾아서 정규 표현식을 생성 상품 코드의 오류를 검증하는 것을 특징으로 한다.

이를 위해, 유효성 검증부는, 상기 하위코드를 미리 저장된 학습 데이터와 비교하여 유사도를 산출하고, 산출된 유사도에 기초하여 상기 하위코드를 신규 코드, 정상 코드 및 오류 코드 중 어느 하나로 구분하는 하위코드 판별부; 및 상기 학습 데이터로부터 상품식별코드를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 하위코드별로 가중치를 설정하는 학습 데이터 설정부를 포함한다.

상기 하위코드 판별부는, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 제1 유사도 미만인 것으로 확인되면 상기 하위코드가 신규 코드인 것으로 판단하고, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 상기 제1 유사도 이상이면서, 상기 제1 유사도보다 큰 제2 유사도 미만인 것으로 확인되면 상기 하위코드가 오류 코드인 것으로 판단하며, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 상기 제2 유사도 이상인 것으로 확인되면 상기 하위코드가 정상 코드인 것으로 판단한다.

구체적으로, 하위코드 판별부는, 하위코드를 미리 저장된 복수의 학습 데이터와 비교하여 각각의 유사도를 산출하게 되는데, 하위코드와 가장 높은 유사도를 갖는 어느 하나의 학습 데이터를 추출한다. 이때, 하위코드 판별부는, 하위코드와 추출된 학습데이터의 유사도가 제1 유사도(예컨대 40%) 미만인 것으로 확인되면 해당 하위코드가 새로운 코드인 것으로 간주한다. 또한, 하위코드 판별부는, 하위코드와 추출된 학습데이터의 유사도가 제1 유사도(40%) 이상 제2 유사도(80%)미만인 것으로 확인되면 해당 하위코드가 오류 코드인 것으로 판단하며, 하위코드와 추출된 학습데이터의 유사도가 완전 일치(100%)한 것으로 판단되면 해당 하위코드가 정상 코드인 것으로 판단한다.

이후, 하위코드 판별부는, 상기 하위코드가 정상 코드인 것으로 판단되면 상기 데이터 가공부로 하위코드를 전송하고, 상기 하위코드가 신규 코드인 것으로 판단되면 학습 데이터 목록에 신규 코드로 판단된 하위 코드를 등록한 후 상기 데이터 가공부로 하위코드를 전송하고, 상기 하위코드가 오류 코드인 것으로 판단되면 미리 학습된 인공 신경망을 이용하여 오류 코드로 판단된 하위코드를 교정한 후 교정된 하위코드를 상기 데이터 가공부로 전송한다.

즉, 하위코드 판별부는, 검증된 상품 코드 데이터에서 불량으로 판별된 오류 코드와 유사성이 높은 학습데이터 코드를 검출하여 동일 상품을 추적하여 오류 교정할 수 있으며, 유효성 판단에 오류가 있을 경우 검증 규칙을 업데이트할 수 있다.

학습 데이터 설정부는, 상기 학습 데이터의 출처별로 서로 다른 가중치를 부여하고, 상기 학습 데이터의 사용빈도에 기초하여 상기 학습 데이터를 구성하는 하위 코드별로 서로 다른 가중치를 부여하는 것을 특징으로 한다.

도 4는 학습 데이터의 출처별로 서로 다른 가중치를 부여하기 위한 기준이 도시된 도면이고, 도 5는 하위코드의 사용빈도에 따라 서로 다른 가중치를 부여하기 위한 기준이 도시된 도면이다.

상품식별코드를 세분화하기 전의 코드는 유니크한 데이터이지만 상술한 바와 같이 상품 코드는 스타일, 소재, 색상 코드의 조합으로 만들어지므로 하위의 코드들은 상품의 특징에 따라 중복되어 재사용되는 경우가 있다. 따라서, 학습 데이터 설정부는 사용 빈도가 높은 코드들에 가중치를 부여하여 신뢰도를 판별할 수 있다.

데이터 가공부(300)는 유효성이 검증된 상품식별코드를 이용하여 복수의 로우 데이터를 머징(merging)하여 DB화한다.

구체적으로, 데이터 가공부는 중복 데이터 제거, 오탈자 교정 및 다국어 지원을 위한 번역 작업 수행하며, 빈번히 발생하는 오탈자 작업은 딥 러닝 기술을 활용하여 자동으로 교정할 수 있다.

이후, 데이터 가공부는 상품 데이터(로우 데이터)를 사용 목적에 맞는 형태로 가공하여 출력할 수 있다.

특히, 실제 상품을 공급받는 벤더(Vendor)로부터 제공되는 혼용율 정보는 간소되어 최대로 많은 비율의 소재 혼용율만을 제시하지만, 데이터 가공부는 학습 데이터상의 신뢰도가 가장 높은 혼용율은 제품의 아웃솔, 제품겉면, 제품안감의 소재의 혼용율이 전부표시되어 소비자에게 훨씬 정확한 정보를 전달할 수 있다.

한편, 데이터 가공부는 제품에 대한 이미지를 제품 정보와 함께 업로드한다.

이 과정에서, 데이터 가공부는 수집된 제품 이미지를 암호화하여 관리하기 위해, 상기 제품 이미지를 영상 분석하여 상기 제품 이미지를 구성하는 복수의 객체를 추출하고, 추출된 복수의 객체 중 적어도 하나의 객체를 특징객체로 설정하고, 설정된 상기 특징객체가 포함된 관심영역을 설정하고, 상기 관심영역의 가로축 픽셀의 개수를 카운팅하여 제1 변수를 생성하고, 상기 관심영역의 세로축 픽셀의 개수를 카운팅하여 제2 변수를 생성하고, 상기 제1 변수와 가장 가까운 소수를 제1 소수로 설정하고, 상기 제2 변수와 가장 가까운 소수를 제2 소수로 설정하고, 설정된 상기 제1 소수 및 상기 제2 소수를 이용하여 개인 키 및 공개 키를 생성하고, 상기 관심영역에 포함된 모든 픽셀을 재배치하고, 상기 관심영역에 포함된 픽셀의 원래 위치로부터 변경된 위치를 나타내는 픽셀 이동정보를 해시 함수를 이용하여 해시값으로 변환하고, 상기 개인 키를 이용하여 상기 해시값을 암호화는 것을 특징으로 한다.

구체적으로, 데이터 가공부는 원본 이미지 데이터의 전체 영역 중 암호화될 영역을 관심영역으로 설정한다.

즉, 데이터 가공부는 사용자로부터 입력된 원본 이미지 데이터를 영상 분석하여, 원본 이미지의 전체 영역 중 암호화가 필요한 특징적인 부분을 검출함으로써, 설정된 영역에 대해서만 부분적으로 암호화하도록 하여 데이터 처리에 요구되는 연산량 및 시간을 단축시킬 수 있다.

이를 위해, 일 실시예에서, 데이터 가공부는 상기 원본 이미지 데이터를 영상 분석하여 상기 원본 이미지를 구성하는 복수의 객체를 추출하고, 추출된 복수의 객체 중 적어도 하나의 객체를 특징객체로 설정하고, 설정된 상기 특징객체가 포함되도록 상기 관심영역을 설정하는 것을 특징으로 한다.

일 실시예에서, 데이터 가공부는 원본 이미지 데이터로부터 특징벡터를 추출하고, 추출된 특징벡터를 미리 학습된 인공 신경망의 입력값을 입력하여, 이에 대한 출력값을 기초로 원본 이미지 데이터에 포함된 복수의 객체를 구분할 수 있다. 이러한 인공 신경망을 이용한 객체 검출 방법은 영상처리 분야에서 널리 사용되고 있는 기술이므로, 구체적인 설명은 생략하기로 한다.

일 실시예에서, 데이터 가공부는 이미지 데이터에 대한 히스토그램(histogram)을 이용하여 관심영역을 설정할 수 있다.

히스토그램은 영상의 픽셀들에 대한 명암값의 분포를 나타내는 정보이다.

데이터 가공부는 원본 이미지 데이터를 구성하는 픽셀들에 대한 전체 히스토그램과, 원본 이미지 데이터의 소정 영역에 대한 부분적인 히스토그램을 생성할 수 있다.

데이터 가공부는 원본 이미지를 R, G, B 채널로 분리하고, 분리된 각각의 채널에 대하여 가로축을 256의 밝기 편차를 갖는 256 gray level 영상의 명암 값을 나타내고, 세로축을 각 명암 값의 빈도 수를 나타내는 히스토그램을 생성할 수 있다. 히스토그램을 생성하는 구체적인 방법은 기 공지된 기술이므로, 더 이상의 구체적인 설명은 생략하기로 한다.

데이터 가공부는 원본 이미지에 대한 전체 히스토그램 및 부분 히스토그램을 이용하여 관심영역을 추출하기 위한 컨벌루션 필터를 선택할 수 있다.

컨벌루션 필터는 기준 프레임의 관심 영역에 해당되는 이미지인 기준 이미지를 다양한 효과로 처리하기 위하여 사용되는 임의의 픽셀 사이즈로 구성된 행렬이며, 이미지 커널(image kernel) 또는 컨벌루션 커널(convolution kernel)로도 불리운다. 관심영역 설정부(100)는 다양한 종류의 컨벌루션 필터가 저장되어 있으며, 예를 들어 블러링(blurring), 샤프닝(sharpening), 윤곽선 처리(outlining) 및 엠보싱(embossing) 컨벌루션 필터를 포함할 수 있다. 이 외에도, 영상 처리 장치(100)는 사용자로부터 설정되거나 외부 장치로부터 수집된 다양한 형태의 컨벌루션 필터를 더 포함할 수 있다

데이터 가공부는 원본 이미지 데이터에 컨벌루션 필터를 적용하여 출력 이미지를 생성할 수 있다. 구체적으로, 필드골프장 이용관리부는 3X3 행렬로 구성된 컨벌루션 필터들이 저장될 수 있으며, 각각의 컨벌루션 필터는 행렬 요소별로 수치값이 설정될 수 있다. 예컨대, 컨벌루션 필터는 왼쪽 상단부터 순차적으로 1, 0, 1, 0, 1, 0, 1, 0, 1의 값이 설정될 수 있다.

데이터 가공부는 기준 이미지를 구성하는 어느 하나의 픽셀 및 해당 픽셀의 주변 픽셀들과 컨벌루션필터를 컨벌루션 연산하여 해당 픽셀의 출력값을 산출하며, 산출된 출력값을 이용하여 관심영역을 설정할 수 있다.

예컨대, 데이터 가공부는 미리 저장된 기준값과 픽셀별로 산출된 출력값을 비교하여 기준값과 가장 유사한 출력값을 가진 어느 하나의 픽셀을 선택하고, 선택된 픽셀을 기준으로 소정 반경 내의 영역을 관심영역으로 설정할 수 있다.

이후, 데이터 가공부는 설정된 상기 관심영역에 포함된 모든 픽셀을 재배치하고, 재배치된 픽셀의 원래 위치 및 변경된 위치를 암호화한다.

데이터 가공부는 미리 정해진 퍼즐화 패턴을 이용하여 원래의 위치와는 다른 위치로 관심영역 내의 픽셀들을 이동시킬 수 있다. 또는, 필드골프장 이용관리부는 미리 정해진 패턴이 아닌 임의의 위치로 각각의 픽셀을 재배열할 수 있다.

이후, 데이터 가공부는 상기 관심 영역의 픽셀 사이즈에 기초하여 개인 키를 생성하고, 생성된 상기 개인 키에 기초하여 공개 키를 생성하고, 상기 관심영역에 포함된 픽셀의 원래 위치로부터 변경된 위치를 나타내는 트랜잭션 정보를 해시 함수를 이용하여 해시값으로 변환하고, 상기 개인 키를 이용하여 상기 해시값을 암호화한다.

일 실시예에서, 데이터 가공부는, 상기 관심영역의 가로축 픽셀의 개수를 카운팅하여 제1 변수를 생성하고, 상기 관심영역의 세로축 픽셀의 개수를 카운팅하여 제2 변수를 생성한다.

데이터 가공부는 상기 제1 변수와 가장 가까운 소수를 제1 소수로 설정하고, 상기 제2 변수와 가장 가까운 소수를 제2 소수로 설정하며, 설정된 상기 제1 소수 및 상기 제2 소수를 이용하여 상기 개인 키 및 상기 공개 키를 생성하는 것을 특징으로 한다.

즉, 데이터 가공부는 비대칭 암호화 방법을 통해 픽셀들의 위치가 재배열된 관심영역을 암호화할 수 있다.

다른 실시예에서, 데이터 가공부는 원본 이미지 데이터에 대한 제1 히스토그램과, 관심영역에 대한 제2 히스토그램을 생성하고, 상기 제1 히스토그램을 분석하여 가장 빈도수가 높은 밝기값을 제1 변수로 설정하고, 상기 제2 히스토그램을 분석하여 가장 빈도수가 높은 밝기값을 제2 변수로 설정하며, 설정된 상기 제1 소수 및 상기 제2 소수를 이용하여 상기 개인 키 및 상기 공개 키를 생성한다.

이때, 데이터 가공부는 상기 제1 변수와 상기 제2 변수가 동일한 밝기값인 경우, 상기 제2 히스토그램에서 차순위 빈도수가 높은 밝기값을 제2 변수로 재설정하는 것을 특징으로 한다.

특히, 본 발명에 따른 데이터 가공부는 암호화되는 이미지 데이터의 개수가 미리 정해진 개수만큼 누적 저장될 때까지 상기 데이터의 전송 과정을 보류하고 있다가, 암호화된 이미지 데이터의 개수가 미리 정해진 개수만큼 누적 저장된 것으로 확인되면, 누적 저장된 데이터 그룹의 특징을 나타내는 변수 데이터를 설정하고, 설정된 변수 데이터에 기초하여 상기 이미지 데이터를 암호화하는 것을 특징으로 한다.

이를 위해, 데이터 가공부는 누적 저장된 수집 데이터를 데이터 그룹으로 묶어 전송할 데이터 그룹을 추출하고, 추출된 데이터 그룹의 특징에 따른 변수 데이터를 설정하며, 설정된 변수 데이터를 각각의 수집 데이터에 연결킨 변형 데이터를 생성하며, 생성된 변형 데이터를 해쉬 함수를 통해 해쉬 값으로 변환시킨다.

이때, 본 발명에 따른 데이터 가공부는 이미지를 암호화하여 관리하기 때문에 제3자가 이미지 데이터를 중간에서 획득하더라도, 이미지 데이터의 핵심적인 특징을 차지하는 관심영역 부분의 픽셀이 재배열되어 있어 원본 데이터의 확인이 어려우며, 개인 키 및 공개 키는 관심영역의 특징에 의해 매번 새롭게 생성되기 때문에 외부에서 개인 키 및 공개 키를 알아내기 어렵다는 장점이 있다.

몇몇 다른 실시예에서, 본 발명에 따른 상품 데이터 관리 시스템은 수집된 로우 데이터 또는 학습 데이터에 악성코드가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함한다.

본 발명에 따른 빅데이터 분석 기반의 비정상 데이터 도출부는 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 위크 시그널을 출력하는 데이터 분석 모듈;을 포함한다.

여기서, 데이터 수집부는 수신된 평가 데이터를 의미를 갖는 형태소별로 구분한 형태소 분석 데이터를 생성하고, 상기 형태소 분석 데이터를 저장하는 분산 파일 시스템; 상기 분산 파일 시스템에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하는 데이터 처리부; 및 상기 데이터 처리부가 제공하는 가상화 데이터베이스 인터페이스를 통해 통계분석 알고리즘을 실행하여, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 통계 분석부를 포함할 수 있다.

그리고, 상기 통계 분석부는, 상기 통계 분석부는 상기 연도별 출현건수(instance frequencies) 및 단어-단어간 동시 발생건수에 기초하여 단어 별 발생건수 증가율을 산출할 수 있다.

또한, 상기 통계 분석부는, 상기 연도별 출현건수(instance frequencies)를 연도별 문서수로 나누어 문서당 상기 단어들의 연도별 출현 빈도수를 표준화하여 상기 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 산 출할 수 있다.

또한, 상기 통계 분석부는, 상기 단어-단어간 동시발생건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 산출하고, 상기 표준화된 단어 별 출현 빈도수 증가율 및 상기 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 비정상 데이터로 도출할 수 있다.

한편, 상기 데이터 수집 모듈은, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집할 수 있다.

이에 따라, 본 발명에 따른 본 발명에 따른 상품 데이터 관리 시스템은 상술한 바와 같은 구성을 포함하는 빅데이터 분석 기반의 비정상 데이터 도출부를 통한 빅데이터 분석을 통해 악성코드가 포함된 데이터를 사전에 필터링함으로써 데이터베이스의 보안성 및 신뢰성을 향상시킬 수 있다.

이와 같은, 본 발명에 따른 상품 데이터 관리 시스템을 제공하는 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 데이터 수집부
200: 유효성 검증부
300: 데이터 가공부

Claims

상품과 관련된 로우 데이터 및 상기 로우 데이터의 검증을 위한 학습 데이터를 수집하는 데이터 수집부;
상기 로우 데이터에 포함된 상품식별코드(Stock Keeping Unit, SKU)를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 각 하위코드의 유효성을 검증하는 유효성 검증부; 및
유효성이 검증된 상품식별코드를 이용하여 복수의 로우 데이터를 머징(merging)하여 DB화하는 데이터 가공부를 포함하며,
상기 유효성 검증부는,
상기 하위코드를 미리 저장된 학습 데이터와 비교하여 유사도를 산출하고, 산출된 유사도에 기초하여 상기 하위코드를 신규 코드, 정상 코드 및 오류 코드 중 어느 하나로 구분하는 하위코드 판별부; 및
상기 학습 데이터로부터 상품식별코드를 추출하고, 추출된 상기 상품식별코드를 스타일코드, 소재코드 및 색상코드로 분리하여 세분화하며, 세분화된 하위코드별로 가중치를 설정하는 학습 데이터 설정부를 포함하고,
상기 하위코드 판별부는,
상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 제1 유사도 미만인 것으로 확인되면 상기 하위코드가 신규 코드인 것으로 판단하고, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 상기 제1 유사도 이상이면서, 상기 제1 유사도보다 큰 제2 유사도 미만인 것으로 확인되면 상기 하위코드가 오류 코드인 것으로 판단하며, 상기 하위코드와 어느 하나의 학습 데이터 간의 유사도가 상기 제2 유사도 이상인 것으로 확인되면 상기 하위코드가 정상 코드인 것으로 판단하고,
상기 하위코드가 정상 코드인 것으로 판단되면 상기 데이터 가공부로 하위코드를 전송하고, 상기 하위코드가 신규 코드인 것으로 판단되면 학습 데이터 목록에 신규 코드로 판단된 하위 코드를 등록한 후 상기 데이터 가공부로 하위코드를 전송하고, 상기 하위코드가 오류 코드인 것으로 판단되면 미리 학습된 인공 신경망을 이용하여 오류 코드로 판단된 하위코드를 교정한 후 교정된 하위코드를 상기 데이터 가공부로 전송하는 것을 특징으로 하고,
상기 학습 데이터 설정부는,
상기 학습 데이터의 출처별로 서로 다른 가중치를 부여하고, 상기 학습 데이터의 사용빈도에 기초하여 상기 학습 데이터를 구성하는 하위 코드별로 서로 다른 가중치를 부여하는 것을 특징으로 하는, 상품 데이터 관리 시스템.
삭제
제1항에 있어서,
상기 상품 데이터 관리 시스템은,
상기 로우 데이터 및 상기 로우 데이터에 악성코드가 포함되어 있는지를 판단하는 빅데이터 분석 기반의 비정상 데이터 도출부를 더 포함하고,
상기 비정상 데이터 도출부는,
수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈;
수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈;
데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및
형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 위크 시그널을 출력하는 데이터 분석 모듈;을 포함하는, 상품 데이터 관리 시스템.