KR102217213B1 - 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법 - Google Patents

딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법 Download PDF

Info

Publication number
KR102217213B1
KR102217213B1 KR1020200140373A KR20200140373A KR102217213B1 KR 102217213 B1 KR102217213 B1 KR 102217213B1 KR 1020200140373 A KR1020200140373 A KR 1020200140373A KR 20200140373 A KR20200140373 A KR 20200140373A KR 102217213 B1 KR102217213 B1 KR 102217213B1
Authority
KR
South Korea
Prior art keywords
unit
analysis
quality
data
content
Prior art date
Application number
KR1020200140373A
Other languages
English (en)
Inventor
장경애
Original Assignee
장경애
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 장경애 filed Critical 장경애
Priority to KR1020200140373A priority Critical patent/KR102217213B1/ko
Priority to KR1020210012464A priority patent/KR20220056077A/ko
Application granted granted Critical
Publication of KR102217213B1 publication Critical patent/KR102217213B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법에 관한 것으로서, 더욱 상세히는 웹 페이지에 등록된 컨텐츠 및 로컬 장치를 통해 생성된 컨텐츠를 수집한 후 컨텐츠별로 분석을 통해 품질 등급을 결정하여 해당 품질 등급을 기초로 빅데이터 분석을 위한 이용 가치가 있는 데이터만이 선별되어 빅데이터 분석에 이용되도록 지원하고, 이러한 품질 등급 분류에 대한 자동화를 지원하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법에 관한 것이다. 본 발명은, 빅데이터 분석에 가비지 데이터가 이용되지 않고 정상 데이터만 이용되도록 지원할 수 있어 빅데이터 분석 결과에 대한 신뢰도 및 정확도를 높일 수 있도록 지원하는 효과가 있다.

Description

딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법{Service providing apparatus and method for managing contents based on deep learning}
본 발명은 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법에 관한 것으로서, 더욱 상세히는 웹 페이지에 등록된 컨텐츠 및 로컬 장치를 통해 생성된 컨텐츠를 수집한 후 컨텐츠별로 분석을 통해 품질 등급을 결정하여 해당 품질 등급을 기초로 빅데이터 분석을 위한 이용 가치가 있는 데이터만이 선별되어 빅데이터 분석에 이용되도록 지원하고, 이러한 품질 등급 분류에 대한 자동화를 지원하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법에 관한 것이다.
현재 기관이나 기업에서는 다양한 로컬 장치를 운용하면서 해당 로컬 장치를 통해 외부 사용자가 접속하는 웹 페이지를 제공하고 있으며, 로컬 장치에서 발생하는 내부 컨텐츠와 웹 페이지를 통해 외부 사용자가 등록한 외부 컨텐츠를 데이터베이스에 저장하여 관리하고 있다.
또한, 이러한 데이터베이스에 수집된 다수의 컨텐츠를 이용한 빅데이터 분석을 통해 기관이나 기업에서 제공하는 서비스에 대한 품질을 높이는 시도가 이루어지고 있다.
그러나, 웹 페이지에 등록되는 컨텐츠 중 기관이나 기업에서 제공하는 서비스와 관련이 없는 컨텐츠도 다수 등록되어 저장될 뿐만 아니라 로컬 장치에 의해 생성되어 저장되는 컨텐츠 중에서도 서비스와 관련이 없는 컨텐츠도 포함되므로, 서비스 품질을 높이기 위한 빅데이터 분석시 서비스와 관련이 없는 컨텐츠가 함께 빅데이터 분석에 이용되는 문제가 있다.
이로 인해, 빅데이터 분석에 따른 결과에 오류가 발생할 뿐만 아니라 결과에 대한 신뢰성 및 정확도가 크게 떨어지는 문제가 있다.
이를 방지하기 위해서 기존에는 관리자가 일일이 컨텐츠를 수작업으로 검수하여 서비스와 무관한 컨텐츠를 분류하는 작업을 수행하였으며, 이러한 작업은 시간과 노력이 상당히 필요하므로 비효율적일 뿐만 아니라 컨텐츠 관리에 투여되는 비용 역시 상당한 문제가 있다.
한국공개특허 제10-2005-0068575호
상술한 문제를 해결하기 위해, 본 발명은 컨텐츠에서 분석 대상 데이터를 분리하고, 이러한 분석 대상 데이터에 대한 분석을 통해 서비스와 관련된 빅데이터 분석을 위한 데이터로서 이용 가치가 있는 데이터를 구분하기 위한 품질 등급을 자동 산출하여 빅데이터 분석을 위한 이용 가치가 있는 정상 데이터와 이용 가치가 없는 가비지 데이터가 자동 분류되도록 지원하면서, 이러한 데이터와 품질 등급 사이의 상관관계 학습을 통해 품질 등급 분류에 대한 자동화가 이루어지도록 지원하여 데이터 관리에 대한 편의성을 높임과 아울러 데이터에 대해 결정된 품질 등급에 대한 신뢰성 및 정확도를 높이는데 그 목적이 있다.
본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치는, 컨텐츠를 파일, 문단 및 문장 중 어느 하나의 미리 설정된 기준 단위로 분리하여 얻어진 단위 분석 대상에 대해, 형태소 분석을 통해 단어 단위로 분리하여 하나 이상의 단어를 획득하며, 상기 컨텐츠에 대응되어 획득된 하나 이상의 단어별로 중복횟수를 산출하고, 상기 하나 이상의 단어 중 미리 설정된 사전 정보에 정의되지 않은 오류 단어를 식별하고, 상기 오류 단어별 중복횟수 및 상기 하나 이상의 단어 중 상기 오류 단어가 아닌 정상 단어별 중복 횟수에 따른 단어 분포도를 미리 설정된 품질 등급 분류 기준과 비교하여 상기 단어 분포도에 대응되는 상기 단위 분석 대상의 품질 등급을 산출한 후 상기 단위 분석 대상과 함께 표시하고, 사용자 입력에 따라 상기 품질 등급 또는 상기 품질 등급을 수정한 수정 등급을 상기 단위 분석 대상의 최종 품질 등급으로 산출하도록 동작하며, 분석 대상 컨텐츠로부터 얻어진 하나 이상의 상기 단위 분석 대상별로 상기 최종 품질 등급을 산출하는 품질 분석부 및 상기 품질 분석부를 통해 서로 다른 컨텐츠별로 산출된 하나 이상의 단위 분석 대상 및 상기 하나 이상의 단위 분석 대상별 최종 품질 등급을 미리 설정된 학습 모델에 학습시켜 상기 단위 분석 대상과 품질 등급 사이의 상관관계가 학습된 학습 모델을 포함하며, 상기 분석 대상 컨텐츠를 상기 기준 단위로 분리하여 하나 이상의 단위 분석 대상을 획득한 후 상기 학습 모델에 적용하여 상기 학습 모델을 통해 상기 단위 분석 대상별 최종 품질 등급을 산출하는 학습부를 포함할 수 있다.
본 발명과 관련된 일 예로서, 상기 단위 분석 대상은 문장 데이터, 문단 데이터 또는 파일로 구성된 문서 데이터 중 어느 하나인 것을 특징으로 할 수 있다.
본 발명과 관련된 일 예로서, 상기 서비스 제공 장치는, 웹 페이지에 등록된 컨텐츠를 웹 크롤링을 통해 수집하거나 로컬 장치와 통신하여 상기 로컬 장치에 저장된 컨텐츠를 수집하여 상기 분석 대상 컨텐츠로 상기 품질 분석부 및 학습부에 제공하는 데이터 관리부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명과 관련된 일 예로서, 상기 서비스 제공 장치는, 정상 데이터만을 저장하는 제 1 DB와, 가비지 데이터만을 저장하는 제 2 DB 및 상기 학습부로부터 상기 단위 분석 대상별로 최종 품질 등급 및 단위 분석 대상을 포함하는 품질 결과 정보를 수신하고, 상기 단위 분석 대상별로 상기 품질 결과 정보를 기초로 최종 품질 등급이 미리 설정된 기준 등급 이상인 단위 분석 대상을 상기 정상 데이터로 판단하여 상기 제 1 DB에 저장하고, 상기 최종 품질 등급이 미리 설정된 기준 등급 미만인 단위 분석 대상을 상기 가비지 데이터로 판단하여 상기 제 2 DB에 저장하는 데이터 관리부를 더 포함할 수 있다.
본 발명과 관련된 일 예로서, 상기 서비스 제공 장치는, 상기 컨텐츠를 저장하는 제 3 DB를 더 포함하고, 상기 제 2 DB에 저장된 가비지 데이터를 이용하여 상기 제 3 DB에 저장된 컨텐츠에서 상기 가비지 데이터와 일치하는 데이터를 삭제하여 상기 제 3 DB에 저장된 컨텐츠를 갱신하거나 상기 가비지 데이터와 일치하는 컨텐츠를 상기 제 3 DB에서 삭제하는 컨텐츠 처리부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명과 관련된 일 예로서, 상기 품질 분석부는 상기 단위 분석 대상 및 상기 단위 분석 대상과 대응되는 최종 품질 등급을 포함하는 제 1 품질 결과 정보를 생성하고, 상기 학습부는 상기 단위 분석 대상 및 상기 단위 분석 대상과 대응되는 최종 품질 등급을 포함하는 제 2 품질 결과 정보를 생성하며, 상기 서비스 제공 장치는 상기 품질 분석부 및 학습부로부터 단일 분석 대상이 상호 동일한 상기 제 1 및 제 2 품질 결과 정보를 수신하여 상호 비교하고, 상기 비교 결과 상기 제 1 및 제 2 품질 결과 정보가 상호 일치하는 단위 분석 대상만 상기 제 1 및 제 2 품질 결과 정보 중 어느 하나를 상기 데이터 관리부에 전송하는 결과 비교부를 더 포함하며, 상기 데이터 관리부는 상기 제 1 및 제 2 품질 결과 정보 중 어느 하나를 기초로 최종 품질 등급이 미리 설정된 기준 등급 이상인 단위 분석 대상을 상기 정상 데이터로 판단하여 상기 제 1 DB에 저장하고, 상기 최종 품질 등급이 미리 설정된 기준 등급 미만인 단위 분석 대상을 상기 가비지 데이터로 판단하여 상기 제 2 DB에 저장하는 것을 특징으로 할 수 있다.
본 발명과 관련된 일 예로서, 상기 결과 비교부는, 특정 단위 분석 대상에 대한 상기 제 1 및 제 2 품질 결과 정보 상호 간 최종 품질 등급이 상호 일치하지 않는 경우 상기 특정 단위 분석 대상을 오류 분석 대상으로 식별하고, 상기 오류 분석 대상에 대응되는 상기 제 1 및 제 2 품질 결과 정보 각각에 포함된 최종 품질 등급과 상기 오류 분석 대상을 포함하는 오류 정보를 생성하여 표시하고, 상기 사용자 입력에 따라 상기 오류 분석 대상에 대해 결정된 품질 등급과 상기 오류 분석 대상을 매칭하여 상기 학습부의 학습 모델에 학습시키는 것을 특징으로 할 수 있다.
본 발명과 관련된 일 예로서, 상기 품질 분석부는 상기 단어 분포도를 기초로 상기 단어 분포도에 대응되는 단위 분석 대상에 대응되도록 워드 클라우드 정보를 생성하며, 상호 대응되는 상기 단어 분포도, 상기 워드 클라우드 정보, 상기 품질 등급 및 상기 단위 분석 대상을 포함한 분류 결과 정보를 생성하여 제공하는 것을 특징으로 할 수 있다.
본 발명과 관련된 일 예로서, 상기 서비스 제공 장치는, 상기 품질 분석부의 제어에 의해 상기 분류 결과 정보를 표시하고 상기 사용자 입력을 수신하는 사용자 인터페이스부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치의 서비스 제공 방법은, 컨텐츠를 파일, 문단 및 문장 중 어느 하나의 미리 설정된 기준 단위로 분리하여 얻어진 단위 분석 대상에 대해, 형태소 분석을 통해 단어 단위로 분리하여 하나 이상의 단어를 획득하며, 상기 컨텐츠에 대응되어 획득된 하나 이상의 단어별로 중복횟수를 산출하고, 상기 하나 이상의 단어 중 미리 설정된 사전 정보에 정의되지 않은 오류 단어를 식별하고, 상기 오류 단어별 중복횟수 및 상기 하나 이상의 단어 중 상기 오류 단어가 아닌 정상 단어별 중복 횟수에 따른 단어 분포도를 미리 설정된 품질 등급 분류 기준과 비교하여 상기 단어 분포도에 대응되는 상기 단위 분석 대상의 품질 등급을 산출한 후 상기 단위 분석 대상과 함께 표시하고, 사용자 입력에 따라 상기 품질 등급 또는 상기 품질 등급을 수정한 수정 등급을 상기 단위 분석 대상의 최종 품질 등급으로 산출하는 품질 분석 단계와, 상기 컨텐츠로부터 얻어진 하나 이상의 상기 단위 분석 대상별로 상기 품질 분석 단계를 통해 상기 최종 품질 등급을 산출하는 품질 결정 단계 및 상기 품질 결정 단계를 통해 서로 다른 컨텐츠별로 산출된 하나 이상의 단위 분석 대상 및 상기 하나 이상의 단위 분석 대상별 최종 품질 등급의 학습에 따라 상기 단위 분석 대상과 품질 등급 사이의 상관관계가 학습된 학습 모델에 분석 대상 컨텐츠를 상기 기준 단위로 분리하여 얻어진 하나 이상의 단위 분석 대상을 적용하여 상기 학습 모델을 통해 상기 분석 대상 컨텐츠에 대응되는 단위 분석 대상별 최종 품질 등급을 산출하는 자동 분류 단계를 포함할 수 있다.
본 발명은 컨텐츠를 구성하는 데이터를 파일 단위로 분리하여 분석할 수 있음은 물론이고 문단이나 문장 단위로 분리하여 분석되도록 지원할 수 있으며, 이러한 파일, 문단 및 문장 중 어느 하나의 기준 단위로 컨텐츠를 분리하여 생성된 하나 이상의 단위 분석 대상 각각을 대상으로 형태소 분석과 의미 분석을 통해 빅데이터 분석을 위한 데이터로서의 이용 가치 정도를 나타내는 복수의 서로 다른 품질 등급으로 자동 분류되도록 함과 아울러 품질 등급이 결정된 단위 분석 대상에 대한 사용자 검토를 거친 복수의 서로 다른 단위 분석 대상 및 품질 등급을 미리 설정된 딥러닝 기반의 학습 모델에 학습시켜 추후 사용자 검토 없이 학습 모델을 통해 자동으로 컨텐츠를 구성하는 데이터 중 빅데이터 분석을 위한 이용 가치가 없는 가비지 데이터를 높은 정확도로 선별하여 정상 데이터와 구분되어 분리 저장되도록 지원함로써, 빅데이터 분석에 가비지 데이터가 이용되지 않고 정상 데이터만 이용되도록 지원할 수 있어 빅데이터 분석 결과에 대한 신뢰도 및 정확도를 높일 수 있도록 지원할 수 있을 뿐만 아니라 데이터 분류 관리에 대한 편의성을 크게 높일 수 있다.
또한, 본 발명은 학습 모델을 통해 생성된 단위 분석 대상에 대한 결과와 학습 모델을 학습시키기 위해 생성된 단위 분석 대상에 대한 결과를 상호 비교하여 결과가 상호 불일치하는 오류 분석 대상에 대해 사용자가 결정한 결과를 학습 모델에 재학습시켜 학습 모델의 품질 등급 분류에 대한 판단 기준을 사용자의 판단 기준에 근접하도록 향상시킬 수 있으며, 이를 통해 컨텐츠에 포함된 데이터의 품질 등급 분류에 대한 신뢰도 및 정확도를 높일 수 있다.
더하여, 본 발명은 컨텐츠에 포함된 데이터의 품질 등급을 기반으로 한 분류에 따라 정상 데이터를 고가의 저장 장치에 저장하고 가비지 데이터를 저가의 저장 장치에 저장하여, 고가의 저장 장치를 통해 정상 데이터가 빅데이터 분석과 연계하여 빠르게 처리될 수 있도록 지원하여 빅데이터 분석에 필요한 성능이 충족되도록 지원할 수 있음과 아울러 가비지 데이터를 저가의 저장 장치에 저장하여 다수의 저장 장치를 구성하는데 소요되는 비용을 경감시킬 수 있도록 지원할 수 있다.
도 1은 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치의 구성 환경도.
도 2는 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치의 상세 구성도.
도 3 내지 도 5는 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치의 동작 예시도.
도 6은 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 방법에 대한 순서도.
이하, 도면을 참고하여 본 발명의 실시예를 상세히 설명한다.
우선, 도 1을 참고하여 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치(이하, 서비스 제공 장치)의 등장 배경과 함께 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치의 구성 환경도를 설명한다.
도시된 바와 같이, 일반적으로 기업이나 기관 등에서는 하나 이상의 웹 페이지(Web page)로 구성된 웹 사이트(Web site)를 제공하는 하나 이상의 웹 서버 및 상기 기업이나 기관과 관련된 업무를 처리하기 위한 하나 이상의 로컬(local) 장치를 운영한다.
이때, 상기 로컬 장치가 상기 웹 서버의 기능을 수행할 수도 있으며, 상기 로컬 장치는 서버, PC(personal computer) 등으로 구성될 수 있다. 또한, 상기 웹 사이트에 포함된 웹 페이지는 게시판 페이지, 회원 관리 페이지 등과 같은 다양한 종류의 웹 페이지를 포함한다.
이에 따라, 상기 웹 사이트에 접속하는 다수의 외부 장치로부터 상기 웹 사이트에 등록하기 위한 다수의 컨텐츠(contents)가 전송되며, 상기 웹 사이트에 등록된 다수의 컨텐츠가 상기 웹 서버에 저장된다.
또한, 상기 로컬 장치에도 업무 처리에 따라 다양한 컨텐츠가 상기 로컬 장치에 의해 지속적으로 생성되어 상기 로컬 장치에 저장된다.
따라서, 이러한 웹 서버 및 로컬 장치를 운영하는 기관이나 기업은 웹 사이트에 지속적으로 등록되는 다수의 컨텐츠와 로컬 장치에 저장되는 다수의 컨텐츠를 이용한 빅데이터(Big Data) 분석을 통해 서비스 품질을 높이고자 한다.
그러나, 상술한 바와 같이, 게시판 등에는 기업이나 기관의 서비스와 관련된 컨텐츠가 등록되기도 하지만 서비스와도 관계가 없고 심지어 아무 의미가 없는 게시물 관련 컨텐츠가 등록되기도 한다.
또한, 로컬 장치 역시 기관이나 기업의 서비스와 관계 없는 개인 용도의 컨텐츠가 저장될 수 있다.
따라서, 웹 사이트나 로컬 장치에 등록된 컨텐츠 중 기관이나 기업의 서비스와 관련이 없는 컨텐츠인 가비지(garbage) 컨텐츠가 지속적으로 누적되므로, 이러한 가비지 컨텐츠가 빅데이터 분석에 이용될 경우 빅데이터 분석에 따른 결과의 신뢰성 및 정확도가 크게 저하되어 빅데이터 분석 결과를 신용하기 어려운 문제가 발생한다.
이러한 문제를 해결하기 위해, 기존에는 관리자가 수작업으로 다수의 컨텐츠 각각에 대해 사람이 모든 내용을 검토하는 방식으로 가비지 컨텐츠를 선별하여 빅데이터 분석에 이용되지 않도록 제거하고자 하였으나, 이러한 가비지 컨텐츠의 선별 작업에 투여되는 시간과 노력 및 비용이 상당하여 상당히 비효율적인 문제가 있다.
또한, 기존에는 컨텐츠 자체를 빅데이터 분석에 이용하므로, 컨텐츠에 서비스와 유관한 문장과 서비스와 무관한 문장이 혼재되어 있는 경우 컨텐츠에 서비스와 유관한 문장이 포함되어 빅데이터 분석 이용 대상으로 선정되더라도 해당 컨텐츠에 포함된 서비스와 무관한 문장까지 빅데이터 분석에 이용되므로, 이 경우 역시 빅데이터 분석 결과에 대한 신뢰도 및 정확도를 저하시킬 수 있다.
따라서, 본 발명에 따른 서비스 제공 장치(1)는, 컨텐츠를 구성하는 데이터를 파일 단위로 분리하여 분석할 수 있음은 물론이고 문단이나 문장 단위로 분리하여 분석되도록 지원할 수 있으며, 이러한 파일, 문단 및 문장 중 어느 하나의 기준 단위로 컨텐츠를 분리하여 생성된 하나 이상의 단위 분석 대상 각각을 의미 분석을 통해 빅데이터 분석을 위한 데이터로서의 이용 가치 정도를 나타내는 복수의 서로 다른 품질 등급으로 자동 분류되도록 함과 아울러 품질 등급이 결정된 단위 분석 대상에 대한 사용자 검토를 거친 복수의 서로 다른 단위 분석 대상 및 품질 등급을 미리 설정된 딥러닝 기반의 학습 모델에 학습시켜 추후 사용자 검토 없이 학습 모델을 통해 자동으로 컨텐츠를 구성하는 데이터 중 빅데이터 분석을 위한 이용 가치가 없는 가비지 데이터를 높은 정확도로 선별하여 정상 데이터와 구분되어 분리 저장되도록 지원함으로써, 빅데이터 분석에 가비지 데이터가 이용되지 않도록 지원할 수 있다.
상술한 내용을 토대로 이하 도면을 참고하여 본 발명의 실시예에 따른 서비스 제공 장치(1)의 상세 동작 구성 및 동작 예시를 설명한다.
우선, 도 1은 본 발명의 실시예에 따른 서비스 제공 장치(1)의 구성 환경도이고, 도 2는 본 발명의 실시예에 다른 서비스 제공 장치(1)를 구성하는 제어부(100)의 상세 구성도이다.
도시된 바와 같이, 상기 서비스 제공 장치(1)는 하나 이상의 상기 웹 서버 및 하나 이상의 로컬 장치와 통신망을 통해 통신할 수 있다.
이때, 본 발명에서 설명하는 통신망은 유/무선 통신망을 포함할 수 있으며, 이러한 무선 통신망의 일례로 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS), 5G 이동통신 서비스, 블루투스(Bluetooth), LoRa(Long Range), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct) 등이 포함될 수 있다. 또한, 유선 통신망으로는 유선 LAN(Local Area Network), 유선 WAN(Wide Area Network), 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있다.
또한, 상기 서비스 제공 장치(1)는 서버로 구성될 수 있다.
또한, 상기 서비스 제공 장치(1)는 상기 웹 서버 및 로컬 장치와의 통신을 위한 통신부(200), 각종 데이터를 저장하는 복수의 저장부 및 상기 서비스 제공 장치(1)의 전반적인 제어 기능을 수행하는 제어부(100)를 포함하여 구성될 수 있다.
이때, 상기 통신부(200) 및 복수의 저장부가 상기 제어부(100)에 포함되어 구성될 수도 있다.
또한, 상기 제어부(100)는 상기 서비스 제공 장치(1)의 전반적인 제어 기능을 실행한다. 제어부(100)는 RAM, ROM, CPU, GPU, 버스를 포함할 수 있으며, RAM, ROM, CPU, GPU 등은 버스를 통해 서로 연결될 수 있다. CPU는 복수의 저장부 중 어느 하나에 액세스하여, 저장부에 저장된 O/S(Operating System)를 이용하여 부팅을 수행할 수 있으며, 저장부에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행할 수 있다.
이때, 상기 제어부(100)는 복수의 서로 다른 제어 모듈로 구성될 수도 있으며, 각 제어 모듈이 RAM, ROM, CPU, GPU, 버스를 포함하도록 구성될 수도 있다.
도 2에 도시된 바와 같이, 상기 서비스 제공 장치(1)의 전반적인 제어 기능을 수행하는 제어부(100)는 데이터 수집부(110), 품질 분석부(120), 학습부(130), 결과 비교부(140) 및 데이터 관리부(150)를 포함하여 구성될 수 있다.
이때, 상기 데이터 수집부(110), 품질 분석부(120), 학습부(130), 결과 비교부(140) 및 데이터 관리부(150) 중 적어도 하나가 다른 하나에 포함되어 구성될 수도 있으며, 각각이 제어 모듈로서 구성될 수 있다.
우선, 상기 데이터 수집부(110)는, 하나 이상의 웹 서버 및 하나 이상의 로컬 장치와 상기 통신부(200)를 통해 통신할 수 있으며, 웹 서버별로 제공하는 웹 페이지에 등록된 컨텐츠를 웹 크롤링(web crawling)을 통해 수집할 수 있으며, 상기 로컬 장치 각각에 저장된 컨텐츠를 수집할 수 있다.
또한, 상기 데이터 수집부(110)는 상기 하나 이상의 웹 서버 및 하나 이상의 로컬 장치 중 적어도 하나로부터 수집된 컨텐츠를 분석 대상 컨텐츠로서 상기 품질 분석부(120) 및 학습부(130)에 제공(전송)할 수 있다.
또한, 상기 복수의 저장부 중 어느 하나인 제 1 저장부가 수집 저장 DB(101)로 구성되며, 상기 데이터 수집부(110)는 상기 수집된 컨텐츠를 수집 저장 DB(101)에 저장할 수 있다.
또한, 상기 품질 분석부(120)는, 상기 데이터 수집부(110)로부터 컨텐츠 수신시 해당 컨텐츠를 파일(file), 문단 및 문장 중 어느 하나의 미리 설정된 기준 단위로 분리하여 얻어진 단위 분석 대상에 대해, 형태소 분석을 통해 단어 단위로 분리하여 하나 이상의 단어를 획득하며, 상기 컨텐츠에 대응되어 획득된 하나 이상의 단어별로 중복횟수를 산출하고, 상기 하나 이상의 단어 중 미리 설정된 사전 정보에 정의되지 않은 오류 단어를 식별하고, 상기 오류 단어별 중복횟수 및 상기 하나 이상의 단어 중 상기 오류 단어가 아닌 정상 단어별 중복 횟수에 따른 단어 분포도를 미리 설정된 품질 등급 분류 기준과 비교하여 상기 단어 분포도에 대응되는 품질 등급을 상기 단위 분석 대상에 대응되도록 산출한 후 상기 단위 분석 대상과 함께 표시하고, 사용자 입력에 따라 상기 품질 등급 또는 상기 품질 등급을 수정한 수정 등급을 상기 단위 분석 대상의 최종 품질 등급으로 산출하도록 동작하며, 상술한 동작 방식을 통해 분석 대상 컨텐츠로부터 얻어진 하나 이상의 상기 단위 분석 대상별로 상기 최종 품질 등급을 산출할 수 있다.
상기 품질 분석부(120)의 상세 구성을 상기 품질 분석부(120)를 구성하는 복수의 구성부들 각각의 기능을 토대로 이하 도면을 참고하여 설명한다.
우선, 상기 품질 분석부(120)는 도 2에 도시된 바와 같이 형태소 분석부(121), 의미 분석부(122), 제 1 품질 등급 산출부(123), 품질 등급 결정부(125) 및 사용자 인터페이스부(124)를 포함하여 구성될 수 있다.
이때, 상기 품질 분석부(120)를 구성하는 구성부들 중 적어도 하나가 다른 하나에 포함되어 구성될 수도 있다.
도 3에 도시된 바와 같이, 상기 형태소 분석부(121)는, 데이터 수집부(110)로부터 수신된 컨텐츠를 파일, 문단 및 문장 중 어느 하나의 미리 설정된 기준 단위로 분리하여 하나 이상의 단위 분석 대상을 획득할 수 있다.
이때, 상기 단위 분석 대상은 컨텐츠 자체인 파일이거나, 상기 컨텐츠에 포함된 문단 단위의 문단 데이터 또는 상기 컨텐츠에 포함된 문장 단위의 문장 데이터일 수 있다.
또한, 상기 단위 분석 대상은 텍스트로 구성될 수 있으며, 상기 기준 단위인 파일은 문서로 구성된 파일 또는 문서를 의미할 수 있다.
또한, 상기 형태소 분석부(121)는 상기 단위 분석 대상에 대한 형태소 분석을 통해 단어 단위로 분리하여 하나 이상의 단어를 상기 단위 분석 대상에 대응되도록 획득할 수 있다.
이때, 상기 형태소 분석부(121)는 단어에서 미리 설정된 규칙에 따라 특수문자, 숫자, 불용어, 부사, 접속사 등을 제거할 수 있다.
또한, 상기 의미 분석부(122)는, 상기 단위 분석 대상에 대응되도록 상기 형태소 분석부(121)를 통해 획득된 하나 이상의 단어별로 중복횟수를 산출하고, 상기 하나 이상의 단어 중 미리 설정된(저장된) 사전 정보에 정의되지 않은 단어가 존재하면 해당 단어를 오류 단어로 식별할 수 있다.
이를 위해, 상기 제어부(100)에는 복수의 유의어 정보가 저장된 유의어 사전 DB(104), 복수의 형태소 정보가 저장된 형태소 사전 DB(105) 및 복수의 의미 정보가 저장된 의미 사전 DB(106)를 포함하는 사전 DB가 포함(저장)될 수 있으며, 이러한 사전 DB는 사전 정보로 구성될 수도 있다.
이때, 의미 정보는 사전에 정의된 단어 및 상기 사전에 정의된 단어의 의미에 대한 정보를 포함할 수 있다.
또는, 상기 유의어 사전 DB(104), 형태소 사전 DB(105) 및 의미 사전 DB(106)를 포함하는 사전 정보는 상기 복수의 저장부 중 어느 하나에 저장될 수도 있다.
이때, 상기 형태소 분석부(121)는 상기 형태소 사전 DB(105)에 저장된 정보를 이용하여 상기 단위 분석 대상에 대한 상기 형태소 분석을 수행할 수 있으며, 이를 통해 상기 단위 분석 대상을 단어 단위로 분리할 수 있다.
또한, 상기 의미 분석부(122)는 상기 단위 분석 대상에서 오류 단어로 식별된 하나 이상의 단어별로 상기 단위 분석 대상에서의 중복횟수를 확인하여 산출하고, 상기 단위 분석 대상에서 식별된 하나 이상의 단어 중 상기 사전 정보에 의미가 정의된 단어를 정상 단어로 식별하고, 상기 하나 이상의 정상 단어별로 상기 단위 분석 대상에서의 중복 횟수를 확인하여 산출할 수 있다.
이에 대한 일례로, 도 3에 도시된 바와 같이, 상기 형태소 분석부(121)는 상기 컨텐츠에 포함된 텍스트를 미리 설정된 기준 단위인 문장 단위로 분리하여, 상기 컨텐츠에 포함된 텍스트로부터 하나 이상의 단위 문장을 각각 단위 분석 대상으로 획득할 수 있으며, 상기 단위 분석 대상인 특정 단위 문장에 대한 형태소 분석을 통해 상기 특정 단위 문장을 단어 단위로 분리하여 하나 이상의 단어를 상기 특정 단위 문장으로부터 획득할 수 있다.
또한, 상기 의미 분석부(122)는 상기 형태소 분석부(121)를 통해 획득된 상기 하나 이상의 단어 각각을 상기 사전 정보와 비교하는 의미 분석을 수행하며, 상기 하나 이상의 단어 각각을 사전 정보와 비교하여, 상기 하나 이상의 단어 중 사전 정보에 의미가 정의된 '서치', '질문', '검색' 등과 같은 단어를 정상 단어로 식별할 수 있다.
또한, 상기 의미 분석부(122)는 상기 하나 이상의 단어 중 '@#', ㅋㅍ', '감프' 등과 같은 사전 정보의 의미가 정의되지 않은 단어를 오류 단어로서 식별할 수 있다.
또한, 상기 의미 분석부(122)는 상기 특정 단위 문장으로부터 식별된 정상 단어별로 상기 특정 단위 문장에서의 중복횟수를 산출하고, 상기 특정 단위 문장으로부터 식별된 오류 단어별로 상기 특정 단위 문장에서의 중복횟수를 산출할 수 있다.
또한, 상기 의미 분석부(122)는 상기 오류 단어별 중복횟수 및 상기 하나 이상의 단어 중 상기 오류 단어가 아닌 정상 단어별 중복 횟수에 따른 단어 분포도를 생성할 수 있다.
이때, 상기 단어 분포도는 상기 특정 단위 문장에 대응되는 정상 단어별 중복 횟수 및 상기 특정 단위 문장에 대응되는 오류 단어별 중복횟수를 포함할 수 있다.
또한, 상기 의미 분석부(122)는 상기 단어 분포도 및 상기 특정 단위 문장을 상기 제 1 품질 등급 산출부(123)에 제공할 수 있다.
상기 제 1 품질 등급 산출부(123)는 상기 단어 분포도를 미리 설정된 품질 등급 분류 기준과 비교하여 상기 단어 분포도에 대응되는 품질 등급을 상기 단위 분석 대상인 특정 단위 문장에 대응되도록 산출할 수 있다.
이때, 상기 품질 등급 분류 기준의 일례로, 상기 품질 등급 분류 기준은 상기 단어 분포도에 따른 정상 단어 대비 오류 단어의 비율, 빅데이터 분석 대상인 서비스와 관련되어 미리 설정된 하나 이상의 설정 단어와 일치하는 정상 단어의 비율, 오류 단어의 개수, 오류 단어의 중복 횟수 등과 같은 하나 이상의 서로 다른 기준 항목 및 상기 하나 이상의 서로 다른 기준 항목별 점수 채점을 위한 수학식이 포함될 수 있다.
이때, 상기 하나 이상의 설정 단어는 상기 사전 정보에 포함될 수 있다.
또한, 상기 품질 등급 분류 기준은 서로 다른 복수의 품질 등급이 미리 설정되고, 상기 복수의 품질 등급과 각각 대응되는 복수의 서로 다른 점수 범위가 포함(설정)될 수 있다.
이에 따라, 상기 제 1 품질 등급 산출부(123)는 상기 단어 분포도를 상기 하나 이상의 서로 다른 기준 항목 각각에 적용하여 얻어진 점수를 합산한 최종 점수를 상기 품질 등급 분류 기준에 따른 품질 등급별 점수 범위와 비교하여, 상기 최종 점수에 대응되는 특정 품질 등급을 상기 단어 분포도에 대응되는 상기 특정 단위 문장의 품질 등급으로 결정하여 산출할 수 있다.
한편, 상기 제 1 품질 등급 산출부(123)는 상기 단위 분석 대상인 특정 단위 문장과 상기 특정 단위 문장에 대응되어 산출된 상기 품질 등급 및 단어 분포도를 포함하는 분류 결과 정보를 생성하여 상기 사용자 인터페이스부(124)에 제공할 수 있다.
이에 따라, 도 4 및 도 5에 도시된 바와 같이, 상기 사용자 인터페이스부(124)는 상기 제 1 품질 등급 산출부(123)로부터 상기 분류 결과 정보 수신시 상기 분류 결과 정보를 사용자(또는 서비스 제공 장치(1)의 관리자)가 확인 가능하도록 표시할 수 있다.
이를 위해, 상기 사용자 인터페이스부(124)는 상기 통신부(200)를 통해 디스플레이를 포함한 사용자 장치와 통신할 수 있으며, 상기 사용자 장치를 통해 상기 분류 결과 정보를 표시할 수 있다.
이때, 상기 사용자 장치는 단일 디스플레이 장치인 출력 장치로 구성될 수도 있다.
또한, 상기 사용자 인터페이스부(124)는 상기 품질 분석부(120) 또는 상기 제 1 품질 등급 산출부(123)에 의해 제어될 수 있으며, 상기 제어부(100)와 별도로 상기 서비스 제공 장치(1)에 구성될 수도 있음은 물론이다.
또한, 상기 사용자 인터페이스부(124)가 각종 정보를 사용자가 확인 가능하도록 표시(출력)하는 디스플레이 모듈(표시 모듈)로 구성될 수도 있다.
상술한 구성에서, 상기 형태소 분석부(121), 의미 분석부(122) 및 제 1 품질 등급 산출부(123)는 하나의 컨텐츠로부터 복수의 단위 분석 대상을 획득한 경우 상기 복수의 단위 분석 대상 각각에 대해 상술한 바와 같은 동작을 수행하여 상기 복수의 단위 분석 대상과 각각 대응되는 복수의 분류 결과 정보를 생성할 수 있으며, 상기 사용자 인터페이스부(124)는 상기 복수의 분류 결과 정보를 취합하여 표시할 수도 있다.
또한, 상술한 구성에서, 상기 품질 분석부(120)의 의미 분석부(122)는, 상기 단어 분포도를 기초로 상기 단어 분포도에 대응되는 단위 분석 대상에 대응되도록 워드 클라우드 정보를 생성할 수 있다.
또한, 상기 품질 분석부(120)의 제 1 품질 등급 산출부(123)는, 상기 의미 분석부(122)와 연동하여, 상호 대응되는 상기 단어 분포도, 상기 워드 클라우드 정보, 품질 등급 및 상기 단위 분석 대상을 포함한 분류 결과 정보를 생성하여 상기 사용자 인터페이스부(124)를 통해 제공할 수 있다.
즉, 분류 결과 정보는 단어 분포도, 워드 클라우드 정보, 품질 등급 및 단위 분석 대상을 포함할 수 있다.
상기 워드 클라우드(word cloud) 정보는 중복 횟수가 많은 단어일 수록 단어의 글자 크기가 크게 표시되도록 상기 단위 분석 대상에 포함된 하나 이상의 단어를 취합하여 시각화한 정보이며, 상기 단위 분석 대상에 포함된 단어 중 핵심 단어를 시각적으로 확인할 수 있도록 생성된 정보를 의미할 수 있다.
상술한 구성에서, 상기 분류 결과 정보는 품질 등급과 단위 분석 대상만을 포함하여 구성될 수도 있음은 물론이다.
상술한 구성을 통해, 품질 분석부(120)는 컨텐츠에 대응되는 하나 이상의 단위 분석 대상별로 분류 결과 정보를 생성하여 사용자 인터페이스부(124)를 통해 제공할 수 있으며, 이를 통해 사용자가 해당 분류 결과 정보를 확인하여 단위 분석 대상에 대해 결정된 품질 등급이 적절한지 여부를 단위 분석 대상과 함께 확인 가능하도록 제공할 수 있다.
또한, 상기 품질 분석부(120)는 상술한 바와 같이 품질 등급 결정부(125)를 포함할 수 있으며, 상기 품질 등급 결정부(125)는 사용자 입력을 수신할 수 있다.
이를 위해, 상기 서비스 제공 장치(1)는 사용자 입력을 수신하는 사용자 입력부(300)를 더 포함하여 구성될 수도 있으며, 상기 사용자 인터페이스부(124)가 사용자 입력부(300)로 구성되거나 상기 사용자 입력부(300)를 포함하여 구성될 수도 있다.
또한, 상기 사용자 인터페이스부(124)는 사용자 입력에 따라 상기 품질 등급의 수정 또는 최종 확인이 가능하도록 입력 인터페이스를 제공할 수 있다.
이에 따라, 상기 품질 등급 결정부(125)는 상기 사용자 입력 수신시 상기 사용자 입력을 기초로 상기 단위 분석 대상별 분류 결과 정보에 따른 하나 이상의 단위 분석 대상 중 선택된 특정 단위 분석 대상에 대해 상기 품질 분석부(120)를 통해 결정된 품질 등급에 대한 수정 없이 상기 품질 분석부(120)를 통해 결정된 품질 등급이 정확한 것으로 사용자가 최종 확인을 선택한 경우 상기 특정 단위 분석 대상에 대해 품질 분석부(120)가 생성한 품질 등급을 최종 품질 등급으로 산출(결정)하고, 상기 특정 단위 분석 대상 및 상기 산출된 최종 품질 등급을 포함하는 품질 결과 정보를 생성할 수 있다.
또한, 상기 품질 등급 결정부(125)는 상기 사용자 입력을 기초로 상기 단위 분석 대상별 분류 결과 정보에 따른 하나 이상의 단위 분석 대상 중 선택된 상기 특정 단위 분석 대상에 대해 상기 품질 분석부(120)를 통해 결정된 품질 등급에 대한 수정이 발생한 경우 사용자 입력에 따라 수정된 품질 등급을 최종 품질 등급으로 산출(결정)하고, 상기 특정 단위 분석 대상 및 상기 산출된 최종 품질 등급(사용자 입력에 따라 수정된 품질 등급)을 포함하는 품질 결과 정보를 생성할 수 있다.
이때, 상기 품질 등급 결정부(125)는 상기 특정 단위 분석 대상에 대응되는 분류 결과 정보를 기초로 품질 결과 정보를 생성할 수 있으며, 상기 품질 등급 수정시 상기 분류 결과 정보에 포함된 품질 등급을 사용자 입력에 따른 품질 등급으로 수정한 후 수정사항이 반영된 분류 결과 정보를 기초로 품질 결과 정보를 생성할 수 있다.
상술한 구성에 따라, 품질 분석부(120)는, 데이터 수집부(110)로부터 수신된 분석 대상 컨텐츠로부터 상술한 바와 같이 얻어진 하나 이상의 상기 단위 분석 대상별로 상기 최종 품질 등급을 산출할 수 있으며, 상기 단위 분석 대상별로 품질 결과 정보를 생성할 수 있다.
상술한 바와 같이, 본 발명에 따른 서비스 제공 장치(1)는 컨텐츠를 구성하는 단위 분석 대상 각각에 대해 단위 분석 대상에 포함된 핵심 단어들을 분석한 후 이를 기초로 빅데이터 분석을 위한 이용 가치에 대한 품질 등급을 결정하여 사용자가 분석 내용과 품질 등급 및 단위 분석 대상을 일목 요연하게 확인 가능하도록 제공할 수 있어 품질 등급의 적절성 여부를 신속히 결정할 수 있도록 지원할 수 있음과 아울러 이를 통해 컨텐츠를 구성하는 데이터인 단위 분석 대상 각각의 품질 등급을 용이하고 정확하면서도 신속하게 단위 분석 대상에 라벨링할 수 있도록 지원할 수 있을 뿐만 아니라 컨텐츠를 파일 단위 뿐만 아니라 문단 단위나 문장 단위의 단위 분석 대상 단위로 쪼개어 라벨링할 수 있도록 지원함으로써 컨텐츠 자체 뿐만 아니라 컨텐츠를 구성하는 데이터들 중 빅데이터 분석을 위한 이용 가치가 없는 일부 가비지 데이터의 제거가 가능하도록 딥러닝 기반의 학습을 위한 학습 데이터를 생성할 수 있다.
한편, 상기 결과 비교부(140)는 상기 품질 분석부(120) 또는 상기 품질 분석부(120)의 품질 등급 결정부(125)로부터 상기 단위 분석 대상별 품질 결과 정보를 수신할 수 있다.
또한, 상기 결과 비교부(140)는 상기 단위 분석 대상별 품질 결과 정보를 상기 학습 데이터로 상기 학습부(130)에 제공할 수 있다.
즉, 상기 결과 비교부(140)는, 단위 분석 대상과 매칭되는 품질 등급과 단위 분석 대상이 상호 매칭되어 포함된 품질 결과 정보를 학습부(130)의 학습 모델을 학습시키기 위한 하나의 데이터 세트로 생성하여 상기 학습부(130)에 제공할 수 있다.
또한, 상기 학습부(130)는, 상기 품질 분석부(120)를 통해 서로 다른 컨텐츠별로 산출된 하나 이상의 단위 분석 대상 및 상기 하나 이상의 단위 분석 대상별 최종 품질 등급을 상기 학습부(130)에 미리 설정된 학습 모델에 학습시켜 상기 단위 분석 대상과 품질 등급 사이의 상관관계가 학습된 학습 모델을 포함하며, 상기 데이터 수집부(110)로부터 수신된 상기 분석 대상 컨텐츠를 상기 품질 분석부(120)에 설정된 기준 단위와 동일한 기준 단위로 분리하여 하나 이상의 단위 분석 대상을 획득한 후 상기 학습 모델에 적용하여 상기 학습 모델을 통해 상기 단위 분석 대상별 최종 품질 등급을 산출하도록 동작한다.
이를 위해, 상기 학습부(130)는 도 2에 도시된 바와 같이, 입력 데이터 생성부(131), 분류부(132) 및 제 2 품질 등급 산출부(133)를 포함하여 구성될 수 있다.
이때, 상기 학습부(130)를 구성하는 구성부들 중 적어도 하나가 다른 하나에 포함되어 구성될 수도 있다.
우선, 상기 분류부(132)는 딥러닝(deep learning) 기반의 학습 모델이 포함되어(설정되어) 구성될 수 있다.
이때, 상기 학습 모델은 딥러닝 알고리즘으로 구성될 수 있으며, 상기 딥러닝 알고리즘은 하나 이상의 신경망 모델로 구성될 수 있다.
또한, 본 발명에서 설명하는 신경망 모델(또는 신경망)은 입력층(Input Layer), 하나 이상의 은닉층(Hidden Layers) 및 출력층(Output Layer)으로 구성될 수 있으며, 상기 신경망 모델에는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), CNN(Convolutional Neural Network), SVM(Support Vector Machine) 등과 같은 다양한 종류의 신경망이 적용될 수 있다.
이에 따라, 상기 분류부(132)는 상기 결과 비교부(140)로부터 품질 분석부(120)가 생성한 학습 데이터인 상기 단위 분석 대상별 품질 결과 정보를 수신할 수 있으며, 상기 단위 분석 대상별 품질 결과 정보를 상기 학습 모델에 학습시킬 수 있다.
이를 통해, 상기 학습 모델은 단위 분석 대상별로 단위 분석 대상과 매칭되는 품질 등급을 학습하여 단위 분석 대상과 품질 등급 사이의 상관 관계가 상기 학습 모델에 설정되도록 학습할 수 있다.
상술한 구성에 따른 학습이 완료된 이후, 상기 입력 데이터 생성부(131)는 상기 데이터 수집부(110)로부터 분석 대상 컨텐츠를 수신할 수 있다.
또한, 상기 입력 데이터 생성부(131)는 상기 분석 대상 컨텐츠를 상기 품질 분석부(120)에 미리 설정된 기준 단위와 동일한 기준 단위로 분리하여 파일, 문단 및 문장 중 어느 하나의 기준 단위에 따른 하나 이상의 단위 분석 대상을 생성할 수 있으며, 하나 이상의 단위 분석 대상을 상기 분류부(132)에 제공할 수 있다.
상기 분류부(132)는 상기 입력 데이터 생성부(131)로부터 수신되는 하나 이상의 단위 분석 대상 각각을 상기 학습이 완료된 학습 모델에 적용할 수 있으며, 상기 학습 모델을 통해 상기 하나 이상의 단위 분석 대상 각각에 대해 품질 등급을 결정(산출)할 수 있다.
또한, 상기 제 2 품질 등급 산출부(133)는 상기 분류부(132)로부터 하나 이상의 단위 분석 대상 및 하나 이상의 단위 분석 대상과 각각 대응되는 품질 등급을 수신하고, 상기 단위 분석 대상별로 상기 단위 분석 대상 및 해당 단위 분석 대상에 대해 결정된 품질 등급을 포함하는 품질 결과 정보를 생성할 수 있다.
이때, 상기 제 2 품질 등급 산출부(133)는 단위 분석 대상에 대해 상기 분류부(132)에 의해 결정된 품질 등급을 상기 단위 분석 대상의 최종 품질 등급으로 결정(설정)하고, 상기 최종 품질 등급 및 단위 분석 대상을 포함하는 품질 결과 정보를 생성할 수 있다.
또한, 상기 학습부(130)의 제 2 품질 등급 산출부(133)는 분석 대상 컨텐츠에 대응되어 생성된 단위 분석 대상별 품질 결과 정보를 결과 비교부(140)에 제공할 수 있으며, 상기 결과 비교부(140)는 상기 학습부(130)로부터 제공된 단위 분석 대상별 품질 결과 정보를 데이터 관리부(150)에 제공할 수 있다.
이때, 상기 데이터 관리부(150)는 상기 학습부(130)로부터 직접 상기 단위 분석 대상별 품질 결과 정보를 수신할 수도 있다.
한편, 상기 데이터 관리부(150)는 상기 학습부(130)로부터 수신된 품질 결과 정보에서 품질 등급을 확인하여, 품질 결과 정보에 포함된 품질 등급이 미리 설정된 기준 등급 이상인 품질 결과 정보에 포함된 단위 분석 대상을 정상 데이터로 판단할 수 있다.
또한, 상기 데이터 관리부(150)는 상기 학습부(130)로부터 수신된 품질 결과 정보에 포함된 품질 등급이 미리 설정된 기준 등급 미만인 품질 결과 정보에 포함된 단위 분석 대상을 가비지 데이터(또는 오류 데이터)로 판단할 수 있다.
또한, 상기 서비스 제공 장치(1)에 포함된 복수의 저장부 중 제 2 저장부는 가비지 데이터만을 저장하는 오류 저장 DB(102)로 구성될 수 있으며, 상기 복수의 저장부 중 제 3 저장부는 정상 데이터만을 저장하는 분리 저장 DB(103)로 구성될 수 있다.
이에 따라, 상기 데이터 관리부(150)는 상기 정상 데이터로 판단된 단위 분석 대상을 상기 분리 저장 DB(103)에 저장할 수 있으며, 상기 가비지 데이터로 판단된 단위 분석 대상을 상기 오류 저장 DB(102)에 저장할 수 있다.
이때, 상기 데이터 관리부(150)는 상기 단위 분석 대상을 상기 품질 결과 정보로부터 추출하여 상기 분리 저장 DB(103) 또는 오류 저장 DB(102)에 저장할 수 있다.
또한, 상기 데이터 관리부(150)는 상기 단위 분석 대상을 상기 분리 저장 DB(103)나 오류 저장 DB(102)에 저장할 때 상기 단위 분석 대상을 포함하는 분석 대상 정보를 생성하여 상기 분석 대상 정보를 상기 분리 저장 DB(103)나 오류 저장 DB(102)에 저장할 수 있다.
이때, 상기 데이터 관리부(150)는 상기 분석 대상 정보 저장시 상기 분석 대상 정보에 상기 단위 분석 대상에 대응되는 품질 등급을 포함시켜 저장할 수도 있다.
또한, 상기 데이터 관리부(150)는 분석 대상 컨텐츠에 대해 생성된 단위 분석 대상별로 상기 학습부(130)가 생성한 품질 결과 정보마다 품질 결과 정보에 포함된 단위 분석 대상을 상술한 정상 데이터 및 가비지 데이터 중 어느 하나로 자동 분류하여 분리 저장하는 작업을 수행할 수 있으며, 이를 통해 복수의 서로 다른 컨텐츠에 각각 대응되어 생성된 복수의 서로 다른 단위 분석 대상마다 정상 데이터 및 가비지 데이터 중 어느 하나로 자동 분류하여 저장하는 작업을 수행할 수 있다.
상술한 구성에 따라, 본 발명에 따른 서비스 제공 장치(1)는 빅데이터 분석시 분리 저장 DB(103)에 저장된 정상 데이터만을 이용하여 빅데이터 분석이 이루어지도록 제공할 수 있으며, 이를 통해 빅데이터 분석을 위한 이용 가치가 높은 데이터만이 빅데이터 분석에 이용되도록 지원함으로써, 빅데이터 분석 결과에 대한 신뢰도 및 정확도를 크게 개선되도록 지원할 수 있다.
한편, 상술한 구성에서, 상기 데이터 수집부(110)는 동일한 분석 대상 컨텐츠를 품질 분석부(120) 및 학습부(130) 모두에 제공할 수 있으며, 상기 결과 비교부(140)는 상기 분석 대상 컨텐츠로부터 획득된 특정 단위 분석 대상에 대해 상기 품질 분석부(120)가 생성하는 품질 결과 정보인 제 1 품질 결과 정보와 상기 특정 단위 분석 대상에 대한 상기 학습부(130)가 생성하는 품질 결과 정보인 제 2 품질 결과 정보 상호 간 비교를 통해 일치 여부를 판단하고, 일치하지 않을 경우 상기 학습 모델을 재학습시키기 위한 데이터를 생성한 후 학습 모델에 학습시켜 상기 학습부(130)의 품질 등급 산출에 대한 정확도를 향상시킬 수 있는데, 이를 상세히 설명한다.
우선, 상기 품질 분석부(120)는 데이터 수집부(110)로부터 수신된 분석 대상 컨텐츠로부터 얻어진 특정 단위 분석 대상 및 상기 특정 단위 분석 대상과 대응되는 최종 품질 등급을 포함하는 품질 결과 정보인 제 1 품질 결과 정보를 상술한 바와 같이 생성할 수 있다.
또한, 상기 학습부(130)는 상기 품질 분석부(120)가 수신한 분석 대상 컨텐츠와 동일한 분석 대상 컨텐츠를 상기 데이터 수집부(110)로부터 수신하고, 상기 분석 대상 컨텐츠로부터 얻어진 상기 특정 단위 분석 대상 및 상기 특정 단위 분석 대상과 대응되는 최종 품질 등급을 포함하는 품질 결과 정보인 제 2 품질 결과 정보를 상술한 바와 같이 생성할 수 있다.
또한, 상기 결과 비교부(140)는 상기 품질 분석부(120)로부터 제 1 품질 결과 정보를 수신하고, 상기 학습부(130)로부터 상기 제 2 품질 결과 정보를 수신하여 동일 단위 분석 대상을 포함하는 품질 결과 정보끼리 상호 비교할 수 있다.
또한, 상기 결과 비교부(140)는 비교 결과 상기 특정 단위 분석 대상에 대한 상기 제 1 및 제 2 품질 결과 정보 상호 간 최종 품질 등급이 상호 일치하지 않는 경우 상기 특정 단위 분석 대상을 오류 분석 대상으로 식별하고, 상기 오류 분석 대상 발생시(식별시) 상기 오류 분석 대상에 대응되는 상기 제 1 및 제 2 품질 결과 정보 각각에 포함된 최종 품질 등급과 상기 오류 분석 대상을 포함하는 오류 정보를 생성하여 표시할 수 있다.
이때, 상기 결과 비교부(140)는 상기 오류 정보를 상기 사용자 인터페이스부(124)를 통해 표시하거나 상기 통신부(200)를 통해 통신 연결된 사용자 장치를 통해 표시할 수 있다.
또한, 상기 결과 비교부(140)는 사용자 입력부(300) 또는 사용자 인터페이스부(124)를 통해 사용자 입력을 수신할 수 있으며, 상기 사용자 입력에 따라 상기 오류 분석 대상에 대해 결정된 품질 등급과 상기 오류 분석 대상을 매칭하여 상기 학습부(130)의 학습 모델에 학습시킬 수 있다.
이를 통해, 본 발명에 따른 서비스 제공 장치(1)는 동일 단위 분석 대상에 대해 품질 분석부(120)와 학습부(130) 상호 간 품질 결과 정보의 합치가 이루어지지 않은 오류 분석 대상을 식별하여 해당 오류 분석 대상에 대해 사용자가 결정한 품질 등급과 오류 분석 대상을 매칭하여 학습 모델에 학습시켜 학습 모델이 사용자의 판단 기준에 더욱 근접한 판단 기준을 가지도록 학습 모델의 품질 등급 분류 성능을 향상시킬 수 있다.
또한, 상기 결과 비교부(140)는 상기 비교 결과 특정 단위 분석 대상에 대한 상기 제 1 및 제 2 품질 결과 정보가 상호 일치하는 경우 상기 일치하는 제 1 및 제 2 품질 결과 정보 중 어느 하나를 상기 데이터 관리부(150)에 전송할 수 있다.
상술한 바에 따라, 상기 결과 비교부(140)는 상기 품질 분석부(120) 및 학습부(130)로부터 단위 분석 대상별로 제 1 및 제 2 품질 결과 정보 수신시마다 상기 비교 과정을 통해 제 1 및 제 2 품질 결과 정보 중 어느 하나를 상기 데이터 관리부(150)에 전송하거나 오류 정보를 생성할 수 있다.
이에 따라, 상기 데이터 관리부(150)는 상기 결과 비교부(140)로부터 단위 분석 대상별로 수신된 제 1 및 제 2 품질 결과 정보 중 어느 하나를 기초로 최종 품질 등급이 미리 설정된 기준 등급 이상인 단위 분석 대상을 정상 데이터로 판단하여 상기 분리 저장 DB(103)에 저장하고, 상기 최종 품질 등급이 미리 설정된 기준 등급 미만인 단위 분석 대상을 가비지 데이터로 판단하여 오류 저장 DB(102)에 저장할 수 있다.
이때, 분리 저장 DB(103)를 성능이 높은 고가의 저장 장치로 구성하고, 상기 오류 저장 DB(102)와 수집 저장 DB(101)를 성능이 낮은 저가의 저장 장치로 구성하여, 빅데이터 분석시 이용 대상인 정상 데이터를 성능이 높은 분리 저장 DB(103)를 통해 빅데이터 분석과 연계하여 빠르게 처리될 수 있도록 지원할 수 있으며, 이용 대상이 아닌 데이터를 저가의 오류 저장 DB(102)와 수집 저장 DB(101)에 저장되도록 하여 데이터 관리에 이용되는 저장 장치에 소요되는 비용을 경감시킬 수 있도록 지원할 수 있다.
한편, 상술한 구성에서, 상기 제어부(100)는 컨텐츠 처리부(160)를 더 포함하여 구성될 수도 있으며, 상기 컨텐츠 처리부(160)는 상기 오류 저장 DB(102)에 저장된 가비지 데이터인 단위 분석 대상을 이용하여 상기 수집 저장 DB(101)에 저장된 컨텐츠를 대상으로 컨텐츠에서 상기 오류 저장 DB(102)에 저장된 단위 분석 대상과 일치하는 데이터인 삭제 대상 데이터를 식별할 수 있으며, 상기 컨텐츠에서 상기 오류 저장 DB(102)에 저장된 하나 이상의 단위 분석 대상 중 어느 하나와 일치하는 삭제 대상 데이터 식별시마다 상기 컨텐츠에서 삭제 대상 데이터를 삭제할 수 있다.
이때, 상기 컨텐츠 처리부(160)는 상기 단위 분석 대상이 파일 단위인 경우 상기 수집 저장 DB(101)에 저장된 컨텐츠 중 상기 오류 저장 DB(102)에 저장된 상기 단위 분석 대상과 일치하는 컨텐츠를 삭제할 수 있다.
이를 통해, 상기 컨텐츠 처리부(160)는 상기 수집 저장 DB(101)에 저장된 컨텐츠에서 가비지 데이터(또는 오류 데이터)로 식별된 데이터만을 삭제하여, 상기 수집 저장 DB(101)에 저장된 해당 컨텐츠를 정상 데이터만이 포함된 컨텐츠로 갱신할 수 있으며, 상기 수집 저장 DB(101)에 정상 컨텐츠만 저장되도록 할 수 있다.
상술한 구성을 통해, 본 발명에 따른 서비스 제공 장치(1)는 외부 장치로부터 수집되어 저장된 컨텐츠를 상술한 구성을 통해 가비지 데이터가 존재하지 않는 컨텐츠로 모두 갱신(변경)시킬 수 있으며, 수집 저장 DB(101)에 저장된 복수의 정상 컨텐츠를 이용하여 빅데이터 분석이 이루어지도록 지원할 수도 있다.
상술한 바와 같이, 본 발명은 컨텐츠를 구성하는 데이터를 파일 단위로 분리하여 분석할 수 있음은 물론이고 문단이나 문장 단위로 분리하여 분석되도록 지원할 수 있으며, 이러한 파일, 문단 및 문장 중 어느 하나의 기준 단위로 컨텐츠를 분리하여 생성된 하나 이상의 단위 분석 대상 각각을 대상으로 형태소 분석과 의미 분석을 통해 빅데이터 분석을 위한 데이터로서의 이용 가치 정도를 나타내는 복수의 서로 다른 품질 등급으로 자동 분류되도록 함과 아울러 품질 등급이 결정된 단위 분석 대상에 대한 사용자 검토를 거친 복수의 서로 다른 단위 분석 대상 및 품질 등급을 미리 설정된 딥러닝 기반의 학습 모델에 학습시켜 추후 사용자 검토 없이 학습 모델을 통해 자동으로 컨텐츠를 구성하는 데이터 중 빅데이터 분석을 위한 이용 가치가 없는 가비지 데이터를 높은 정확도로 선별하여 정상 데이터와 구분되어 분리 저장되도록 지원함로써, 빅데이터 분석에 가비지 데이터가 이용되지 않고 정상 데이터만 이용되도록 지원할 수 있어 빅데이터 분석 결과에 대한 신뢰도 및 정확도를 높일 수 있도록 지원할 수 있다.
또한, 본 발명은 학습이 완료된 학습 모델을 통해 다양한 장치로부터 수집된 컨텐츠를 대상으로 정상 데이터와 가비지 데이터가 자동 분류되도록 지원하여 빅데이터 분석을 위한 데이터 관리에 대한 편의성을 크게 높일 수 있다.
또한, 본 발명은 학습 모델을 통해 생성된 분석 대상에 대한 결과와 학습 모델을 학습시키기 위해 생성된 분석 대상에 대한 결과를 상호 비교하여 결과가 상호 불일치하는 오류 분석 대상에 대해 사용자가 결정한 결과를 학습 모델에 재학습시켜 학습 모델의 품질 등급 분류에 대한 판단 기준을 사용자의 판단 기준에 근접하도록 향상시킬 수 있으며, 이를 통해 컨텐츠에 포함된 데이터의 품질 등급 분류에 대한 신뢰도 및 정확도를 높일 수 있다.
또한, 본 발명은 컨텐츠에 포함된 데이터의 품질 등급을 기반으로 한 분류에 따라 정상 데이터를 고가의 저장 장치에 저장하고 가비지 데이터를 저가의 저장 장치에 저장하여, 고가의 저장 장치를 통해 정상 데이터가 빅데이터 분석과 연계하여 빠르게 처리될 수 있도록 지원하여 빅데이터 분석에 필요한 성능이 충족되도록 지원할 수 있음과 아울러 가비지 데이터를 저가의 저장 장치에 저장하여 다수의 저장 장치를 구성하는데 소요되는 비용을 경감시킬 수 있도록 지원할 수 있다.
도 6은 본 발명의 실시예에 따른 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치(1)의 서비스 제공 방법에 대한 순서도이다.
우선, 상기 서비스 제공 장치(1)는 웹 페이지 또는 로컬 장치로부터 컨텐츠를 수집할 수 있다(S1).
또한, 상기 서비스 제공 장치(1)는 수집된 컨텐츠를 파일, 문단 및 문장 중 어느 하나의 미리 설정된 기준 단위로 분리하여 얻어진 단위 분석 대상에 대해, 형태소 분석을 통해 단어 단위로 분리하여 하나 이상의 단어를 획득하며, 상기 컨텐츠에 대응되어 획득된 하나 이상의 단어별로 중복횟수를 산출하고, 상기 하나 이상의 단어 중 미리 설정된 사전 정보에 정의되지 않은 오류 단어를 식별하는 의미 분석을 수행하여, 상기 오류 단어별 중복횟수 및 상기 하나 이상의 단어 중 상기 오류 단어가 아닌 정상 단어별 중복 횟수에 따른 단어 분포도를 생성할 수 있다(S2).
또한, 상기 서비스 제공 장치(1)는, 상기 단어 분포도를 미리 설정된 품질 등급 분류 기준과 비교하여 상기 단어 분포도에 대응되는 상기 단위 분석 대상의 품질 등급을 산출한 후 상기 단위 분석 대상과 함께 표시할 수 있다(S3).
또한, 상기 서비스 제공 장치(1)는, 사용자 입력에 따라 상기 품질 등급 또는 상기 품질 등급을 수정한 수정 등급을 상기 단위 분석 대상의 최종 품질 등급으로 산출할 수 있다(S4).
또한, 상기 서비스 제공 장치(1)는 상기 컨텐츠로부터 얻어진 하나 이상의 상기 단위 분석 대상별로 상기 품질 분석 단계를 통해 상기 최종 품질 등급을 산출할 수 있다.
또한, 상기 서비스 제공 장치(1)는 상술한 구성을 통해 서로 다른 컨텐츠별로 산출된 하나 이상의 단위 분석 대상 및 상기 하나 이상의 단위 분석 대상별 최종 품질 등급을 상호 매칭하여 미리 설정된 학습 모델에 학습시켜 상기 단위 분석 대상과 품질 등급 사이의 상관관계가 학습 모델에 설정되도록 할 수 있다(S5).
또한, 상기 서비스 제공 장치(1)는 학습 모델의 학습이 완료된 경우(S6) 상기 웹 페이지 또는 로컬 장치로부터 수집된 분석 대상 컨텐츠를 상기 기준 단위로 분리하여 얻어진 하나 이상의 단위 분석 대상을 상기 학습 모델에 적용하여(S7), 상기 학습 모델을 통해 상기 분석 대상 컨텐츠에 대응되는 단위 분석 대상별 최종 품질 등급을 산출할 수 있다(S8).
또한, 상기 서비스 제공 장치(1)는, 상기 분석 대상 컨텐츠에 대응되는 상기 단위 분석 대상별로 산출된 최종 품질 등급을 기초로 최종 품질 등급이 미리 설정된 기준 등급 이상인 단위 분석 대상을 상기 복수의 저장부 중 어느 하나에 저장하고, 상기 최종 품질 등급이 미리 설정된 기준 등급 미만인 단위 분석 대상을 상기 복수의 저장부 중 다른 하나에 분리 저장할 수 있다(S9).
이를 통해, 상기 서비스 제공 장치(1)는 특정 서비스와 관련된 빅데이터 분석시 상기 최종 품질 등급이 기준 등급 이상인 단위 분석 대상만이 저장된 저장부의 데이터를 이용하여 빅데이터 분석이 이루어지도록 지원할 수 있다.
상술한 실시예들에서 설명된 구성요소는, 예를 들어, 메모리 등의 저장부, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서 등의 하드웨어, 명령어 세트를 포함하는 소프트웨어 내지 이들의 조합 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.
전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
1: 서비스 제공 장치 100: 제어부
101: 수집 저장 DB 102: 오류 저장 DB
103: 분리 저장 DB 104: 유의어 사전 DB
105: 형태소 사전 DB 106: 의미 사전 DB
110: 데이터 수집부 120: 품질 분석부
121: 형태소 분석부 122: 의미 분석부
123: 제 1 품질 등급 산출부 124: 사용자 인터페이스부
125: 품질 등급 결정부 130: 학습부
131: 입력 데이터 생성부 132: 분류부
133: 제 2 품질 등급 산출부 140: 결과 비교부
150: 데이터 관리부 160: 컨텐츠 처리부
200: 통신부 300: 사용자 입력부

Claims (10)

  1. 컨텐츠를 파일, 문단 및 문장 중 어느 하나의 미리 설정된 기준 단위로 분리하여 얻어진 단위 분석 대상에 대해, 형태소 분석을 통해 단어 단위로 분리하여 하나 이상의 단어를 획득하며, 상기 컨텐츠에 대응되어 획득된 하나 이상의 단어별로 중복횟수를 산출하고, 상기 하나 이상의 단어 중 미리 설정된 사전 정보에 정의되지 않은 오류 단어를 식별하고, 상기 오류 단어별 중복횟수 및 상기 하나 이상의 단어 중 상기 오류 단어가 아닌 정상 단어별 중복 횟수에 따른 단어 분포도를 미리 설정된 품질 등급 분류 기준과 비교하여 상기 단어 분포도에 대응되는 상기 단위 분석 대상의 품질 등급을 산출한 후 상기 단위 분석 대상과 함께 표시하고, 사용자 입력에 따라 상기 품질 등급 또는 상기 품질 등급을 수정한 수정 등급을 상기 단위 분석 대상의 최종 품질 등급으로 산출하도록 동작하며, 분석 대상 컨텐츠로부터 얻어진 하나 이상의 상기 단위 분석 대상별로 상기 최종 품질 등급을 산출하는 품질 분석부;
    상기 품질 분석부를 통해 서로 다른 컨텐츠별로 산출된 하나 이상의 단위 분석 대상 및 상기 하나 이상의 단위 분석 대상별 최종 품질 등급을 미리 설정된 학습 모델에 학습시켜 상기 단위 분석 대상과 품질 등급 사이의 상관관계가 학습된 학습 모델을 포함하며, 상기 분석 대상 컨텐츠를 상기 기준 단위로 분리하여 하나 이상의 단위 분석 대상을 획득한 후 상기 학습 모델에 적용하여 상기 학습 모델을 통해 상기 단위 분석 대상별 최종 품질 등급을 산출하는 학습부;
    정상 데이터만을 저장하는 제 1 DB와 가비지 데이터만을 저장하는 제 2 DB; 및
    상기 학습부로부터 상기 단위 분석 대상별로 최종 품질 등급 및 단위 분석 대상을 포함하는 품질 결과 정보를 수신하고, 상기 단위 분석 대상별로 상기 품질 결과 정보를 기초로 최종 품질 등급이 미리 설정된 기준 등급 이상인 단위 분석 대상을 상기 정상 데이터로 판단하여 상기 제 1 DB에 저장하고, 상기 최종 품질 등급이 미리 설정된 기준 등급 미만인 단위 분석 대상을 상기 가비지 데이터로 판단하여 상기 제 2 DB에 저장하는 데이터 관리부를 더 포함하되,
    상기 품질 분석부는 상기 단위 분석 대상 및 상기 단위 분석 대상과 대응되는 최종 품질 등급을 포함하는 제 1 품질 결과 정보를 생성하고,
    상기 학습부는 상기 단위 분석 대상 및 상기 단위 분석 대상과 대응되는 최종 품질 등급을 포함하는 제 2 품질 결과 정보를 생성하며,
    상기 품질 분석부 및 학습부로부터 단일 분석 대상이 상호 동일한 상기 제 1 및 제 2 품질 결과 정보를 수신하여 상호 비교하고, 상기 비교 결과 상기 제 1 및 제 2 품질 결과 정보가 상호 일치하는 단위 분석 대상만 상기 제 1 및 제 2 품질 결과 정보 중 어느 하나를 상기 데이터 관리부에 전송하는 결과 비교부를 더 포함하며,
    상기 데이터 관리부는 상기 제 1 및 제 2 품질 결과 정보 중 어느 하나를 기초로 최종 품질 등급이 미리 설정된 기준 등급 이상인 단위 분석 대상을 상기 정상 데이터로 판단하여 상기 제 1 DB에 저장하고, 상기 최종 품질 등급이 미리 설정된 기준 등급 미만인 단위 분석 대상을 상기 가비지 데이터로 판단하여 상기 제 2 DB에 저장하는 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  2. 청구항 1에 있어서,
    상기 단위 분석 대상은 문장 데이터, 문단 데이터 또는 파일로 구성된 문서 데이터 중 어느 하나인 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  3. 청구항 1에 있어서,
    웹 페이지에 등록된 컨텐츠를 웹 크롤링을 통해 수집하거나 로컬 장치와 통신하여 상기 로컬 장치에 저장된 컨텐츠를 수집하여 상기 분석 대상 컨텐츠로 상기 품질 분석부 및 학습부에 제공하는 데이터 관리부를 더 포함하는 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  4. 삭제
  5. 청구항 1에 있어서,
    상기 컨텐츠를 저장하는 제 3 DB를 더 포함하고,
    상기 제 2 DB에 저장된 가비지 데이터를 이용하여 상기 제 3 DB에 저장된 컨텐츠에서 상기 가비지 데이터와 일치하는 데이터를 삭제하여 상기 제 3 DB에 저장된 컨텐츠를 갱신하거나 상기 가비지 데이터와 일치하는 컨텐츠를 상기 제 3 DB에서 삭제하는 컨텐츠 처리부를 더 포함하는 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  6. 삭제
  7. 청구항 1에 있어서,
    상기 결과 비교부는,
    특정 단위 분석 대상에 대한 상기 제 1 및 제 2 품질 결과 정보 상호 간 최종 품질 등급이 상호 일치하지 않는 경우 상기 특정 단위 분석 대상을 오류 분석 대상으로 식별하고, 상기 오류 분석 대상에 대응되는 상기 제 1 및 제 2 품질 결과 정보 각각에 포함된 최종 품질 등급과 상기 오류 분석 대상을 포함하는 오류 정보를 생성하여 표시하고, 상기 사용자 입력에 따라 상기 오류 분석 대상에 대해 결정된 품질 등급과 상기 오류 분석 대상을 매칭하여 상기 학습부의 학습 모델에 학습시키는 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  8. 청구항 1에 있어서,
    상기 품질 분석부는 상기 단어 분포도를 기초로 상기 단어 분포도에 대응되는 단위 분석 대상에 대응되도록 워드 클라우드 정보를 생성하며, 상호 대응되는 상기 단어 분포도, 상기 워드 클라우드 정보, 상기 품질 등급 및 상기 단위 분석 대상을 포함한 분류 결과 정보를 생성하여 제공하는 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  9. 청구항 8에 있어서,
    상기 품질 분석부의 제어에 의해 상기 분류 결과 정보를 표시하고 상기 사용자 입력을 수신하는 사용자 인터페이스부를 더 포함하는 것을 특징으로 하는 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치.
  10. 삭제
KR1020200140373A 2020-10-27 2020-10-27 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법 KR102217213B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200140373A KR102217213B1 (ko) 2020-10-27 2020-10-27 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법
KR1020210012464A KR20220056077A (ko) 2020-10-27 2021-01-28 대량 생산 컨텐츠를 위한 딥러닝 분류 서비스 제공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200140373A KR102217213B1 (ko) 2020-10-27 2020-10-27 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210012464A Division KR20220056077A (ko) 2020-10-27 2021-01-28 대량 생산 컨텐츠를 위한 딥러닝 분류 서비스 제공 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102217213B1 true KR102217213B1 (ko) 2021-02-18

Family

ID=74688650

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200140373A KR102217213B1 (ko) 2020-10-27 2020-10-27 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법
KR1020210012464A KR20220056077A (ko) 2020-10-27 2021-01-28 대량 생산 컨텐츠를 위한 딥러닝 분류 서비스 제공 장치 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020210012464A KR20220056077A (ko) 2020-10-27 2021-01-28 대량 생산 컨텐츠를 위한 딥러닝 분류 서비스 제공 장치 및 방법

Country Status (1)

Country Link
KR (2) KR102217213B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050068575A (ko) 2003-12-30 2005-07-05 한국과학기술정보연구원 통합 컨텐츠 관리서버, 상기 관리서버에서 컨텐츠를관리하는 방법 및 상기 관리 서버를 포함한 컨텐츠 제공서비스 시스템
KR101092352B1 (ko) * 2008-10-31 2011-12-09 한국전자통신연구원 문장 코퍼스에 대한 영역 자동분류 방법 및 장치
KR20170034206A (ko) * 2015-09-18 2017-03-28 아주대학교산학협력단 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
KR20190137008A (ko) * 2018-05-31 2019-12-10 주식회사 마인즈랩 설명이 부가된 문서 분류 방법
KR102085214B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 특허문서의 단어 세트 획득 방법 및 시스템
KR20200109417A (ko) * 2019-03-12 2020-09-23 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050068575A (ko) 2003-12-30 2005-07-05 한국과학기술정보연구원 통합 컨텐츠 관리서버, 상기 관리서버에서 컨텐츠를관리하는 방법 및 상기 관리 서버를 포함한 컨텐츠 제공서비스 시스템
KR101092352B1 (ko) * 2008-10-31 2011-12-09 한국전자통신연구원 문장 코퍼스에 대한 영역 자동분류 방법 및 장치
KR20170034206A (ko) * 2015-09-18 2017-03-28 아주대학교산학협력단 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
KR20190137008A (ko) * 2018-05-31 2019-12-10 주식회사 마인즈랩 설명이 부가된 문서 분류 방법
KR20200109417A (ko) * 2019-03-12 2020-09-23 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치
KR102085214B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 특허문서의 단어 세트 획득 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
X. Ni et al., Exploring in the Weblog Space by Detecting Informative and Affective Articles, Proc. on Conf. of WWW 2007, Track: Industrial Practice and Experience (2007.05.08.) 1부.* *

Also Published As

Publication number Publication date
KR20220056077A (ko) 2022-05-04

Similar Documents

Publication Publication Date Title
US11449767B2 (en) Method of building a sorting model, and application method and apparatus based on the model
US20210191925A1 (en) Methods and apparatus for using machine learning to securely and efficiently retrieve and present search results
US11244011B2 (en) Ingestion planning for complex tables
US10095690B2 (en) Automated ontology building
US10643182B2 (en) Resume extraction based on a resume type
US20150033116A1 (en) Systems, Methods, and Media for Generating Structured Documents
US11163936B2 (en) Interactive virtual conversation interface systems and methods
US20180189284A1 (en) System and method for dynamically creating a domain ontology
US8316006B2 (en) Creating an ontology using an online encyclopedia and tag cloud
US9542474B2 (en) Forensic system, forensic method, and forensic program
KR102193228B1 (ko) 딥러닝 기반 비재무정보 평가 장치 및 그 방법
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
US20220414463A1 (en) Automated troubleshooter
US10963686B2 (en) Semantic normalization in document digitization
US11645095B2 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
US11086600B2 (en) Back-end application code stub generation from a front-end application wireframe
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
US8180799B1 (en) Dynamically creating tables to store received data
US20230317261A1 (en) Automated regulatory decision-making for compliance
US11416700B1 (en) Computer-based systems configured for machine learning version control of digital objects and methods of use thereof
US20210165966A1 (en) Systems and methods of updating computer modeled processes based on real time external data
US11170759B2 (en) System and method for discriminating removing boilerplate text in documents comprising structured labelled text elements
KR102217213B1 (ko) 딥러닝 기반 컨텐츠 관리를 위한 서비스 제공 장치 및 방법
CN115862025A (zh) 产品说明书要素提取方法、装置、设备、介质和程序产品
US11423094B2 (en) Document risk analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant