KR102019207B1 - 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법 - Google Patents

텍스트 분석을 위한 데이터 품질 평가 장치 및 방법 Download PDF

Info

Publication number
KR102019207B1
KR102019207B1 KR1020180137826A KR20180137826A KR102019207B1 KR 102019207 B1 KR102019207 B1 KR 102019207B1 KR 1020180137826 A KR1020180137826 A KR 1020180137826A KR 20180137826 A KR20180137826 A KR 20180137826A KR 102019207 B1 KR102019207 B1 KR 102019207B1
Authority
KR
South Korea
Prior art keywords
data
quality
quality evaluation
module
target data
Prior art date
Application number
KR1020180137826A
Other languages
English (en)
Inventor
이새벽
홍초희
김정욱
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020180137826A priority Critical patent/KR102019207B1/ko
Application granted granted Critical
Publication of KR102019207B1 publication Critical patent/KR102019207B1/ko

Links

Images

Classifications

    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F17/2755

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법에 관한 것으로, 본 발명의 일 실시예에 따르는 텍스트 분석을 위한 데이터 품질 평가 장치는, 네트워크 상의 빅데이터 소스에서 수집된 문서들로부터 대상 데이터를 선정하고, 선정된 대상 데이터를 가공하는 전처리 모듈; 상기 전처리 모듈에 의해 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 품질 평가 모듈; 및 표본 데이터인 뉴스 데이터에 대하여 산출된 품질평가 지표를 정규화하여 베이스 모델을 생성한 후 생성된 베이스 모델의 품질평가 지표와, 상기 품질 평가 모듈에 의해 산출된 상기 대상 데이터에 대한 상기 품질평가 지표를 비교하여 상기 대상 데이터의 품질을 진단하는 품질 진단 모듈;을 포함할 수 있다. 본 발명의 일 실시예에 따르면, 한국어 텍스트 기반의 정형 데이터와 비정형 데이터에 대한 품질을 일관성 있게 측정하고 동시에 데이터의 품질을 평가 및 진단할 수 있어 한국어 텍스트 기반의 데이터의 품질 관리 및 개선에 효과가 있다.

Description

텍스트 분석을 위한 데이터 품질 평가 장치 및 방법{APPARATUS AND METHOD FOR ASSESSING DATA QUALITY FOR TEXT ANALYSIS}
본 발명은 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법에 관한 것으로, 더욱 상세하게는 한국어 텍스트 기반의 정형 데이터 및 비정형 데이터를 일관성 있게 평가하기 위한 지표를 설계하고 데이터에 대한 품질을 평가 및 진단하기 위한 데이터 품질 평가 및 진단 시스템에 관한 것이다.
최근 들어 빅데이터에 대한 관심이 매우 증가하고 있다. 빅데이터는 다양한 장치로부터 발생된 데이터를 분석하여 사용자가 원하는 정보나 서비스를 제공할 수 있다. 이러한 빅데이터를 구성하는 데이터들은 학문, 기술 분야뿐만 아니라 일상생활에서도 활발히 생산되고 있으며, 기존보다 더 다양화되고 정보의 양도 증가되고 있다.
이에 따라, 폭발적으로 증가하는 데이터로부터 의미있는 정보와 지식을 추출하기 위한 연구가 활발하게 진행되고 있는 실정이다. 더불어 추출된 의미 있는 정보와 지식을 분석하기 위한 기술에 대해서도 관심도가 매우 급증하고 있다.
한편, 종래 기술에서의 데이터 품질 평가는 주로 여러 데이터 소스를 쿼리하고 유사 데이터베이스를 통합하여 대형 데이터 웨어하우스(data warehouse)를 구축하는 기술 개발에 중점을 두었다. 또한, 데이터 품질 관리는 관계형 데이터베이스 기반의 정형 데이터에 치중되어 있다. 뿐만 아니라, 종래 기술의 데이터 평가 지표는 현재의 다양한 형태와 형식을 갖는 텍스트기반의 비정형 데이터의 특성을 평가하기에는 매우 부족한 한계가 있다.
일반적으로 인터넷에 존재하는 임의의 데이터에서 의미있는 정보를 추출하는 것은 그 데이터에 대한 신뢰성의 문제를 야기할 수 있다. 예를 들어, 구어체와 문어체의 텍스트를 다루는 방법이 다르듯이 이를 구분 하지 않고 일괄적으로 처리하는 것은 텍스트 분석의 성능을 저하 시키는 원인이 된다.
최근에, 비정형 데이터를 분석하기 위해 영어 텍스트의 응집력과 가독성 등 여러 요소를 분석하는 도구가 개발되었으나 각 독립적인 지표로 사용이 되며, 데이터의 전체적인 품지를 나타내는 지표로 통합되지 못했고, 한국어 텍스트에 대한 비정형 데이터를 분석하기 위한 연구 및 도구에 대한 개발은 미흡한 실정이다.
이에 본 발명의 발명가들은 한국어 텍스트 기반의 빅데이터 분석의 효율적 관점에서 정형 데이터와 비정형 데이터에 대한 품질을 일관성 있게 평가하기 위한 지표 설계의 필요성을 인지하고, 고심한 끝에 한국어 텍스트 기반의 정형 데이터 및 비정형 데이터를 일관성 있게 평가하기 위한 지표를 설계하고 지표의 활용성을 높이기 위해 데이터의 품질을 측정하고 동시에 데이터의 품질을 진단할 수 있는 본 발명을 완성하기에 이르렀다.
전술한 문제점을 해결하기 위한 본 발명의 목적은 종래 기술에서 정형 데이터에 대한 품질 평가에 치중되는 문제점을 해결하기 위해, 정형 데이터뿐만 아니라 비정형 데이터에 대하여 일관성 있게 평가하기 위한 지표를 설계하고, 데이터에 대한 품질을 평가 및 진단을 할 수 있는 데이터 품질 평가 장치 및 방법을 제공함에 있다.
또한, 한국어 텍스트 기반의 정형 데이터와 비정형 데이터에 대한 품질을 일관성 있게 평가하기 위한 지표 설계를 제공하고, 지표의 활용성을 높이기 위해 데이터의 품질을 측정하고 동시에 데이터의 품질을 진단할 수 있는 데이터 품질 평가 장치 및 방법을 제공함에 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 장치는, 네트워크 상의 빅데이터 소스에서 수집된 문서들로부터 대상 데이터를 선정하고, 선정된 대상 데이터를 가공하는 전처리 모듈; 상기 전처리 모듈에 의해 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 품질 평가 모듈; 및 표본 데이터인 뉴스 데이터에 대하여 산출된 품질평가 지표를 정규화하여 베이스 모델을 생성한 후 생성된 베이스 모델의 품질평가 지표와, 상기 품질 평가 모듈에 의해 산출된 상기 대상 데이터에 대한 상기 품질평가 지표를 비교하여 상기 대상 데이터의 품질을 진단하는 품질 진단 모듈;을 포함한다.
여기서, 상기 대상 데이터는, 상기 네트워크 상의 빅데이터 소스에서 수집된 문서들에 포함된 한국어 텍스트의 정형 데이터 및 비정형 데이터를 포함하는 것을 특징으로 한다.
여기서, 상기 전처리 모듈은 상기 대상 데이터를 형태소 분석하여 어휘집을 자동 생성하고, 상기 어휘집은 형태소 리스트 사전과 상기 문서들에서 분석된 품사별 형태소 빈도수 사전을 포함하는 것을 특징으로 한다.
여기서, 상기 전처리 모듈은 상기 대상 데이터를 형태소 분석하여 어휘집을 자동 생성하고, 상기 어휘집은 형태소 리스트 사전과 상기 문서들에서 분석된 품사별 형태소 빈도수 사전을 포함하는 것을 특징으로 한다.
여기서, 상기 전처리 모듈은 문장 분리기를 사용하여 상기 문서들에 포함된 각 문서 별로 문장을 분리하고, 분리된 문장을 상기 품질 평가 모듈에 전달하는 것을 특징으로 한다.
여기서, 상기 품질 평가 모듈은, 상기 대상 데이터에 대한 문서오류 지표를 산출하는 문서오류 검사부; 상기 대상 데이터에 대한 데이터 일관성 지표를 산출하는 응집성 검사부; 상기 대상 데이터에 대한 데이터 난이도 지표를 산출하는 가독성 검사부; 및 상기 대상 데이터에 대한 분류 적합성 지표를 산출하는 분류적합성 검사부;를 포함하는 것을 특징으로 한다.
여기서, 상기 문법오류 검사부는 다음의 수식을 이용하여 상기 문법오류 지표를 산출하는 것을 특징으로 한다.
[수식 1]
Figure 112018111752662-pat00001
(여기서,
Figure 112018111752662-pat00002
은 문법오류 지표를 의미하고,
Figure 112018111752662-pat00003
은 전체 단어의 수를 의미하고,
Figure 112018111752662-pat00004
는 문서에서 출현한 i번째 단어가 오류일 경우에 1로 반환하고, 문서에서 출현한 i번째 단어가 오류가 아닐 경우에 0으로 반환된다.)
여기서, 상기 응집성 검사부는 다음의 수식들을 이용하여 데이터 일관성 지표를 산출하는 것을 특징으로 한다.
[수식 2]
Figure 112018111752662-pat00005
[수식 3]
Figure 112018111752662-pat00006
[수식 4]
Figure 112018111752662-pat00007
(여기서,
Figure 112018111752662-pat00008
은 문서내의 전체 문장의 수를 의미하고,
Figure 112018111752662-pat00009
Figure 112018111752662-pat00010
번째 문서와
Figure 112018111752662-pat00011
번째 문장의 상호 참조 관계의 상태를 의미하며,
Figure 112018111752662-pat00012
은 데이터의 모든 가능한 문장의 쌍에 대하여
Figure 112018111752662-pat00013
번째 문서와
Figure 112018111752662-pat00014
를 제외한
Figure 112018111752662-pat00015
번째 문서의 상호 참조 관계의 상태를 의미하고,
Figure 112018111752662-pat00016
는 데이터에서 단어가 출현한 두 문장 사이의 거리(
Figure 112018111752662-pat00017
=
Figure 112018111752662-pat00018
-
Figure 112018111752662-pat00019
)를 의미한다.)
여기서, 상기 분류적합성 검사부는 상기 대상 데이터에 카테고리정보가 부가되어 있는 경우에 지도 학습 알고리즘과 비지도 학습 알고리즘을 이용하여 분류 적합성 지표를 산출하는 것을 특징으로 한다.
여기서, 상기 품질 진단 모듈은, 상기 표본 데이터인 상기 뉴스 데이터에 대하여 상기 품질 평가 모듈에 의해 산출된 품질평가 지표를 0과 1사이로 정규화하고, 상기 품질 평가 모듈에 의해 산출된 상기 대상 데이터에 대한 상기 품질평가 지표를 0과 1사이로 정규화하는 것을 특징으로 한다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 방법은, 네트워크 상의 빅데이터 소스에서 수집된 문서들로부터 대상 데이터를 선정하고, 선정된 대상 데이터를 가공하는 단계; 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 단계; 및 표본 데이터인 뉴스 데이터에 대하여 산출된 품질평가 지표를 정규화하여 베이스 모델을 생성한 후 생성된 베이스 모델의 품질평가 지표와, 상기 산출된 대상 데이터에 대한 품질평가 지표를 비교하여 상기 대상 데이터의 품질을 진단하는 단계;를 포함한다.
여기서, 상기 대상 데이터는, 상기 네트워크 상의 빅데이터 소스에서 수집된 문서들에 포함된 한국어 텍스트의 정형 데이터 및 비정형 데이터를 포함하는 것을 특징으로 한다.
여기서, 상기 선정된 대상 데이터를 가공하는 단계는, 상기 대상 데이터를 형태소 분석하여 어휘집을 자동 생성하고, 문장 분리기를 사용하여 상기 문서들에 포함된 각 문서 별로 문장을 분리하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 단계는, 상기 대상 데이터에 대한 문법오류 지표를 산출하는 단계; 상기 대상 데이터에 대한 데이터 일관성 지표를 산출하는 단계; 상기 대상 데이터에 대한 데이터 난이도 지표를 산출하는 단계; 및 상기 대상 데이터에 대한 분류 적합성 지표를 산출하는 단계;를 포함한다.
여기서, 상기 대상 데이터의 품질을 진단하는 단계는, 상기 표본 데이터인 상기 뉴스 데이터에 대하여 상기 품질 평가 모듈에 의해 산출된 품질평가 지표를 0과 1사이로 정규화하여 베이스 모델을 생성하는 단계; 상기 산출된 대상 데이터에 대한 품질평가 지표를 0과 1사이로 정규화하는 단계; 및 상기 표본 데이터인 상기 뉴스 데이터에 대한 정규화된 품질평가 지표와 상기 대상 데이터에 대한 정규화된 품질평가 지표를 비교하는 단계;를 포함하는 것을 특징으로 한다.
기타 실시예들의 구체적인 사항들은 구체적인 내용 및 도면들에 포함되어 있다.
개시된 기술의 실시 예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명에 따르면 기존 정형 데이터 위주의 데이터 품질평가 지표를 비정형 데이터에도 적용 가능하도록 설계하여 데이터의 품질 관리를 일관성 있게 평가할 수 있다.
또한, 데이터의 품질을 평가할 뿐만 아니라 데이터의 품질을 진단할 수 있어서 데이터의 품질 개선에 대한 방안과 관리의 효과가 있다.
뿐만 아니라, 한국어 텍스트 기반의 정형 데이터와 비정형 데이터에 대한 품질을 일관성 있게 측정하고 동시에 데이터의 품질을 진단할 수 있는 효과가 있어 한국어 텍스트 기반의 비정형 데이터의 품질 개선에 대한 방안과 관리의 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 품질 평가 및 진단 시스템의 구조를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 장치를 설명하기 위한 구성도이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 방법을 순차적으로 나타낸 순서도이다.
도 4는 본 발명의 일 실시예에 따른 응집성 검사에 의한 전역 응집성 값의 예시도이다.
도 5는 본 발명의 정규화 그래프의 예시이다.
도 6은 데이터 품질평가 지표값을 시각화한 예시도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 데이터 품질 평가 및 진단 시스템의 구조를 설명하기 위한 도면이다. 도 1을 참조하면, 본 발명의 데이터 품질 평가 및 진단 시스템(100)은 네트워크 상의 빅데이터 소스에서 비정형/정형 데이터(1)와 뉴스 데이터(2)를 포함하는 문서들을 수집한다. 여기서, 수집된 비정형/정형 데이터(1)와 뉴스 데이터(2)는 저장 데이터베이스(미도시)에 저장될 수 있다. 여기서, 비정형/정형 데이터(1)는 한국어 기반의 후술하는 대상 데이터를 의미한다. 또한, 뉴스 데이터(2)는 데이터 품질 진단을 위한 표본 데이터로서 수집되어 품질평가 된다. 뉴스 데이터(2)는 비교적 다른 데이터에 비해 정형화되어 있으며 문법 오류가 적고, 또한 각 기사에 대하여 다양한 카테고리가 부착되어 있기 때문에 데이터 분석의 기준 데이터로서 사용될 수 있다.
데이터 품질 평가 및 진단 시스템(100)의 전처리 모듈(10)은 수집된 문서들로부터 대상 데이터를 선정한다. 여기서, 대상 데이터는, 네트워크 상의 빅데이터 소스에서 수집된 문서들에 포함된 한국어 텍스트의 정형 데이터, 비정형 데이터를 포함한다. 그리고, 전처리 모듈(10)은 선정된 대상 데이터를 품질 평가 모듈(20)이 품질 평가 검사를 수행하기 전에 가공하는 작업을 수행한다. 또한, 전처리 모듈(10)은 데이터 품질 진단을 위한 표본 데이터로서 수집된 뉴스 데이터(2)를 가공하는 작업도 수행할 수 있다.
데이터 품질 평가 및 진단 시스템(100)의 품질 평가 모듈(20)은 전처리 모듈(10)에 의해 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 품질 평가 검사를 수행한다. 여기서, 미리 정의된 복수 개의 품질평가 지표는 문법오류 지표, 데이터 일관성 지표, 데이터 난이도 지표 및 분류 적합성 지표를 포함한다. 또한, 상기 품질 평가 검사는 복수 개의 품질평가 지표에 포함되는 각 지표를 산출하기 위한 문법오류 검사, 응집성 검사, 가독성 검사 및 분류적합성 검사를 포함한다. 마찬가지로, 데이터 품질 평가 및 진단 시스템(100)의 품질 평가 모듈(20)은 뉴스 데이터(2)에 대해서도 품질 평가 검사를 수행하여 품질평가 지표를 산출할 수도 있다.
데이터 품질 평가 및 진단 시스템(100)의 품질 진단 모듈(도 2의 30)은 표본 데이터인 뉴스 데이터(2)에 대하여 산출된 품질평가 지표를 정규화하여 베이스 모델(31)을 생성한 후 생성된 베이스 모델(31)의 품질평가 지표와, 품질 평가 모듈(20)에 의해 산출된 대상 데이터에 대한 품질평가 지표를 비교하여 대상 데이터의 품질을 진단함으로써 데이터 진단 결과(32)를 생성하는 역할을 수행한다.
이하 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 장치 및 평가 방법에 대해 도 2 내지 도 6을 참조하여 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 장치를 설명하기 위한 구성도이다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 장치는 전처리 모듈(10), 품질 평가 모듈(20), 및 품질 진단 모듈(30)을 포함한다.
우선, 전처리 모듈(10)은 품질 평가 모듈(20)에서 품질 평가 검사를 수행하기 전에 데이터를 가공하는 작업을 수행한다. 여기서, 데이터는 한국어 기반의 비정형/정형 데이터로서, 품질 평가가 수행될 대상 데이터를 의미한다. 전처리 모듈(10)은 대상 데이터를 형태소 분석을 하여 어휘집을 자동으로 생성한다. 이때, 생성된 어휘집은 품질 평가 모듈(20)에서 사용할 수 있는 형태소 리스트 사전과 전체 문서에서 분석된 품사별 형태소 빈도수를 가진다. 여기서, 형태소 리스트 사전은 품질 평가 모듈(20)에서 수행되는 응집성(cohesion) 검사에서 단어 비교 시 사용되며, 품질 평가 모듈(20)에서 수행되는 분류 적합성 검사에서 자질(Feature)로 사용될 수 있다. 또한, 품사별 형태소 빈도수 사전은 모든 품사나 미 분석 단어를 관리 할 수 있다. 그리고 전처리 모듈(10)은 문장 분리기를 사용하여 각 문서 별로 문장을 분리한다. 이때, 분리된 문장은 품질 평가 모듈(20)에서 수행되는 문법오류 검사, 응집성(cohesion) 검사의 대상이 된다.
품질 평가 모듈(20)은 상술한 전처리 모듈(10)에 의해 가공된 대상 데이터를 수신하여 수신한 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 품질 평가 검사를 수행할 수 있다. 이를 위해, 품질 평가 모듈(20)은 도 2에 도시된 바와 같이, 문법오류 검사부(22), 응집성 검사부(24), 가독성 검사부(26), 및 분류적합성 검사부(28)를 포함한다.
먼저, 문법오류 검사부(22)는 전처리 모듈(10)로부터 가공된 대상 데이터에 대한 문법오류 지표를 산출하기 위해 문법오류 검사를 수행한다. 이때, 문법오류 검사부(22)에 의해 산출된 문법오류 지표는 데이터의 구조나 의미 분석에 있어서 데이터의 품질 평가의 중요한 지표가 된다. 여기서, 문법오류 지표는 대상 데이터를 포함하고 있는 문서의 문법 오류율(error rate)의 평균값으로 정의된다.
문법오류 검사부(22)는 대상 데이터에 대한 문법오류 지표를 산출하기 위해 아래의 수식을 이용한다.
[수식 1]
Figure 112018111752662-pat00020
여기서,
Figure 112018111752662-pat00021
은 문법오류 지표를 의미하고,
Figure 112018111752662-pat00022
은 전체 단어의 수를 의미하고,
Figure 112018111752662-pat00023
는 문서에서 출현한 i번째 단어가 문법오류일 경우에 1로 반환하고, 문서에서 출현한 i번째 단어가 문법오류가 아닐 경우에 0으로 반환된다. 이렇게 산출된 문법오류 지표는 각 문서에 포함된 오류율의 평균값으로 0과 1사이의 값을 갖는다. 그러나 문법오류 지표가 1의 값을 가지는 경우는 문법 오류가 있다는 것을 의미하기 때문에 후술하는 품질 진단 모듈(30)은 표본 데이터인 뉴스데이터와의 데이터 품질 비교를 위해서 문법오류 검사부(22)에 의해 산출된 대상 데이터에 대한 문법오류 지표를 정규화하는 작업을 수행한다.
응집성 검사부(24)는 데이터가 하나의 일관된 주제를 다루고 있는지를 평가하는 척도인 데이터 일관성에 관한 지표를 산출한다. 즉, 응집성 검사부(24)는 전처리 모듈(10)로부터 가공된 대상 데이터에 대한 데이터 일관성 지표를 산출할 수 있다. 구체적으로 데이터 일관성은 응집성(cohesion)을 형성한다는 의미로 볼 수 있어 데이터 일관성 지표를 산출하는 것은 인접한 문장들이 어떻게 의미적으로 서로 관련되어 있는지를 파악하는 것이라 볼 수 있다.
또한, 데이터 응집성(cohesion)은 두 가지 측정 기준이 있다. 하나는 접한 문장들 간의 관련성에 대한 국소응집성(local coherence cohesion)이며, 다른 하나는 문서 내에 존재하는 모든 문장을 한 주제에 관련 지어 요약적인 정보를 지니고 있는 전역응집성(global coherence cohesion)으로, 응집성 검사부(24)는 아래의 수식들을 이용하여 데이터 일관성 지표를 산출할 수 있다.
[수식 2]
Figure 112018111752662-pat00024
[수식 3]
Figure 112018111752662-pat00025
[수식 4]
Figure 112018111752662-pat00026
여기서, [수식 2]에서
Figure 112018111752662-pat00027
은 문서내의 전체 문장의 수를 의미하고,
Figure 112018111752662-pat00028
Figure 112018111752662-pat00029
번째 문서와
Figure 112018111752662-pat00030
번째 문장의 상호 참조 관계의 상태를 의미한다. 또한, [수식 3]에서
Figure 112018111752662-pat00031
은 데이터의 모든 가능한 문장의 쌍에 대하여
Figure 112018111752662-pat00032
번째 문서와
Figure 112018111752662-pat00033
를 제외한
Figure 112018111752662-pat00034
번째 문서의 상호 참조 관계의 상태를 의미하고, [수식 4]에서
Figure 112018111752662-pat00035
는 데이터에서 단어가 출현한 두 문장 사이의 거리(
Figure 112018111752662-pat00036
=
Figure 112018111752662-pat00037
-
Figure 112018111752662-pat00038
)를 의미한다.
본 발명의 일 실시예에 따르면, 교착어인 한국어 특성을 고려하여 문장 간의 상호 참조 관계 요소로 형태소 단위의 명사, 형용사, 동사, 어근과 같이 의미를 가지는 품사로 요소를 한정하였다. 즉, 두 문장에 적어도 하나의 상호 참조 관계가 있는 경우
Figure 112018111752662-pat00039
의 값은 1이고 n 개의 공통 참조 응집성은
Figure 112018111752662-pat00040
로 지정된다.
전역응집성의 경우는, 단어의 출현 위치에 상관없이 문서 전체의 문장을 비교하기 때문에 문장 혹은 문단 간의 국소적인 응집성을 판단하는데 한계가 있다. 따라서 응집성 검사부(24)는 두 단어의 위치에 따른 거리가중치를 사용하여
Figure 112018111752662-pat00041
을 보정함으로써 상술한 전역응집성의 한계를 보완할 수 있다. 즉, 거리가중치는 각 단어가 출현한 두 문장 사이의 거리(
Figure 112018111752662-pat00042
)의 역수를 통해 계산되며, [수식 3]에서 텍스트에서 단어가 출현한 두 문장의 사이의 거리가
Figure 112018111752662-pat00043
일 때,
Figure 112018111752662-pat00044
로 가중치가 부여될 수 있다. 상술한 바와 같이, 응집성 검사부(24)는 국소응집성 검사, 전역응집성 검사, 거리가중치가 반영된 응집성 검사를 포함하는 총 세가지 검사에 대한 결과값을 산출할 수 있으며, 이를 데이터 일관성 지표로 산출할 수 있다.
또한, 응집성 검사부(24)는 문서 도메인의 특성에 따른 응집성을 구하기 위해 문장 간의 상호 참조 관계 요소로 유사 단어(형태소)들을 고려할 수 있다. 이를 위하여 Word2vec 알고리즘을 사용한다. Word2vec 알고리즘은 비지도 학습 알고리즘으로 단어의 의미를 벡터 형태로 표현하는 기법으로, 본 발명의 일 실시예에 따르면 응집성 검사부(24)는 word2vec을 사용하여 해당 도메인의 데이터를 학습 시킨 뒤, 각 단어 벡터들 간의 유사도를 검사할 수 있다. 예컨대,
Figure 112018111752662-pat00045
번째 문장에서 특정 임계치 이상의 유사도를 가지는 단어들의 리스트가
Figure 112018111752662-pat00046
번째 문장에 있다면
Figure 112018111752662-pat00047
의 값은 1로 지정될 수 있다. 또한, 도 4에 도시된 바와 같이, 응집성 검사부(24)는 모든 문장에 대하여 상호 참조 관계를 찾아 전역응집성 값을 산출할 수 있다.
즉, 응집성 검사부(24)는 국소응집성 검사, 전역응집성 검사, 거리가중치가 반영된 응집성 검사를 포함하는 총 세가지 검사 및 Word2vec 알고리즘을 통한 응집성 검사를 통해 대상 데이터가 하나의 일관된 주제를 다루고 있는지를 평가할 수 있다.
가독성 검사부(26)는 데이터의 난이도를 나타내는 통계적 척도인 가독성에 대한 지표인, 데이터 난이도 지표를 산출한다. 이를 위해, 가독성 검사부(26)는 데이터의 난이도를 측정하는 가독성 검사를 수행한다. 여기서, 가독성은 일반적으로 문단, 문장의 길이와 관련도가 높으므로, 본 발명에서 가독성 검사부(26)는 문단 길이와 문장 길이로 구성된 회귀 모형 공식을 이용하여 데이터 난이도 지표를 산출할 수 있다. 구체적으로, 가독성 검사부(26)는 아래의 수식을 이용하여 데이터 난이도 지표를 산출할 수 있다.
[수식 5]
Figure 112018111752662-pat00048
여기서,
Figure 112018111752662-pat00049
는 회귀 모형 공식의 값을 의미하고,
Figure 112018111752662-pat00050
은 평균 문단 길이를 의미하고,
Figure 112018111752662-pat00051
는 평균 문장 길이를 의미한다. 상기 [수식 5]는 "텍스트 수준과 가독성 : 한국어 학습 교재를 이용한 검증과 응용(홍정하, 최재웅, & 유석훈. (2011). 텍스트 수준과 가독성: 한국어 학습 교재를 이용한 검증과 응용. 언어정보, 12, 111-148.)" 논문에 개시된 수식을 이용하였다. 이를 통해, 가독성 검사부(26)에 의해 산출된 회귀 모형 공식의 값(
Figure 112018111752662-pat00052
)이 크면 텍스트의 데이터 난이도가 높은 것으로 평가할 수 있다.
분류적합성 검사부(28)는 데이터 내의 문서와 카테고리 사이의 적합성을 학습된 분류 모델의 성능을 평가하여 분류 적합성을 판별하는 검사를 수행한다. 일반적으로, 데이터 문서에 부착된 카테고리는 문서의 주제를 표현하는 정보를 포함하고 있다. 이러한 정보는 데이터 관리 시에 중요한 기준이 된다. 따라서 문서와 카테고리 사이의 적합성 판별은 데이터 품질 평가의 요소가 될 수 있다.
또한, 분류적합성 검사부(28)는 대상 데이터에 카테고리 정보가 부가되어 있는 경우에 지도 학습 알고리즘과 비지도 학습 알고리즘을 이용하여 분류 적합성 지표를 산출할 수 있다. 분류적합성 검사부(28)는 분류 적합성 지표를 산출하기 위해 지도 학습 알고리즘을 이용하는 경우, 데이터의 일부를 학습하여 모델을 생성하고, 나머지를 분류 모델의 실험 데이터로서 사용하여 분류 적합성 지표를 산출할 수 있다. 반대로, 분류적합성 검사부(28)는 분류 적합성 지표를 산출하기 위해 비지도 학습 알고리즘을 이용하는 경우, 클러스터링(clustering) 모델을 생성하고 클러스터링의 일치 정도를 정량화하는 Adjusted Rand Index(ARI)를 사용하여 분류 적합성 지표를 산출할 수 있다. 여기서, Adjusted Rand Index(ARI) 값(Score)은 -1.0 ~ 1.0 사이 값을 가지며 1에 가까울수록 정답 카테고리와 일치도가 높다는 것을 의미한다.
품질 진단 모듈(30)은 품질 평가 모듈(20)에 의해 수행된 복수 개의 품질 평가 검사에 따라 산출된 각각의 수치화된 품질평가 지표를 획득하고, 획득된 이 수치를 토대로 대상 데이터에 대한 품질 진단을 수행한다. 그런데, 상기 품질 평가 모듈(20)에 의해 산출된 복수개의 품질평가 지표는 품질을 측정하는 기준이 없고, 의미가 다르기 때문에 수치 자체로는 데이터의 품질이 좋은지 나쁜지를 판단 할 수 없다. 이러한 문제를 해결하기 위해, 본 발명의 품질 진단 모듈(30)은 표본 데이터를 사용하여 품질평가 지표의 수치를 정규화하고 베이스 모델을 생성하며, 생성된 베이스 모델과 대상 데이터의 품질평가 지표를 비교하여 품질을 자동으로 진단한다. 여기서, 품질 진단 모듈(30)은 비교적 정형화되어 있고, 오류가 적으며, 각 기사에 대하여 다양한 카테고리가 부착되어 있어 데이터 분석의 기준 데이터로 쓰이며 평판 분석, 분류 및 군집화 등 응용 시스템에 사용되고 있는 뉴스 데이터를 표본 데이터로서 사용한다.
또한, 품질 진단 모듈(30)은 품질 평가 모듈(20)로부터 대상 데이터에 대한 수치화된 복수개의 품질평가 지표인 문법오류 지표(문법 오류율), 데이터 일관성(응집성) 지표, 데이터 난이도(가독성) 지표, 및 분류 적합성 지표를 전달받고 이를 정규화하는 작업을 수행한다. 구체적으로 품질 진단 모듈(30)의 품질평가 지표에 대한 정규화 작업은 다음과 같은 방식으로 이뤄진다. 우선, 품질 평가 모듈(20)에 의해 산출된 데이터의 문법오류 지표(문법 오류율)은 각 문서에 포함된 오류율의 평균 값으로 0 ~ 1의 값을 갖는다. 그러나 문법오류 지표가 1의 값을 갖는 경우 오류가 있다는 것을 의미하기 때문에 품질 진단 모듈(30)은 아래와 같은 수식을 사용하여 정규화 한다.
[수식 6]
Figure 112018111752662-pat00053
여기서, e는 문법 오류율이며, 수식에 따라 최종 문법 오류율은 ER이 된다.
또한, 품질 평가 모듈(20)에 의해 산출된 데이터 일관성(응집성) 지표는 국소응집성, 전역응집성, 거리가중치가 반영된 응집성으로 총 세 가지의 수치를 얻는다. 품질 진단 모듈(30)은 국소 응집성과, 전역 응집성은 0 ~ 1 사이의 값을 갖으며 값이 1에 가까울수록 응집도가 높은 것으로 판별한다. 또한 품질 진단 모듈(30)은 거리가중치 응집성의 수치가 1 이하의 값을 갖기 때문에 국소 응집성과, 전역 응집성과 같은 방식으로 정규화 한다.
또한, 품질 진단 모듈(30)은 데이터 난이도(가독성) 지표 값이 클수록 글의 난이도가 높은 것이고, 낮을수록 난이도가 쉬운 것으로 데이터를 진딘할 수 있다. 따라서 품질 진단 모듈(30)은 데이터 난이도 지표 값이 크다면 가독성은 낮아진다고 진단할 수 있다. 또한 품질 진단 모듈(30)은 데이터 난이도 지표를 0~1 사이의 값으로 정규화하기 위하여 아래와 같은 최대-최소 스케일링 수식을 적용한다.
[수식 7]
Figure 112018111752662-pat00054
여기서,
Figure 112018111752662-pat00055
은 최소-최대 스케일링을 나타내고,
Figure 112018111752662-pat00056
Figure 112018111752662-pat00057
의 최소값을 의미하고,
Figure 112018111752662-pat00058
Figure 112018111752662-pat00059
의 최대값을 의미한다.
또한, 품질 진단 모듈(30)은 품질 평가 모듈(20)에서 지도 학습 알고리즘과 비지도 학습 알고리즘을 이용하여 각각 산출된 분류 적합성 지표를 통해 분류 적합성 지표에 대한 정규화를 수행한다. 품질 평가 모듈(20)에 의해 지도 학습 알고리즘을 이용하여 산출된 분류 적합성 지표의 경우에, 품질 진단 모듈(30)은 표본 데이터인 뉴스 데이터를 통해 얻어진 학습 모델을 사용하여 대상 데이터의 분류 적합성 지표를 0~1 사이의 값으로 정규화한다. 이때, 아래와 같은 수식을 이용하여 정규화할 수 있다.
[수식 8]
Figure 112018111752662-pat00060
여기서,
Figure 112018111752662-pat00061
는 분류 모델을 사용한 대상 데이터의 분류 적합성 지표를 의미한다.
또한, 품질 평가 모듈(20)에 의해 비지도 학습 알고리즘을 이용하여 산출된 분류 적합성 지표는, 클러스터링 알고리즘을 통한 데이터의 군집화 일치도를 Adjusted Rand Index(ARI) 값(Score)으로 표현될 수 있다. 품질 진단 모듈(30)은 아래와 같은 수식을 이용하여 ARI 값(Score)을 정규화한다.
[수식 9]
Figure 112018111752662-pat00062
여기서,
Figure 112018111752662-pat00063
는 진단 대상 데이터의 군집화 일치도를 나타내며, 수식에 의해 ARI 값(Score)은 0~1 사이의 정규화된 값을 갖게 된다.
상술한 바와 같이, 품질 진단 모듈(30)은 품질 평가 모듈(20)에 의해 산출된 복수의 품질평가 지표를 정규화할 수 있다. 이와 같이, 크기가 다양하고 기준이 다른 각 지표를 공통된 범위로 정규화시키고 표본 데이터에 대한 베이스 모델을 설정함으로써 품질평가 지표 각각에 대하여 데이터 사이의 값의 크기를 비교할 수 있게 된다. 따라서 본 발명에 따르면, 새로운 진단 대상 데이터가 입력되면 품질 평가 모듈(20)은 품질평가 지표를 산출하고 품질 진단 모듈(30)은 품질 평가 모듈(20)에 의해 산출된 품질평가 지표 정규화를 통해 데이터의 품질을 진단하는 것이 가능하게 된다.
또한, 품질 진단 모듈(30)은 도 5에 도시된 바와 같은 정규화 그래프를 생성하여 시스템 관리자의 디스플레이로 출력할 수 있으며, 도 6에 도시된 바와 같이 데이터 품질평가 지표값을 시각화하여 시스템 관리자의 디스플레이로 출력할 수 있다.
이하 도 3, 도 5 및 도 6을 참조하여 본 발명의 일 실시예에 따른 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 방법을 설명한다. 도 3은 본 발명의 일 실시예에 따른 텍스트 분석을 위한 데이터 품질 평가 방법을 순차적으로 나타낸 순서도이다. 도 5는 본 발명의 정규화 그래프의 예시이다. 도 6은 데이터 품질평가 지표값을 시각화한 예시도이다.
먼저, 전처리 모듈(10)은 한국어 기반의 비정형/정형 데이터로서, 품질 평가가 수행될 대상 데이터를 수집 및 선정하고 품질 평가 모듈(20)에서 품질 평가 검사를 수행하기 전에 데이터를 가공하는 작업을 수행한다(S10).
단계 S10에서 전처리 모듈(10)은 대상 데이터를 형태소 분석을 하여 어휘집을 자동으로 생성한다. 이때, 생성된 어휘집은 품질 평가 모듈(20)에서 사용할 수 있는 형태소 리스트 사전과 전체 문서에서 분석된 품사별 형태소 빈도수를 가진다. 여기서, 형태소 리스트 사전은 품질 평가 모듈(20)에서 수행되는 응집성(cohesion) 검사에서 단어 비교 시 사용되며, 품질 평가 모듈(20)에서 수행되는 분류 적합성 검사에서 자질(Feature)로 사용될 수 있다. 또한, 품사별 형태소 빈도수 사전은 모든 품사나 미 분석 단어를 관리 할 수 있다. 그리고 전처리 모듈(10)은 문장 분리기를 사용하여 각 문서 별로 문장을 분리한다. 이때, 분리된 문장은 품질 평가 모듈(20)에서 수행되는 문법오류 검사, 응집성(cohesion) 검사의 대상이 된다.
이어서, 품질 평가 모듈(20)은 전처리 모듈(10)에 의해 가공된 대상 데이터를 수신하여 수신한 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 품질 평가 검사를 수행한다(S20). 단계 S20에서 품질 평가 모듈(20)은 대상 데이터에 대한 수치화된 복수개의 품질평가 지표인 문법오류 지표(문법 오류율), 데이터 일관성(응집성) 지표, 데이터 난이도(가독성) 지표, 및 분류 적합성 지표를 산출할 수 있다. 이를 위해, 품질 평가 모듈(20)은 도 2에 도시된 바와 같이, 문법오류 검사부(22), 응집성 검사부(24), 가독성 검사부(26), 및 분류적합성 검사부(28)를 포함할 수 있다. 문법오류 검사부(22), 응집성 검사부(24), 가독성 검사부(26), 및 분류적합성 검사부(28)는 각각 대상 데이터에 대하여 문법오류 검사, 응집성 검사, 가독성 검사, 분류적합성 검사를 수행한다. 품질 평가 모듈(20)에 포함된 복수의 검사부의 각각의 역할에 대해서는 도 2를 참조하여 앞서 자세히 설명하였으므로 이에 대한 설명은 생략하고자 한다.
이어서, 품질 진단 모듈(30)은 표본 데이터인 뉴스 데이터를 사용하여 품질평가 지표의 수치를 정규화하여 베이스 모델을 생성하며(S30), 생성된 베이스 모델의 품질평가 지표와 대상 데이터에 대한 품질평가 지표를 비교하여(S40), 비교값을 토대로 대상 데이터에 대한 품질을 자동으로 진단한다(S50).
단계 S30에서, 품질 진단 모듈(30)은 품질 평가 모듈(20)에 의해 단계 S20에서 산출된 대상 데이터에 대한 복수의 품질평가 지표 각각에 대하여 정규화하는 작업을 수행하고, 도 5에 도시된 바와 같이 정규화 그래프를 생성할 수 있다. 도 5를 참조하면, B는 정규화되기 전의 대상 데이터에 대한 지표값의 그래프의 예시이고, S는 표본 데이터인 뉴스 데이터의 분포를 확인한 후에 상위 10%의 값을 0과 1사이의 분포로 정규화하여 스케일링한 그래프의 예시이며, T는 대상 데이터에 대한 지표값의 그래프를 정규화한 그래프의 예시이다.
도 5에 도시된 바처럼, 품질 진단 모듈(30)은 크기가 다양하고 기준이 다른 각 지표를 공통된 범위로 정규화시키고 표본 데이터인 뉴스 데이터에 대한 베이스 모델을 설정함으로써 품질평가 지표 각각에 대하여 데이터 사이의 값의 크기를 비교하고 비교을 토대로 데이터의 품질을 진단하는 것이 가능하다.
또한, 단계 S40에서 품질 진단 모듈(30)은 후술하는 방식으로 데이터 품질을 진단할 수 있다. 후술하는 내용은 본 발명의 데이터 품질 진단 과정의 한 일례를 설명하는 것으로, 실제 데이터를 이용하여 품질 평가 지표 적용을 통한 실험 내용이다. 우선, 데이터 진단 결과를 위하여 비슷한 주제를 갖는 두 가지 종류의 데이터를 활용한다.
표 1에 도시된 바와 같이, 첫번째는 표본 데이터인 뉴스 데이터이며, 다른 하나는 웹 데이터를 수집, 정제한 데이터이다. 예컨대, 데이터1은 10개의 하위 카테고리를 가지고 있으며, 데이터 2는 11개의 하위 카테고리를 가지고 있다. 카테고리 정보는 분류 적합성 평가 시 사용할 수 있다.
데이터 종류 데이터 타입 데이터 특징
데이터 1 뉴스 데이터 비정형 데이터 중 비교적 구조화되고, 오류가 적은 데이터
데이터 2 웹 데이터 다양한 사용자에 의해 작성된 형식이 없는 데이터
본 발명의 일 실시예에 따르면, 시스템 사용자는 이 두 데이터를 각 10,000개의 문서에서 선정하고 선정된 데이터에 대하여 각각 복수의 품질평가 지표를 적용 및 산출하여 그 결과를 확인할 수 있다.
다음 [표 2] 내지 [표 4]는 대상 데이터에 대하여 복수의 품질평가 지표를 적용하여 산출된 결과이다. 여기서, 산출된 품질평가 지표는 정규화를 통해 0~1 값을 가지며, 품질평가 지표값이 1에 가까울수록 데이터 품질이 좋은 것을 의미한다. 표 2는 문법 오류율과 분류 적합성에 대한 정규화된 품질평가 지표값을 나타내고, [표 2]를 참조하면 데이터 1(뉴스 데이터)이 데이터 2(웹 데이터)에 비하여 상대적으로 높은 지표 값을 나타내는 것을 확인할 수 있다.
데이터 종류 문법오류율 지도분류적합성 비지도분류적합성
데이터 1 0.97 0.91 0.63
데이터 2 0.80 0.77 0.49
표 3은 국소응집성, 전역응집성, 거리가중치 응집성에 대한 정규화된 품질평가 지표값을 나타내고, 표 3을 참조하면 데이터 1(뉴스 데이터)의 응집성 평가 지표값이 데이터 2(웹 데이터)의 응집성 평가 지표값보다 상대적으로 높은 지표값을 나타내는 것을 확인할 수 있다.
데이터 종류 국소 응집성 전역응집성 거리가중치응집성
데이터 1 0.19 0.13 0.03
데이터 2 0.17 0.10 0.02
표 4는 가독성에 대한 정규화된 품질평가 지표값을 나타내고, 표 4를 참조하면 데이터 1(뉴스 데이터)이 데이터 2(웹 데이터)보다 가독성 지표 값이 0.03 정도 낮으나 표준 편차의 값은 데이터 1(뉴스 데이터)이 데이터 2(웹 데이터)보다 더 작은 값을 가지는 것을 확인할 수 있다.
데이터 종류 가독성 표준편차
데이터 1 0.90 1.07
데이터 2 0.93 2.57
이를 통해, 품질 진단 모듈(30)은 데이터 2(웹 데이터)가 웹 문서의 특성상 문서 사이의 가독성 편차가 큰 것으로 판단할 수 있다. 이처럼, 복수의 품질평가 지표의 적용을 통하여 데이터의 품질 평가에 대한 지표값을 비교하고 각 지표에 대한 데이터의 품질을 진단할 수 있다.
또한, 단계 S50에서 품질 진단 모듈(30)은 데이터 1(뉴스 데이터)과 데이터 2(웹 데이터)의 품질평가 지표값을 시각화하여 도 6에 도시된 바와 같이, 시스템 관리자의 디스플레이로 출력할 수 있다. 도 6에 도시된 바와 같이, 각 데이터에 대한 복수의 품질지표의 값이 정규화되어 시각화되기 때문에 데이터 사이의 품질지표의 비교가 가능하며, 새로운 진단 대상 데이터가 입력되어도 상술한 방식으로 데이터의 품질을 진단할 수 있다. 뿐만 아니라, 품질평가 지표값의 분포에 따라 데이터 품질을 설정하여 최종적으로 데이터의 품질을 진단할 수 있다. 또한 품질 진단 모듈(30)은 품질평가 지표값의 분포에 따라 데이터 품질에 대한 진단 레벨(level)을 설정하여 최종적으로 데이터의 품질을 진단할 수 있다. 표 5는 정규화된 품질평가 지표값을 활용한 품질 진단을 위한 품질진단 레벨(level)에 대한 예시이다.
지표 상위 레벨 설명
> 상위 10% 5 level 데이터의 문법 오류가 없음. 분류된 카테고리가 적합하고, 문서의 일관성이 높음. 분석에 최적화 된 데이터임
> 상위 20% 4 level 비교적 품질이 좋은 데이터로, 일반적인 텍스트 분석에 사용할 수 있음
> 상위 30% 3 level 보통 수준의 품질로, 분석을 위해서 문법 오류 교정 및 일반적인 데이터 정제과정을 거처야 함
> 상위 40% 2 level 데이터의 일관성 및 가독성이 떨어지며, 이를 분석하기 위해 고도화된 전처리 및 데이터 정제가 필요함
> 나머지 1 level 다수의 문법 및 내용, 범주에서 오류를 포함할 가능성이 있고, 분석을 위해서 많은 자원이 필요함
상술한 바와 같이, 각 품질지표에 따라 품질에 대한 레벨(level)을 설정한다면, 비정형 및 정형 데이터에 대한 전반적인 품질 레벨(level)을 예측하여 데이터를 진단 할 수 있다. 실제 위의 실험 데이터를 사용하여 데이터 1(뉴스 데이터)을 기준으로 도 5와 같은 정규화 그래프를 사용하여 데이터의 품질을 측정하면 상위 20%의 범주에 해당한다. 따라서, 데이터 2(웹 데이터)는 level 3인 보통 수준의 품질로, 데이터 분석을 위해서 문법 오류 교정 및 데이터 정제를 해야 의미있는 데이터 분석이 가능하다고 진단 할 수 있다.
상술한 바와 같이, 한국어 텍스트 기반의 정형 데이터와 비정형 데이터에 대한 품질을 일관성 있게 평가하기 위한 지표 설계를 제공하고, 지표의 활용성을 높이기 위해 데이터의 품질을 측정하고 동시에 데이터의 품질을 진단할 수 있어 한국어 텍스트 기반의 비정형 데이터의 품질 개선 및 관리에 상당히 유리하다고 판단된다. 본 발명에서 제안한 장치 및 방법은 종래 외국어 기반의 정형 데이터에 대한 품질 평가에 벗어나, 한국어 텍스트 기반의 비정형 데이터의 품질을 평가 및 진단하기에 다른 장치 및 방법들에 비해 상당히 우수하다고 결론을 내릴 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
본 발명은 종래 기술의 데이터 평가 지표가 현재의 다양한 형태와 형식을 갖는 텍스트기반의 정형 및 비정형 데이터의 특성을 평가하기에는 매우 부족한 한계를 극복하기 위해 창안된 것으로서, 한국어 텍스트 기반의 정형 데이터와 비정형 데이터에 대한 품질을 일관성 있게 평가하기 위한 지표 설계를 제공하고, 지표의 활용성을 높이기 위해 데이터의 품질을 측정하고 동시에 데이터의 품질을 진단할 수 있는 데이터 품질 평가 장치 및 방법을 제공할 수 있다. 이는 한국어 텍스트 기반의 비정형 데이터의 품질 개선에 대한 방안과 관리에 효과가 있어 다양한 수요자의 빅데이터를 효율적으로 평가 및 관리하기 위한 기관들을 상대로 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
10 : 전처리 모듈
20 : 품질 평가 모듈
30 : 품질 진단 모듈
100 : 데이터 품질 평가 및 진단 시스템

Claims (15)

  1. 네트워크 상의 빅데이터 소스에서 수집된 문서들로부터 대상 데이터를 선정하고, 선정된 대상 데이터를 가공하는 전처리 모듈;
    상기 전처리 모듈에 의해 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 품질 평가 모듈; 및
    표본 데이터인 뉴스 데이터에 대하여 산출된 품질평가 지표를 정규화하여 베이스 모델을 생성한 후 생성된 베이스 모델의 품질평가 지표와, 상기 품질 평가 모듈에 의해 산출된 상기 대상 데이터에 대한 상기 품질평가 지표를 비교하여 상기 대상 데이터의 품질을 진단하는 품질 진단 모듈;
    을 포함하고,
    상기 품질 진단 모듈은, 상기 표본 데이터인 상기 뉴스 데이터에 대하여 상기 품질 평가 모듈에 의해 산출된 품질평가 지표를 0과 1사이로 정규화하고, 상기 품질 평가 모듈에 의해 산출된 상기 대상 데이터에 대한 상기 품질평가 지표를 0과 1사이로 정규화하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  2. 제1항에 있어서,
    상기 대상 데이터는,
    상기 네트워크 상의 빅데이터 소스에서 수집된 문서들에 포함된 한국어 텍스트의 정형 데이터 및 비정형 데이터를 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  3. 제1항에 있어서,
    상기 전처리 모듈은 상기 대상 데이터를 형태소 분석하여 어휘집을 자동 생성하고, 상기 어휘집은 형태소 리스트 사전과 상기 문서들에서 분석된 품사별 형태소 빈도수 사전을 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  4. 제3항에 있어서,
    상기 전처리 모듈은 문장 분리기를 사용하여 상기 문서들에 포함된 각 문서 별로 문장을 분리하고, 분리된 문장을 상기 품질 평가 모듈에 전달하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  5. 제1항에 있어서,
    상기 품질 평가 모듈은,
    상기 대상 데이터에 대한 문법오류 지표를 산출하는 문법오류 검사부;
    상기 대상 데이터에 대한 데이터 일관성 지표를 산출하는 응집성 검사부;
    상기 대상 데이터에 대한 데이터 난이도 지표를 산출하는 가독성 검사부; 및
    상기 대상 데이터에 대한 분류 적합성 지표를 산출하는 분류적합성 검사부;를 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  6. 제5항에 있어서, 상기 문법오류 검사부는 다음의 수식을 이용하여 상기 문법오류 지표를 산출하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
    [수식 1]
    Figure 112018111752662-pat00064

    (여기서,
    Figure 112018111752662-pat00065
    은 문법오류 지표를 의미하고,
    Figure 112018111752662-pat00066
    은 전체 단어의 수를 의미하고,
    Figure 112018111752662-pat00067
    는 문서에서 출현한 i번째 단어가 오류일 경우에 1로 반환하고, 문서에서 출현한 i번째 단어가 오류가 아닐 경우에 0으로 반환된다.)
  7. 제5항에 있어서, 상기 응집성 검사부는 다음의 수식들을 이용하여 데이터 일관성 지표를 산출하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
    [수식 2]
    Figure 112018111752662-pat00068

    [수식 3]
    Figure 112018111752662-pat00069

    [수식 4]
    Figure 112018111752662-pat00070

    (여기서,
    Figure 112018111752662-pat00071
    은 문서내의 전체 문장의 수를 의미하고,
    Figure 112018111752662-pat00072
    Figure 112018111752662-pat00073
    번째 문서와
    Figure 112018111752662-pat00074
    번째 문장의 상호 참조 관계의 상태를 의미하며,
    Figure 112018111752662-pat00075
    은 데이터의 모든 가능한 문장의 쌍에 대하여
    Figure 112018111752662-pat00076
    번째 문서와
    Figure 112018111752662-pat00077
    를 제외한
    Figure 112018111752662-pat00078
    번째 문서의 상호 참조 관계의 상태를 의미하고,
    Figure 112018111752662-pat00079
    는 데이터에서 단어가 출현한 두 문장 사이의 거리(
    Figure 112018111752662-pat00080
    =
    Figure 112018111752662-pat00081
    -
    Figure 112018111752662-pat00082
    )를 의미한다.)
  8. 제5항에 있어서, 상기 분류적합성 검사부는 상기 대상 데이터에 카테고리정보가 부가되어 있는 경우에 지도 학습 알고리즘과 비지도 학습 알고리즘을 이용하여 분류 적합성 지표를 산출하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  9. 삭제
  10. 제1항에 있어서, 상기 품질 진단 모듈은,
    상기 표본 데이터인 상기 뉴스 데이터에 대한 정규화된 품질평가 지표와 상기 대상 데이터에 대한 정규화된 품질평가 지표를 비교하여 상기 대상 데이터의 품질을 진단하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 장치.
  11. 전처리 모듈은 네트워크 상의 빅데이터 소스에서 수집된 문서들로부터 대상 데이터를 선정하고, 선정된 대상 데이터를 가공하는 단계;
    품질 평가 모듈은 상기 전처리 모듈에 의해 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 단계; 및
    품질 진단 모듈은 표본 데이터인 뉴스 데이터에 대하여 상기 품질 평가 모듈에 의해 산출된 품질평가 지표를 정규화하여 베이스 모델을 생성한 후 생성된 베이스 모델의 품질평가 지표와, 상기 산출된 대상 데이터에 대한 품질평가 지표를 비교하여 상기 대상 데이터의 품질을 진단하는 단계;를 포함하고,
    상기 품질 진단 모듈은 상기 표본 데이터인 상기 뉴스 데이터에 대하여 상기 품질 평가 모듈에 의해 산출된 품질평가 지표를 0과 1사이로 정규화하고, 상기 품질 평가 모듈에 의해 산출된 상기 대상 데이터에 대한 상기 품질평가 지표를 0과 1사이로 정규화하는 단계;를 더 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 방법.
  12. 제11항에 있어서,
    상기 대상 데이터는,
    상기 전처리 모듈에 의해 상기 네트워크 상의 빅데이터 소스에서 수집된 문서들에 포함된 한국어 텍스트의 정형 데이터 및 비정형 데이터를 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 방법.
  13. 제11항에 있어서, 상기 선정된 대상 데이터를 가공하는 단계는,
    상기 전처리 모듈이 상기 대상 데이터를 형태소 분석하여 어휘집을 자동 생성하고, 문장 분리기를 사용하여 상기 문서들에 포함된 각 문서 별로 문장을 분리하는 단계를 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 방법.
  14. 제11항에 있어서, 상기 가공된 대상 데이터에 대하여 미리 정의된 복수 개의 품질평가 지표를 산출하는 단계는,
    상기 품질 평가 모듈은 상기 대상 데이터에 대한 문법오류 지표를 산출하는 단계;
    상기 품질 평가 모듈은 상기 대상 데이터에 대한 데이터 일관성 지표를 산출하는 단계;
    상기 품질 평가 모듈은 상기 대상 데이터에 대한 데이터 난이도 지표를 산출하는 단계; 및
    상기 품질 평가 모듈은 상기 대상 데이터에 대한 분류 적합성 지표를 산출하는 단계;를 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 방법.
  15. 제11항에 있어서, 상기 대상 데이터의 품질을 진단하는 단계는,
    상기 품질 진단 모듈이 상기 표본 데이터인 상기 뉴스 데이터에 대한 정규화된 품질평가 지표와 상기 대상 데이터에 대한 정규화된 품질평가 지표를 비교하는 단계;를 포함하는 것을 특징으로 하는 텍스트 분석을 위한 데이터 품질 평가 방법.
KR1020180137826A 2018-11-12 2018-11-12 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법 KR102019207B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180137826A KR102019207B1 (ko) 2018-11-12 2018-11-12 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180137826A KR102019207B1 (ko) 2018-11-12 2018-11-12 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102019207B1 true KR102019207B1 (ko) 2019-09-06

Family

ID=67949885

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180137826A KR102019207B1 (ko) 2018-11-12 2018-11-12 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102019207B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704540A (zh) * 2019-10-10 2020-01-17 云南中烟工业有限责任公司 一种采集数据过程中评估源端及目标端数据质量的方法
CN113505117A (zh) * 2021-07-26 2021-10-15 平安信托有限责任公司 基于数据指标的数据质量评估方法、装置、设备及介质
CN114462833A (zh) * 2022-01-21 2022-05-10 深圳市和讯华谷信息技术有限公司 一种项目研发能力诊断方法及系统
KR20220084915A (ko) * 2020-12-14 2022-06-21 박지우 클라우드 기반 문법 교정 서비스 제공 시스템
CN115050479A (zh) * 2022-04-12 2022-09-13 江南大学附属医院 多中心研究的数据质量评价方法、系统及设备
CN116306576A (zh) * 2023-05-24 2023-06-23 山东成信彩印有限公司 一种书刊印刷检错系统及其方法
CN116776868A (zh) * 2023-08-25 2023-09-19 北京知呱呱科技有限公司 一种模型生成文本的评估方法及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040023376A (ko) * 2002-09-11 2004-03-18 한국과학기술정보연구원 실시간 서지데이터베이스 평가 방법
KR20040093982A (ko) * 2003-04-30 2004-11-09 주식회사 팬택 한국어 방송 뉴스의 음성 인식을 위한 어휘 적응 장치 및그 방법
KR20050060795A (ko) * 2003-12-17 2005-06-22 한국전자통신연구원 지유아이 환경을 기반으로 하는 실시간 기사 수집 시스템및 온라인 언어 모델 구축 서비스 방법
KR101813683B1 (ko) * 2016-08-17 2017-12-29 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040023376A (ko) * 2002-09-11 2004-03-18 한국과학기술정보연구원 실시간 서지데이터베이스 평가 방법
KR20040093982A (ko) * 2003-04-30 2004-11-09 주식회사 팬택 한국어 방송 뉴스의 음성 인식을 위한 어휘 적응 장치 및그 방법
KR20050060795A (ko) * 2003-12-17 2005-06-22 한국전자통신연구원 지유아이 환경을 기반으로 하는 실시간 기사 수집 시스템및 온라인 언어 모델 구축 서비스 방법
KR101813683B1 (ko) * 2016-08-17 2017-12-29 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
성지민, 말뭉치 품질 제어를 위한 기계가독형 지침 설계 제안, 연세대학교 대학원 석사학위 논문 (2017.02) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704540A (zh) * 2019-10-10 2020-01-17 云南中烟工业有限责任公司 一种采集数据过程中评估源端及目标端数据质量的方法
CN110704540B (zh) * 2019-10-10 2023-05-02 云南中烟工业有限责任公司 一种采集数据过程中评估源端及目标端数据质量的方法
KR20220084915A (ko) * 2020-12-14 2022-06-21 박지우 클라우드 기반 문법 교정 서비스 제공 시스템
KR102552811B1 (ko) * 2020-12-14 2023-07-06 박지우 클라우드 기반 문법 교정 서비스 제공 시스템
CN113505117A (zh) * 2021-07-26 2021-10-15 平安信托有限责任公司 基于数据指标的数据质量评估方法、装置、设备及介质
CN114462833A (zh) * 2022-01-21 2022-05-10 深圳市和讯华谷信息技术有限公司 一种项目研发能力诊断方法及系统
CN115050479A (zh) * 2022-04-12 2022-09-13 江南大学附属医院 多中心研究的数据质量评价方法、系统及设备
CN115050479B (zh) * 2022-04-12 2023-08-04 江南大学附属医院 多中心研究的数据质量评价方法、系统及设备
CN116306576A (zh) * 2023-05-24 2023-06-23 山东成信彩印有限公司 一种书刊印刷检错系统及其方法
CN116306576B (zh) * 2023-05-24 2023-08-15 山东成信彩印有限公司 一种书刊印刷检错系统及其方法
CN116776868A (zh) * 2023-08-25 2023-09-19 北京知呱呱科技有限公司 一种模型生成文本的评估方法及计算机设备
CN116776868B (zh) * 2023-08-25 2023-11-03 北京知呱呱科技有限公司 一种模型生成文本的评估方法及计算机设备

Similar Documents

Publication Publication Date Title
KR102019207B1 (ko) 텍스트 분석을 위한 데이터 품질 평가 장치 및 방법
US20210294974A1 (en) Systems and methods for deviation detection, information extraction and obligation deviation detection
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
WO2017067153A1 (zh) 基于文本分析的信用风险评估方法及装置、存储介质
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN111221939B (zh) 评分方法、装置和电子设备
US9595005B1 (en) Systems and methods for predictive coding
US20200241861A1 (en) Software component defect prediction using classification models that generate hierarchical component classifications
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
Kiefer Assessing the Quality of Unstructured Data: An Initial Overview.
CN110287103B (zh) 软件产品测评处理方法、装置、计算机设备及存储介质
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
KR20180120488A (ko) 텍스트 마이닝 기법을 활용한 고객 불만에 대한 분류 및 예측 방법
US20170140290A1 (en) Automated Similarity Comparison of Model Answers Versus Question Answering System Output
CN112685324B (zh) 一种生成测试方案的方法及系统
CN114816962B (zh) 基于attention-lstm的网络故障预测方法
US11049409B1 (en) Systems and methods for treatment of aberrant responses
WO2020177463A1 (zh) 信息处理方法、装置、存储介质和电子设备
CN108021595B (zh) 检验知识库三元组的方法及装置
US11568153B2 (en) Narrative evaluator
Putri et al. Software feature extraction using infrequent feature extraction
Birkenmaier et al. ValiTex--a uniform validation framework for computational text-based measures of social science constructs
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN113987141A (zh) 一种基于递归询问的问答系统回答可靠性即时检查方法
CN112561714A (zh) 基于nlp技术的核保风险预测方法、装置及相关设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant