KR20200106106A - 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법 - Google Patents
사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR20200106106A KR20200106106A KR1020190021637A KR20190021637A KR20200106106A KR 20200106106 A KR20200106106 A KR 20200106106A KR 1020190021637 A KR1020190021637 A KR 1020190021637A KR 20190021637 A KR20190021637 A KR 20190021637A KR 20200106106 A KR20200106106 A KR 20200106106A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- quality
- indicator
- time
- indices
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003326 Quality management system Methods 0.000 title claims abstract description 13
- 238000003745 diagnosis Methods 0.000 claims abstract description 29
- 238000007726 management method Methods 0.000 claims description 64
- 238000005259 measurement Methods 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000013441 quality evaluation Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 12
- 230000005856 abnormality Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000013070 change management Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 19
- 238000013480 data collection Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H04L67/322—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
- H04L43/045—Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H04L67/2804—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/561—Adding application-functional data or data for application control, e.g. adding metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/70—Services for machine-to-machine communication [M2M] or machine type communication [MTC]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 시스템은 미리 등록된 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 지수화하는 복수의 품질 지수들을 관리하는 데이터 품질 기준 관리부; 및 상기 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하고, 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하며, 상기 측정된 복수의 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 데이터 품질 측정부를 포함한다.
Description
본 발명은 사물 인터넷 실시간 데이터 품질 관리 기술에 관한 것으로, 보다 구체적으로는 사물 인터넷에서 발생하는 실시간 데이터에 대한 품질을 진단하고 이를 관리할 수 있는 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법에 관한 것이다.
4차 산업 혁명 시대에 돌입하면서 기존의 사람이 담당했던 일들이 기계에 의해 대체 되고 있다. 이를 위해서는 IoT(Internet of Things), 즉 기계와 기계가 서로 네트워크에 연결되고 데이터를 주고 받는 환경이 필요하게 되었고 이미 다양한 분야에서 자리잡고 있다. 장비의 센서는 실시간으로 데이터를 생산하고 있으며 그것들을 모니터링 하고 컨트롤 하는 시스템들도 각 산업 분야에서 활용 되고 있다. IoT 모니터링 시스템은 연결된 단일 센서의 데이터 값에 대한 결함을 체크하고 이를 근거로 현재의 상황에 대한 판단을 결정하기 위한 기능들로 구성되어 있다. 실시간으로 장비 또는 네트워크 등을 진단하고 문제를 결정, 개선하는 아주 중요한 작업이고 도메인에 대한 많은 경험과 지식이 필요한 일이다.
현재 IoT 산업은 위와 같은 시스템을 도입하여 데이터를 생산하고 수집, 조금 더 나아가 진단하는 수준에 도달했다. 산업의 성숙도는 점점 높아져 가고 있으며 회사는 IoT 데이터를 활용하기 위한 데이터의 통합 및 분석을 수행하게 된다. 데이터의 통합 및 분석 작업을 위한 데이터의 품질은 기존 단일 시스템 혹은 데이터의 품질과는 다른 관점으로 바라 보아야 한다. 특히 IoT 데이터의 특성인 시간 정보가 포함되어 있고 끝이 없이 생성되어 흘러가는 데이터에 대한 품질 측정 방법들이 논의 되어야 하고 기준을 마련해야 한다.
따라서, IoT 실시간 데이터 품질 관리에 필요한 항목들을 정의하고 IoT 데이터 품질을 실시간으로 진단할 수 있는 방법의 필요성이 대두된다.
본 발명의 실시예들은, 사물 인터넷에서 발생하는 실시간 데이터에 대한 품질을 진단하고 이를 관리할 수 있는 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법을 제공한다.
본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 시스템은 미리 등록된 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 지수화하는 복수의 품질 지수들을 관리하는 데이터 품질 기준 관리부; 및 상기 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하고, 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하며, 상기 측정된 복수의 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 데이터 품질 측정부를 포함한다.
상기 데이터 품질 측정부는 상기 측정된 복수의 품질 지수들 각각과 매핑된 품질 평가 항목들을 상기 측정된 복수의 품질 지수들을 이용하여 계산하고, 상기 계산된 품질 평가 항목들을 이용하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산할 수 있다.
나아가, 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 시스템은 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수에 기초한 품질 결과를 모니터링할 수 있도록, 상기 품질 결과를 화면 상에 제공하는 데이터 품질 모니터링부를 더 포함할 수 있다.
상기 데이터 품질 기준 관리부는 데이터의 수집에 관한 정보 및 분석 기준 정보를 포함하는 고정 메타 데이터를 관리하는 고정 메타데이터 관리부; 유동 메타데이터를 관리하는 유동 메타데이터 관리부; 상기 사물 인터넷 장비 센서의 작업 국면들에 대한 전환을 관리하는 국면 전환 관리부; 및 상기 복수의 품질 지수들을 관리하는 데이터 품질 지수 관리부를 포함하며, 상기 데이터 품질 측정부는 상기 데이터 품질 기준 관리부에 의해 설정된 정보를 이용하여 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정할 수 있다.
상기 데이터 품질 측정부는 상기 고정 메타데이터 관리부에 의해 설정된 정보에 기초하여 미리 설정된 시간 t안에서의 전체 데이터 개수, 유일 데이터 건수, 가장 최근 수집된 데이터, 최근 데이터와 바로 이전 데이터 사이의 시간 차이, 최대값, 최소값, 평균값, 분산, 이상치 개수 및 데이터 값 별 빈도를 포함하는 데이터 특성을 파악할 수 있는 항목들로 프로파일링하여 상기 복수의 품질 지수들 각각을 측정하는 스트림 데이터 프로파일링부; 및 상기 측정된 복수의 품질 지수들 각각에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 데이터 품질 종합 진단부를 포함할 수 있다.
상기 데이터 품질 측정부는 상기 측정된 품질 지수들 각각 또는 상기 측정된 품질 지수들 각각을 이용하여 계산된 미리 설정된 품질 평가 항목들 각각이 미리 설정된 기준보다 떨어지는 경우 알람 이벤트를 생성하는 데이터 품질 이상 알림부를 더 포함할 수 있다.
상기 복수의 품질 지수들은 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 값의 변동 지수(Value Fluctuation Indicator), 값의 주기 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 이상 데이터 지수(Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator), 시간 값 이상 지수(Wrong Timestamp Indicator) 및 위치 이상 지수(Abnormal Spatial Indicator)를 포함하는 하나의 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator), 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 정합성 지수(Time Consistency Indicator)를 포함하는 두 개 이상의 데이터간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multi Signals Quality Indicator) 및 시간 포맷 이상 지수(Timestamps Format Indicator), 데이터 타입 이상 지수(Not-matched Data Type Indicator) 및 데이터 단위 이상 지수(Not-matched Data Unit Indicator)을 포함하는 데이터의 구조적 품질 지수(Structural Quality Indicator)를 포함할 수 있다.
본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 미리 등록된 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 지수화하는 복수의 품질 지수들을 관리하는 단계; 상기 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 단계; 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하는 단계; 및 상기 측정된 복수의 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 단계를 포함한다.
상기 최종 품질 진단 지수를 계산하는 단계는 상기 측정된 복수의 품질 지수들 각각과 매핑된 품질 평가 항목들을 상기 측정된 복수의 품질 지수들을 이용하여 계산하고, 상기 계산된 품질 평가 항목들을 이용하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산할 수 있다.
나아가, 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수에 기초한 품질 결과를 모니터링할 수 있도록, 상기 품질 결과를 화면 상에 제공하는 단계를 더 포함할 수 있다.
더 나아가, 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 데이터의 수집에 관한 정보 및 분석 기준 정보를 포함하는 고정 메타 데이터를 관리하는 단계; 유동 메타데이터를 관리하는 단계; 및 상기 사물 인터넷 장비 센서의 작업 국면들에 대한 전환을 관리하는 단계를 더 포함하고, 상기 복수의 품질 지수들 각각을 측정하는 단계는 상기 관리하는 단계들에 의해 설정된 정보를 이용하여 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정할 수 있다.
상기 복수의 품질 지수들 각각을 측정하는 단계는 상기 고정 메타데이터에 기초하여 미리 설정된 시간 t안에서의 전체 데이터 개수, 유일 데이터 건수, 가장 최근 수집된 데이터, 최근 데이터와 바로 이전 데이터 사이의 시간 차이, 최대값, 최소값, 평균값, 분산, 이상치 개수 및 데이터 값 별 빈도를 포함하는 데이터 특성을 파악할 수 있는 항목들로 프로파일링하여 상기 복수의 품질 지수들 각각을 측정할 수 있다.
더 나아가, 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 상기 측정된 품질 지수들 각각 또는 상기 측정된 품질 지수들 각각을 이용하여 계산된 미리 설정된 품질 평가 항목들 각각이 미리 설정된 기준보다 떨어지는 경우 알람 이벤트를 생성하는 단계를 더 포함할 수 있다.
상기 복수의 품질 지수들은 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 값의 변동 지수(Value Fluctuation Indicator), 값의 주기 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 이상 데이터 지수(Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator), 시간 값 이상 지수(Wrong Timestamp Indicator) 및 위치 이상 지수(Abnormal Spatial Indicator)를 포함하는 하나의 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator), 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 정합성 지수(Time Consistency Indicator)를 포함하는 두 개 이상의 데이터간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multi Signals Quality Indicator) 및 시간 포맷 이상 지수(Timestamps Format Indicator), 데이터 타입 이상 지수(Not-matched Data Type Indicator) 및 데이터 단위 이상 지수(Not-matched Data Unit Indicator)을 포함하는 데이터의 구조적 품질 지수(Structural Quality Indicator)를 포함할 수 있다.
본 발명의 실시예들에 따르면, 사물 인터넷에서 발생하는 실시간 데이터에 대한 품질을 진단하고 이를 관리할 수 있다.
본 발명의 실시예들에 따르면, 사물 인터넷에서 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 진단하기 위한 데이터 품질 지수들을 정의하고, 정의된 품질 지수들과 미리 정의된 고정 메타데이터, 유동 메타데이터의 정보를 이용하여 사물 인터넷에서 발생하는 실시간 데이터의 품질을 진단하고, 이를 통해 사물 인터넷을 용이하게 관리할 수 있다.
도 1은 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 시스템에 대한 구성을 나타낸 것이다.
도 2는 주기적 데이터에 대한 일 예시도를 나타낸 것이다.
도 3은 주기적 데이터에 대한 일 예시도를 나타낸 것이다.
도 4는 실시간 데이터 품질 지수에 대한 일 예시도를 나타낸 것이다.
도 5는 실시간 데이터 프로파일링에 대한 일 예시도를 나타낸 것이다.
도 6은 세부 품질 측정 지수와 관리 항목 지수 간의 매핑에 대한 일 예시도를 나타낸 것이다.
도 7은 품질 모니터링 화면에 대한 일 예시도를 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 주기적 데이터에 대한 일 예시도를 나타낸 것이다.
도 3은 주기적 데이터에 대한 일 예시도를 나타낸 것이다.
도 4는 실시간 데이터 품질 지수에 대한 일 예시도를 나타낸 것이다.
도 5는 실시간 데이터 프로파일링에 대한 일 예시도를 나타낸 것이다.
도 6은 세부 품질 측정 지수와 관리 항목 지수 간의 매핑에 대한 일 예시도를 나타낸 것이다.
도 7은 품질 모니터링 화면에 대한 일 예시도를 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법에 대한 동작 흐름도를 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상 의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
IoT 품질과 관련된 종래 기술들은 주로 데이터의 품질적인 관점보다는 장비 오류 혹은 네트워크 상에서 발생하는 데이터 손실/변경(순서)/지연으로 데이터 수집 문제에 대한 기술, 또는 대용량의 실시간 데이터 처리를 위한 성능 개선을 위한 아키텍처, 네트워크 구성, 알고리즘 등의 기술들이 주를 이루고 있다. 일부 데이터 관련 기술에서는 주로 이상치/이상행위 탐지(Outlier/Anomaly Detection) 등 단일 스트림 데이터에 대한 오류 상황을 찾는 것에 초점이 맞추어져 있다.
본 발명의 실시예들은, IoT에서 발생하는 실시간 데이터에 대한 종합적이고 다양한 각도로 데이터의 품질을 진단하는 것을 그 요지로 한다. 특히 본 발명은 IoT 실시간 데이터가 가지는 끊임없이, 시간 순으로 흘러 들어오는 데이터 처리의 어려움을 감안하여 데이터 품질을 진단할 수 있으며, 이러한 데이터 품질 진단에 대한 기준을 정리할 수 있다.
본 발명의 상세한 설명에 앞서, 본 발명에서 사용하는 실시간 데이터는 지속적으로 생산되고 수집되며 실시간으로 처리되는 스트림(Stream) 데이터로 정의하고, 데이터 원본을 저장하는 공간을 데이터 레이크(Data Lake)라 정의하며, 추후 활용을 위해서 저장된 스트림 데이터는 일반 데이터(General Data)라고 정의한다. 본 발명의 상세한 설명은 이러한 정의를 이용하여 설명한다.
여기서, 스트림 데이터는 일반적으로 실시간 처리를 하고 사라지지만 초기에 데이터의 원본을 저장할 수 있도록 분기하여 처리할 수 있으며, 처리 속도 및 성능과 직접적으로 연관되고, 해당 처리 및 분석 결과만 저장될 수 있다.
도 1은 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 시스템에 대한 구성을 나타낸 것이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 시스템은 데이터 품질 관리 UI(1), 데이터 품질 진단부(13) 및 품질 모니터링부(11)를 포함한다.
데이터 품질 관리 UI(1)는 사용자 입력을 통해 IoT 센서의 등록 및 정보 입력 등을 수행한다.
여기서, 데이터 품질 관리 UI(1)는 사용자 즉, 운영자가 쉽게 관리 대상들을 등록하고 관련 정보들을 입력 및 수정할 수 있는 사용자 인터페이스(또는 화면)을 의미할 수 있다.
센서 데이터의 관리 구조는 먼저 업무를 등록하고 그 안에 해당 센서가 설치된 장비(또는 장치) 즉, IoT 장비 센서를 등록하며, 해당 센서는 장비의 세부 항목으로 등록하게 되는데, 이는 센서의 품질 지수를 통해 장비 및 비즈니스 업무에서의 품질에 대해 평가하기 위함이다.
나아가, 데이터 품질 관리 UI(1)는 사용자 입력을 통해 대상 검색 및 사용자 관리 권한 기능 등의 기본 관리 및 품질 기준 관리와 측정 장치에 필요한 정보들을 입력할 수 있다.
데이터 품질 진단부(13)는 IoT 실시간 데이터 수집 장치에 의해 실시간으로 수집된 데이터 품질을 진단하는 구성 수단으로, 데이터 품질 관리 UI를 통해 입력된 정보들을 저장하거나 적용하는 데이터 품질 기준 관리부(14) 및 데이터 품질 기준 관리부(14)에 의해 저장된 정보들을 기반으로 스트림 데이터에 대한 품질을 측정하는 데이터 품질 측정부(15)를 포함한다.
데이터 품질 기준 관리부(14)는 고정 메타데이터 관리부(2), 유동 메타데이터 관리부(3), 국면 전환 관리부(4) 및 데이터 품질 지수 관리부(5)를 포함한다.
고정 메타데이터 관리부(2)는 임의의 조작 없이는 변경이 되지 않는 정보인 고정 메타데이터를 관리하는 구성 수단이다.
여기서, 고정 메타데이터는 장비의 모델 및 브랜드와 같은 장비를 설명하는 정보, 측정값의 종류 및 단위 등과 같이 센서에서 측정하는 데이터에 대한 정보, 센서 네트워크에 대한 정보, 그리고 데이터 수집에 관한 정보 및 분석 기준 정보(예를 들어, 센서가 가질 수 있는 상한 값과 하한 값 등) 등을 포함할 수 있다.
이하, 본 발명에서 사용되는 고정 메타데이터는 일반적인 고정 정보보다는 실시간 데이터 품질관리의 중요한 기준이 되는 데이터 수집에 관한 정보 및 분석 기준 정보로서 정의될 수 있다.
여기서, 데이터 수집에 관한 정보는 데이터 생성 타입에 따라 다르게 설정될 수 있다. 예를 들어, 고정 메타데이터 관리부는 데이터 생성 타입이 주기적 데이터인 경우 운영자의 입력을 통해 해당 실시간 데이터의 수집 주기(예를 들어, 초당 1건, 분당 1건 등), 수집되는 데이터의 건수(예를 들어, 분당 60건, 시간당 100건 등), 허용 수집 시간(예를 들어, 최소 1시간 이내 데이터 수집 등) 등을 포함하는 데이터 수집에 관한 정보를 정의할 수 있다. 또한, 고정 메타데이터 관리부는 데이터 생성 타입이 비 주기적 데이터인 경우 수집되는 기준 이벤트를 정의할 수 있다. 예를 들어, 고정 메타데이터 관리부는 데이터가 수집되는 기준을 이전 데이터와 비교해서 ±α 이상의 차이 발생하거나 타 센서와 동일 시간에 발생하는 경우 등으로 정의할 수 있다. 측정 기준 정보는 실시간 데이터 분석에 대해 어떤 기준으로 어떤 내용을 진행 할 것인가를 운영자에 의해 설정된 것으로, 실시간 데이터 분석에서의 기준은 데이터 생성 타입부터 데이터 값의 고정 임계치(threshold), 스트림 데이터 처리 방법인 윈도우(window) 크기 및 종류와 샘플링 사용여부 및 적용 방법, 다중 센서 분석을 위한 센서간 관계 설정 등을 포함할 수 있다.
유동 메타데이터 관리부(3)는 시간이 흐르고 데이터가 쌓이면서 변경되는 정보인 유동 메타데이터를 관리하는 구성 수단이다.
여기서, 유동 메타데이터 관리부(3)는 저장된 데이터를 활용하여 분석을 진행하고 이에 대한 결과는 실시간 데이터 품질 측정 기준으로 사용될 수 있다.
본 발명에서는 2가지의 유동 메타데이터에 대한 분석 방법들을 설명한다.
첫 번째 분석 방법은 실시간 데이터 품질 측정의 기준을 하나의 고정 임계치가 아닌 시점마다 다른 기준 값을 구성하는 유동 임계치를 이용하는 방법으로, 주기적으로 분석을 수행하여 최신의 데이터 정보를 반영하고, 임계치들을 갱신하기 때문에 유동적인 임계치라 한다. 두 번째 분석 방법은 일정 주기에서 정상적인 상황의 데이터 정상 패턴을 이용하는 방법이다. 과거의 저장된 데이터를 활용하여 정해진 시작점과 끝점 사이의 데이터가 그리는 패턴에 대해서 모델링을 진행하여 주기적으로 데이터의 품질을 측정 한다. 이 역시 계속적인 모델의 갱신이 진행 되기에 유동적인 메타라고 정의할 수 있다.
상기 표 1은 메타 데이터 유형 및 예시를 나타낸 것으로, 데이터 생성 타입은 품질관리에 있어서 높은 중요도를 차지한다. 여기서, 정의된 데이터 생성 타입에 따라 품질 지수의 종류나 분석 방법, 기준 값 설정 등의 차이가 발생 하기에 수집되는 데이터에 대한 타입 관리를 수행한다.
주기적(Time-Driven) 데이터는 도 2에 도시된 바와 같이 정해진 특정 시간에 따라 데이터가 주기적으로 수집되는 타입의 데이터를 의미한다. 일반적으로 실제 장비로부터 생성된 시그널(아날로그)은 센서 시그널이 연속적이거나 임의 사건(Event)이 발생하였을 때 데이터 시그널이 발생하는 등과 같이 주기성을 가질 수 없지만, 이를 디지털 데이터로 처리하기 위해서는 이런 시그널을 이산적으로 만들어야 한다. 이 때, 주기적으로 데이터를 처리하는 경우에 의해 '주기적 데이터'가 생성될 수 있다. 때때로는 발생된 모든 시그널을 전부 데이터화 하지 않으며, 일정한 짧은 시간 주기(예를 들어, 0.001 초, 0.1 초, 1 초 등)로 데이터를 집계하는 경우도 주기적 데이터에 포함될 수 있다.
이벤트 (Event-Driven) 데이터는 도 3에 도시된 바와 같이 장비에서 생성된 시그널을 주기적으로 수집(데이터화)하는 것이 아니라 어떠한 특정 이벤트가 발생하거나 시그널 값의 변화가 발생 했을 때 수집(데이터화)하는 형태의 데이터를 의미할 수 있다.
국면 전환 관리부(4)는 측정 대상의 작업 국면들에 대한 전환을 관리하는 구성 수단이다. 측정 대상에 있어 화학, 제조 등의 장비들에는 일정한 작업 국면들이 있다. 다시 말해, 최초 시작 국면에서 가열이 시작되어 실제 작업 국면에서 최고 점에 도달한 후 안정적인 온도를 유지하다가 냉각 국면에서는 서서히 감소하며 종료 국면에서는 기준온도로 변화(안정적인 상태)한다. 각 국면에서 보이는 측정 데이터의 유효 범위는 서로 상이 하기 때문에 각각으로 관리 되어야 하며, 이에 대한 사전 정의를 통해 데이터 품질 측정의 정확성을 높일 수 있다.
데이터 품질 지수 관리부(5)는 데이터 품질을 지수화하여 관리하는 구성 수단이다. 이 때, 데이터 품질 지수 관리부(5)는 등록된 데이터의 품질을 관리 및 모니터링 하기 위한 데이터 품질 지수(Data Quality Indicator) 항목을 선택한다. 품질 관리에 있어서는 데이터 값 자체의 오류 여부를 판단 하고자 함이 아닌 정해진 시간 동안의 데이터의 값과 수집 주기 등을 관찰하여 목적 센서 또는 시스템의 데이터가 운영자의 기준에 충족하고 있는지를 평가하고 지수화 하는 것을 목적으로 하는데, 데이터 품질 지수 관리부는 각 데이터의 측정 목적에 맞도록 데이터 품질 지수들 예를 들어, 21가지 데이터 품질 지수들 중 하나 또는 여러 개를 선택할 수 있다. 21개의 데이터 품질 지수들은 크게 세가지 타입으로 나뉘는데, 먼저 하나의 데이터(또는 소스)에 대한 품질 측정을 수행하는 단일 품질 지수와 두 개 이상의 데이터(또는 소스)간의 관계에 대한 품질 측정을 수행하는 다중 관계 품질 지수, 동일한 대상을 측정하는 여러 데이터간의 데이터 값의 특성 외에 구조적인 차이에 대한 품질 측정을 수행하는 구조적 품질 지수로 구분 할 수 있다.
단일 품질 지수(Single Signal Quality Indicator)는 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 값의 변동 지수(Value Fluctuation Indicator), 값의 주기 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 이상 데이터 지수(Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator), 시간 값 이상 지수(Wrong Timestamp Indicator) 및 위치 이상 지수(Abnormal Spatial Indicator)를 포함할 수 있으며 주로 이미 정해져 있는 절대 진리 값(Ground Truth, 예를 들어 장비 측정 범위, 온도의 물리적 형성 범위 등) 혹은 오랜 시간 해당 센서로부터 관찰되어온 안정적인 값을 기준으로 품질을 측정한다.
균일 빈도 지수(Uniform Frequency Indicator)에 대해 설명하면, 일정시간 t 동안 단위 시간(t/n)당 데이터 수집되는 정도를 파악하여 데이터가 균일하게 수집이 되고 있는지에 대한 수집 품질을 측정 한다. 모든 센서 데이터는 기 정의된 데이터의 수집 주기가 있을 것이고 이를 관찰하여 전반적인 안정성, 즉 SLA(Service Level Agreement)를 평가할 수 있다.
결측 시간 지수(Empty Time Indicator)에 대해 설명하면, 균일 빈도 지수의 경우 정해진 기준에 미치지 못하는 수집 오류에 대한 평가라 하면, 결측 시간 지수는 그 보다 더 심각한 단위 시간 내에 데이터가 전혀 수집되지 못하는 정도를 파악하여 수집 품질에 대한 심각성을 상기 하고자 한다.
값의 변동 지수(Value Fluctuation Indicator)에 대해 설명하면, 측정의 대상이 계속적으로 변화함에도 수집되는 데이터의 변화가 그에 미치지 못한다면 데이터 품질의 오류로 판단 할 수 있다. 값의 변동 지수는 일정시간 t 동안 앞뒤 데이터 값의 변동 정도를 측정하여 변동의 빈도가 운영자의 기준에 부합 하는지를 측정하는 지수이다.
값의 주기 지수(Value Period Indicator)에 대해 설명하면, 일정 주기 혹은 업무의 프로세스의 한 사이클에 대한 데이터를 모델링하여 하나의 패턴 형태의 유동 메타를 설정하고 이를 근거로 현재의 사이클의 데이터 형태와의 거리를 측정하여 품질의 정도를 판단한다.
빈도 패턴 지수(Event Pattern Indicator)에 대해 설명하면, 일정 주기 혹은 업무 프로세스의 한 사이클에 대한 이벤트 데이터 생성에 대한 패턴을 모델링하여 이를 기준으로 현재 생성되는 이벤트 데이터의 패턴과 다른 경우를 측정하여 품질의 정도를 판단한다.
충분 데이터 지수(Enough Volume Indicator)에 대해 설명하면, 데이터의 품질을 측정하는 큰 이유 중 하나는 활용이다. 허나 너무 소수의 데이터로는 다양하게 또는 필요한 활용이 어려울 수 있다. 이에 일정 기간 t 동안 수집된 데이터의 크기와 운영자의 기준과의 비교를 통해 품질의 정도를 측정하는데, 이렇게 수집된 데이터가 충분한지에 대한 지수를 충분 데이터 지수라 할 수 있다.
이상 데이터 지수(Outlier Indicator)에 대해 설명하면, 데이터 측정 값 자체에 대한 오류도 중요한 품질요소 이다. 그러나 순간의 데이터에 대한 이상 여부는 데이터 분석에 더 가깝다. 품질의 관점에서는 분석에 의해서 도출된 이상치 데이터들이 일정 기간 t 동안 얼마나 발생 했는지를 측정한다. 운영자의 기준에 의해서 1개의 이상치가 중요한 품질 오류일 수도 아닐 수도 있기 때문이다. 이러한 이상 데이터 발생에 대한 지수를 이상 데이터 지수라 할 수 있다.데이터 갱신 지수(Data Update Indicator)는 데이터가 일정 시간 동안 수집되지 않고 있는 것에 대한 품질 지수이다. 전원이 직접적으로 연결되어 있지 않은 센서의 경우 밧데리 방전 문제, 외부에 장착된 센서의 경우 센서 파손의 문제, 또는 네트워크 상의 단절 문제로 인하여 일정 시간 이상 데이터가 수집이 안되는 경우가 발생한다. 그래서 현재 시점에서 최근 데이터 수집 사이의 시간을 계산하여 운영자의 기준과의 비교를 통해 품질의 정도를 측정한다.
추세 이상 지수(Trend Abnormal Indicator)에 대해 설명하면, 각 국면 별 혹은 기 정해 놓은 데이터의 구간별로 기대되는 데이터 값의 변화 추세(Ground Truth - 과거 데이터를 기준으로 분석된 기준 기울기 변폭(Threshold boundary) 혹은 장비가 기본적으로 가지고 있는 예상 기울기 변폭 등)를 기준으로 현재 수집되고 있는 데이터의 변화 방향성이 얼마나 멀어지고 있는지를 비교하여 품질의 정도를 측정한다. 기술의 한계로써 서서히 증가 혹은 감소하는 데이터의 변화에 대해서는 이상 데이터 지수와 값 주기 지수에서는 정확히 측정하기가 어렵기 때문에 추세 이상 지수로 데이터 변하고 있는 것에 대한 품질의 정도를 측정한다.
시간 값 이상 지수 (Wrong Timestamp Indicator)에 대해 설명하면, 모든 센서 데이터에는 측정된 데이터 값뿐만 아니라 항상 측정한 시간 값(Timestamp)을 같이 가지고 있다. 이 때 센서 자체의 문제 혹은 중간 네트워크에서의 데이터 소실 문제 등으로 정상적이지 않는 시간 값을 가지게 되는 경우가 발생 할 수 있으며 이 부분도 데이터 품질의 항목으로 관리한다.
위치 이상 지수(Abnormal Spatial Indicator)에 대해 설명하면, 일부 센서 데이터의 경우 시간, 측정 값 외에도 해당 센서가 있는 위치에 대한 정보를 같이 가지고 있다. 이 때 센서의 위치 정보 자체가 잘못된 값을 가지고 있거나, 예상 하고 있는 위치의 범위를 벗어나 있거나, 해당 위치에서 얻을 수 없는 측정 값을 가지게 되는 경우가 발생 할 수 있으며 이 부분도 데이터 품질의 항목으로 관리한다.
다중 관계 품질 지수(Multi Signals Quality Indicator)는 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 정합성 지수(Time Consistency Indicator)를 포함할 수 있다.
본 발명은 실시간 데이터간의 값들을 비교하고 관계를 찾아내기 전에 반드시 두 데이터간의 차이에 대한 고려가 필요하다. 고정 메타 중 하나인 센서간 통합 기준 설정을 통해 동일선상에서 두 데이터를 비교 분석 모니터링 할 수 있어야 하며 또 다른 고정 메타 중 하나인 센서간 관계 규칙 설정을 통하여 상호 데이터 간에 비교할 수 있도록 정해진 규칙을 기준으로 품질을 측정 한다.
상호 규칙 지수(Interactive Rule Indicator)에 대해 설명하면, 두 개의 센서가 측정하는 대상에 있어서 반드시 지켜져야 할 규칙이 존재 할 수 있다. 동일 공간의 다른 높이에 설치된 두 개의 센서가 측정하는 고도에 있어서 다른 하나가 반드시 높게 측정이 되어야 한다. 이러한 센서간의 관계 규칙을 일정 시간 t 동안 위배하는 비율을 측정하여 관계적 품질을 모니터링 한다.
값 유사성 지수(Value Similarity Indicator)에 대해 설명하면, 하나의 대상에 대해 두 개 이상의 센서가 동시에 측정하는 경우들이 존재 한다. 이러한 경우, 두 개의 센서가 측정하여 수집되는 데이터는 동일 하거나 아주 유사하게 측정이 된다. 그러나 어떠한 이유로 두 개의 데이터의 차이가 운영자가 허용하는 기준을 벗어 난다면 품질의 문제가 발생 하게 된다. 유사성 지수는 이를 측정 하기 위한 품질 지수이다.
분포 유사성 지수(Distribution Similarity Indicator)에 대해 설명하면, 정확한 값의 비교를 통한 유사성 검증이 아닌 하나의 주기 안에서 보여지는 데이터들의 분포가 유사성을 갖는지에 대한 여부를 파악하는 지수이다. 측정하는 대상은 다르지만 시간에 따른 데이터의 변화는 일정 부분 유사해야 하는 경우 이를 품질 관리의 항목으로 모니터링 하게 된다.
패턴 유사성 지수(Pattern Similarity Indicator)에 대해 설명하면, 동일한/비슷한 대상을 측정하는 이벤트 데이터를 발생시키는 센서들의 경우 측정 대상의 활동에 따라 비슷한 패턴을 가진 데이터를 생성하는지를 파악하는 지수이다. 센서들이 정상적으로 동작하고 있는지를 품질 관리의 항목으로 모니터링 하게 된다.
추세 유사성 지수(Trend Similarity Indicator)에 대해 설명하면, 동일한/비슷한 대상을 측정하는 센서들의 경우 데이터 변화의 추세가 서로 비슷한 성향을 가지고 있다. 여기에서는 추세 값 자체의 유사성을 측정하는 경우 뿐 아니라 추세가 변화되는 정도의 유사성을 측정하여 이를 품질 관리의 항목으로 모니터링 하게 된다.
시간 정합성 지수(Time Consistency Indicator)는 두 개의 데이터의 수집에 대한 품질 지수이다. 반드시 두 개의 센서는 동일한 시점에 데이터를 측정하고 있음 에도 지연, 오류 또는 누락으로 인해 수집 시간이 일치하지 않는 비율을 측정하여 품질을 관리한다.
구조적 품질 지수(Structural Quality Indicator)는 시간 포맷 이상 지수(Timestamps Format Indicator), 데이터 타입 이상 지수(Not-matched Data Type Indicator) 및 데이터 단위 이상 지수(Not-matched Data Unit Indicator)을 포함할 수 있으며, 이 지수들은 사전 분석 혹은 정의를 통하여 동일한 대상(Things or Object)를 측정하는 데이터 간의 구조적인 표현방법과 관련된 품질을 측정한다.
구조적 품질 지수의 대상은 데이터 값 자체가 아닌, 데이터 통합/활용을 위한 데이터의 메타 정보에 대해서 구조적인 품질을 측정하는 부분으로 단일 품질 지수나 다중 관계 품질 지수처럼 실시간으로 계속해서 품질을 검사하는 것이 아니라 특정 시점에 한번 점검을 하는 특성을 가지고 있다.
시간 포맷 이상 지수(Timestamps Format Indicator)에 대해 설명하면, 여러 센서로부터 나온 데이터를 통합하려고 하면 동일한 시간의 데이터를 통합하여야 한다. 이 때 각 센서 데이터의 측정 시간의 포맷이 다른 경우 예를 들면, A 센서는 'YYYY/MM/DD hh:mm:ss'의 시간 포맷을 가지고 있고, B 센서는 'YYYY/MM/DD hh:mm:ss.SSS'의 시간 포맷을 가지고 있는 경우 등을 파악하여 통합/활용의 용이성을 데이터의 구조적 품질로 관리한다.
데이터 타입 이상 지수(Not-matched Data Type Indicator)에 대해 설명하면, 동일한 대상을 측정하는 센서 데이터들 간에 서로 다른 운영환경의 차이에서 발생된 저장된 데이터의 물리적 타입(정밀도)이 다른 경우 예를 들어 동일한 장비, 동일한 센서에서 발생되는 데이터이지만, - 그러므로 물리적으로 발생시키는 데이터의 타입, 정밀도는 동일하지만 - 해당 장비/센서들이 운영되는 환경 등이 달라서 (예를 들어, A장비: 서울, B장비: 부산, C 장비: 광주, A, B, C는 동일 제품) 실제 데이터가 저장되는 타입, 정밀도가 다르게 저장하는 경우 (예를 들어. A 장비의 ABC 센서: 문자, B 장비의 ABC 센서: 실수(10.5), C장비의 ABC센서: 정수로 저장)에 이들 데이터를 통합하고 활용 하고자 할 때 데이터의 타입/정밀도 문제가 발생하게 되므로 이러한 부분들을 데이터의 구조적 품질로 관리한다.
데이터 단위 이상 지수(Not-matched Data Unit Indicator)에 대해 설명하면, 동일한 관측 대상(예, 풍속)을 측정하는데 물리적인 센서의 종류가 달라서 발생하는 측정 단위(예, A 센서 : m/s (초당 미터), B 센서 : mph(시간당 마일))의 불일치로 데이터 통합 및 활용에 문제가 발생하게 되므로 이 부분을 데이터의 구조적 품질로 관리한다.
도 4는 실시간 데이터 품질 지수에 대한 일 예시도를 나타낸 것으로, 단일 품질 지수의 일부와 다중 관계 품질 지수의 일부를 포함하는 실시간 데이터 품질 지수를 나타낸 것이다.
도 4에 도시된 바와 같이, 데이터 품질 지수(data quality indicators)는 68.33의 균일 빈도 지수(Uniform Frequency Indicator), 86.67의 결측 시간 지수(Empty Time Indicator), 100의 값의 변동 지수(Value Fluctuation Indicator), 63.2의 충분 데이터 지수(Enough Volume Indicator), 100의 이상 데이터 지수(Outlier Indicator) 및 좋음(good)의 데이터 갱신 지수(Data Update Indicator)를 포함하는 단일 품질 지수와 98.8%의 상호 규칙 지수(Interactive Rule Indicator)를 포함하는 다중 관계 품질 지수로 이루어진 것을 알 수 있다.
데이터 품질 측정부(15)는 스트림 데이터 프로파일링부(6), 업무 규칙부(7), 스트림 데이터 오류 원인 추정부(8), 데이터 품질 종합 진단부(9) 및 데이터 품질 이상 알림부(10)를 포함하며, 데이터 품질 기준 관리부(14)에 의해 설정된 정보 예를 들어, 고정 메타데이터에 대한 정보 및 유동 메타데이터에 대한 정보 등이 정의된 상태에서 이러한 정보에 기초하여 IoT 실시간 데이터 수집 장치로부터 수집되어 수신되는 실시간 데이터를 분석하고, 이렇게 분석된 정보를 통해 IoT 장비 센서들 각각에서 발생되는 데이터 품질을 실시간으로 진단한다.
스트림 데이터 프로파일링부(6)에 대해 설명하면, 데이터에 대한 이해와 전반전인 경향을 알기 위해서는 단순한 측정값 만이 아닌 더 다양한 분석 값들이 필요하고 이러한 분석 값들을 통해 데이터 품질 지수를 측정하게 된다. 실시간 데이터에서도 마찬가지로 평균, 카운트, 합계 등의 추가적인 정보를 획득하는 작업을 진행한다. 기존 방법과 다른 점은 반드시 시간에 대한 정보가 포함되어야 한다는 것이다. 앞서 고정 메타 데이터로서 정의된 샘플링의 내용을 기준으로 시간 t 안에서의 데이터의 카운트, 평균, 최소값, 최대값, 합계, 유일데이터 개수, 빈도 분석 등을 수행한다. 또한 실시간 데이터 프로파일링의 경우 빠른 분석 시간도 함께 요구하기 때문에 정해진 시간 안에 분석 시행이 어려울 경우 확률적 데이터 구조(Probabilistic data structures) 방법으로 100% 정확한 값은 아니지만 빠른 분석이 가능하도록 한다. 확률적 데이터 구조 방법에는 유일데이터 추정법인 Hyperlog, 빈도 추정을 위한 Count-Min Sketch, 데이터 포함 여부 확인을 위한 bloom filter 등이 있다.
스트림 데이터 프로파일링부(6)는 상술한 내용에 기초하여 아래 <표 2>에 도시된 실시간 데이터 프로파일링 항목을 프로파일링할 수 있다.
도 5는 실시간 데이터 프로파일링에 대한 일 예시도를 나타낸 것으로, 도 5에 도시된 같이, 스트림 데이터 프로파일링부는 최근 1분에 대한 실시간 데이터 프로파일링을 수행함으로써, 전체 개수(total count) 198, 유일 개수(distinct) 180, 최근 데이터(recent data) 2018-12-18 16:05:45, 시간 차이(GAP) 0h 0m 0s, 최대값(max) 9.81, 최소값(min) 0.06, 평균값(avg) 5.07, 이상치 개수(outlier) 0 및 데이터 값 별 빈도 분석(acquisition status)을 포함하는 것을 알 수 있다.
업무 규칙부(커스텀 분석)(7)에 대해 설명하면, 도메인의 특성 또는 측정 대상의 종류에 따라 정의된 품질 지수 측정 방법 이외의 내용이 필요할 수 있다. 해당 영역을 통해 운영자가 원하는 로직에 맞도록 측정 방법을 설계하고 모니터링 할 수 있도록 한다. 즉, 업무 규칙부는 제품들이 회사마다 특정 룰들을 가질 수 있기 때문에 이러한 특정 룰들을 입력할 수 있는 구성 수단이다.
스트림 데이터 오류 원인 추정부(8)에 대해 설명하면, 품질 측정이 진행 되면서 지수의 저하가 발생 하게 되면 이에 대한 원인을 분석하고 사전에 정의된 증상과 원인 지식 검색을 통해 추정되는 문제점과 해결 방안을 제시한다. 해당 기능은 지속적으로 제안 시스템을 사용하면서 등록된 축적된 경험들을 통해 다양하고 정확한 진단이 가능하다.
데이터 품질 종합 진단부(9)에 대해 설명하면, 측정되는 개별 지수를 기준으로 시스템 전체 또는 부분별 종합 점수를 구성하여 현재의 품질 수준을 모니터링 한다. 개별 지수들은 상위 품질 평가 항목인 정확성(Accuracy), 신뢰성(Confidence), 완전성(Completeness), 일관성(Consistency), 충분성(Sufficiency), 적시성(Timeliness) 등과 맵핑(Mapping)되어 상위 항목 지수를 산출하는 요소로 사용된다. 예컨대, 도 6에 도시된 바와 같이, 정확성은 이상 데이터 지수, 상호 규칙 지수, 값 유사성 지수 및 값의 변도 지수와 맵핑되고, 신뢰성은 이상 데이터 지수, 값의 주기 지수 및 분포 유사성 지수와 맵핑되며, 완전성은 균일 빈도 지수, 결측 시간 지수 및 시간 정합성 지수와 맵핑되고, 일관성은 값의 변동 지수, 시간 정합성 지수, 및 충분 데이터 지수와 맵핑되고 충분성은 충분 데이터 지수와 맵핑되며, 적시성은 시간 정합성 지수 및 데이터 갱신 지수와 맵핑될 수 있다.
나아가, 데이터 품질 종합 진단부(9)는 계산된 상위 항목 지수들을 결합하여 최종 품질 종합 진단 지수를 모니터링 한다. 결국 운영자는 종합 진단 지수를 확인 하면 전반적 품질을 관리 하게 되고, 지수에 문제가 발생하였을 시 하위 항목을 추가 확인함으로써, 원인 센서를 파악하고 그에 대한 해결 방안을 모색 할 수 있다. 또한 이러한 품질 지수들의 과거로부터의 추세(Trend)를 통해 지속적으로 하향 되는 항목에 대해서는 미리 대응 할 수 있도록 한다.
더 나아가, 데이터 품질 종합 진단부(9)는 등록된 IoT 장비 센서들 각각에 대한 위치 정보를 반영하여 최종 품질 종합 진단 지수를 계산할 수도 있으며, 이러한 위치 정보에 대한 반영이 최종 품질 종합 진단 지수를 계산하는데 얼마만큼의 가중치를 적용할지는 본 발명의 기술을 제공하는 사업자에 의해 결정될 수 있다.
데이터 품질 이상 알림부(10)는 측정되는 품질 지수들에 있어서 운영자의 기준에 못 미치는 항목들에 대한 알림 이벤트를 생성하고 연계된 시스템을 통해 운영자에게 내용을 통보 한다. 예를 들어, 데이터 품질 이상 알림부는 상위 항목 지수들 또는 측정된 품질 지수들 각각에 대하여 미리 설정된 기준보다 떨어지는 경우 이에 대한 알림 이벤트를 생성하여 운영자에게 통보할 수도 있고,
여기서, 데이터 품질 이상 알림부(10)는 내부 모니터링 시스템 화면상 출력 뿐만 아니라 이메일(E-mail), 메시지 등을 이용하여 이러한 알림 이벤트 예를 들어, 알림 이벤트에 대응하는 중요한 내용을 운영자에게 제공할 수 있다.
데이터 품질 모니터링부(11)는 데이터 품질 진단부의 데이터 품질 측정부에 의해 측정된 데이터 품질 결과를 모니터링할 수 있도록 측정된 데이터 품질 결과를 화면에 제공한다.
이 때, 데이터 품질 모니터링부(11)는 데이터 품질 측정부(15)에 의해 측정되는 모든 수치 및 지수들을 실시간으로 모니터링 할 수 있도록 화면을 통해 제공할 수 있으며, 사용자 즉, 운영자는 데이터 품질 모니터링부를 통해 데이터 품질의 전반적인 상황표를 시작으로 세부 항목별 지수 확인이 가능하고 품질 저하 시 품질 전하와 관련된 메시지 등을 확인할 수 있다.
예를 들어, 데이터 품질 모니터링부(11)는 도 7에 도시된 바와 같이, 생산 27-B의 장비들에 대해 측정된 품질 결과에 대하여 SGT-48B 장비의 품질 저하와 전체 품질 지수가 97.5라는 것을 화면 상에 제공하고, 생산 20-B3c의 장비들에 대해 측정된 품질 결과에 대하여 SCC6-4B 장비의 이상 감지와 전체 품질 지수가 97.0라는 것을 화면 상에 제공하며, 업무명들을 종합한 종합 품질 지수가 96.5라는 것을 화면 상에 제공하는 것을 알 수 있다.
데이터 레이크(12)는 스트림 데이터 원본과 처리된 스트림 데이터(예를 들어, 비즈니스 활용을 위해 스트림 데이터를 집계 한 데이터, 데이터 품질 측정 결과, 품질을 위한 분석 결과 등)를 저장하는 것 뿐만 아니라 스트림 데이터를 생성시키는 장비의 메타 데이터(Device or Static Metadata), 스트림 데이터의 품질을 판단/분석 하기 위한 관측용 메타데이터(Observed or Dynamic Metadata)를 저장한다. 또한 데이터 레이크는 기존 비즈니스 업무 처리를 위한 모든 일반 데이터가 저장할 수 있다. 즉, 일반 데이터는 데이터 레이크에 저장되는 모든 데이터를 의미한다.
데이터 레이크(12)는 고정 메타데이터 항목 검색부, 유동 메타데이터 기준 자동 생성부 및 유동 메타데이터 기준 자동 변경부를 포함한다.
고정 메타데이터 항목 검색부는 1회 발생하며, 센서 데이터 하나가 들어오면 이것에 대한 기준을 잡아주는 구성 수단으로, 업무 데이터의 분석을 통해 기준치를 자동으로 검색하여 고정 메타데이터에 자동으로 넣어준다.
유동 메타데이터 기준 자동 생성부는 업무 데이터의 분석과 기존에 있던 데이터를 이용하여 유동 메타데이터의 기준 값들을 자동으로 생성한다.
유동 메타데이터 기준 자동 변경부는 유동 메타데이터 기준 자동 생성부에 의해 생성된 기준 값을 이용하여 유동 메타데이터의 기준 값들을 자동으로 변경한다.
또한, 운영자에 의해 정의된 고정 메타 데이터와 쌓여진 데이터를 분석해 구성된 동적 메타 데이터는 고정 메타데이터 항목 검색부에 의해 모니터링 시 최초 처리 장치에 의해서 검색 및 적용되고 수정 사항 발생시 내용이 갱신된다. 동적 메타의 경우 유동 메타데이터 기준 자동 생성부에서 주기적으로 마지막 분석시 만들어진 알고리즘 모형에 그 이후에 생성된 데이터를 추가하여 기존 모형을 업데이트 하고 (온라인 러닝 기법, Online Learning) 이를 이용하여 새로운 기준 데이터를 생성하고 유동 메타데이터 기준 자동 변경부에 의해 이를 품질 지수 모니터링에 반영한다.
이와 같이, 본 발명의 실시예에 따른 시스템은 사물 인터넷에서 발생하는 실시간 데이터에 대한 품질을 진단하고 이를 관리할 수 있다.
즉, 본 발명의 실시예에 따른 시스템은 인터넷에서 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 진단하기 위한 데이터 품질 지수들을 정의하고, 정의된 품질 지수들과 미리 정의된 고정 메타데이터, 유동 메타데이터의 정보를 이용하여 사물 인터넷에서 발생하는 실시간 데이터의 품질을 진단하고, 이를 통해 사물 인터넷을 용이하게 관리할 수 있다.
종래 기술들은 DBMS 또는 저장된 Tabular 데이터(파일 등도 포함)를 대상으로 품질을 측정하고 관리하는 것이지만, 본 발명의 시스템은 IoT 또는 센서 데이터를 대상으로 하는 것에 차이가 있으며, IoT 또는 센서 데이터인 스트림 데이터의 주요 특징 중 첫 번째는 끝이 없이 계속 데이터가 흘러 들어 오기 때문에 데이터를 이용할 때 전체라는 개념이 없으며, 따라서 데이터를 한번만 분석하고 보내야(또는 버려야) 하며, 그 한번 데이터를 보는 단위를 윈도우(Window) 단위라 한다. 즉, 본 발명의 시스템은 스트림 데이터 처리의 기본인 윈도우 단위로 데이터를 처리하는 것인 반면, 기존의 DBMS는 전체 데이터를 기반으로 한다.
본 발명의 두 번째 주요 특징은 데이터가 시간 순으로 순서를 가지고 들어오기 때문에 모든 스트림 데이터에는 시간 혹은 순서 태그를 기본적으로 가지고 있으며, 따라서, 모든 데이터는 순서를 기반으로 하는 활용 및 분석될 수 있다.
본 발명의 세 번째 주요 특징은 빠르게 그리고 많은 데이터가 생성된다는 것으로, DBMS 데이터는 사람이 만드는 데이터인 반면, IoT 또는 센서 데이터는 기계가 만드는 데이터를 기본으로 하기 때문에 생성되는 데이터량이 어마어마하게 크며, 빠르게 생성되고 빠르게 사라진다. 즉, 활용 및 분석의 속도가 빨라야 한다.
그리고, 데이터 품질 관점에서 기존 DBMS의 데이터 품질 기준은 사람의 오류에 의해서 생성되는 오류를 측정한 반면, 본 발명에서의 IoT 또는 센서 데이터 품질의 관점은 기계가 생성하는 오류를 어떻게 측정할 것이냐는 것으로, 스트림 데이터의 특징 때문에 스트림 데이터 품질 점검 또한 자동화하는 것이다.
도 8은 본 발명의 일 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법에 대한 동작 흐름도를 나타낸 것으로, 도 1 내지 도 7에서 설명한 시스템에서의 동작 흐름도를 나타낸 것이다.
도 8을 참조하면, 본 발명의 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 미리 등록된 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 지수화하는 복수의 품질 지수들을 관리하는 단계(S810), 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 단계(S820), 수신된 스트림 데이터에 대하여 복수의 품질 지수들 각각을 측정하는 단계(S830), 측정된 복수의 품질 지수들에 기초하여 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 단계(S840) 및 최종 품질 진단 기수에 기초한 품질 결과를 모니터링할 수 있도록 품질 결과를 화면 상에 제공하는 단계(S850)를 포함한다.
여기서, 단계 S830은 상기 고정 메타데이터에 기초하여 미리 설정된 시간 t안에서의 전체 데이터 개수, 유일 데이터 건수, 가장 최근 수집된 데이터, 최근 데이터와 바로 이전 데이터 사이의 시간 차이, 최대값, 최소값, 평균값, 분산, 이상치 개수 및 데이터 값 별 빈도를 포함하는 데이터 특성을 파악할 수 있는 항목들로 프로파일링하여 상기 복수의 품질 지수들 각각을 측정할 수 있다.
여기서, 단계 S840은 상기 측정된 복수의 품질 지수들 각각과 매핑된 품질 평가 항목들을 상기 측정된 복수의 품질 지수들을 이용하여 계산하고, 상기 계산된 품질 평가 항목들을 이용하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산할 수 있다.
나아가, 본 발명의 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 데이터의 수집에 관한 정보 및 분석 기준 정보를 포함하는 고정 메타 데이터를 관리하는 단계; 유동 메타데이터를 관리하는 단계; 및 상기 사물 인터넷 장비 센서의 작업 국면들에 대한 전환을 관리하는 단계를 더 포함하고, 단계 S830은 상기 관리하는 단계들에 의해 설정된 정보를 이용하여 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정할 수 있다.
더 나아가, 본 발명의 실시예에 따른 사물 인터넷 실시간 데이터 품질 관리 방법은 상기 측정된 품질 지수들 각각 또는 상기 측정된 품질 지수들 각각을 이용하여 계산된 미리 설정된 품질 평가 항목들 각각이 미리 설정된 기준보다 떨어지는 경우 알람 이벤트를 생성하는 단계를 더 포함할 수 있다.
비록, 도 8의 방법에서 그 설명이 생략되었더라도, 도 8를 구성하는 각 단계는 도 1 내지 도 7에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (14)
- 미리 등록된 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 지수화하는 복수의 품질 지수들을 관리하는 데이터 품질 기준 관리부; 및
상기 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하고, 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하며, 상기 측정된 복수의 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 데이터 품질 측정부
를 포함하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 제1항에 있어서,
상기 데이터 품질 측정부는
상기 측정된 복수의 품질 지수들 각각과 매핑된 품질 평가 항목들을 상기 측정된 복수의 품질 지수들을 이용하여 계산하고, 상기 계산된 품질 평가 항목들을 이용하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 제1항에 있어서,
상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수에 기초한 품질 결과를 모니터링할 수 있도록, 상기 품질 결과를 화면 상에 제공하는 데이터 품질 모니터링부
를 더 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 제1항에 있어서,
상기 데이터 품질 기준 관리부는
데이터의 수집에 관한 정보 및 분석 기준 정보를 포함하는 고정 메타 데이터를 관리하는 고정 메타데이터 관리부;
유동 메타데이터를 관리하는 유동 메타데이터 관리부;
상기 사물 인터넷 장비 센서의 작업 국면들에 대한 전환을 관리하는 국면 전환 관리부; 및
상기 복수의 품질 지수들을 관리하는 데이터 품질 지수 관리부
를 포함하며,
상기 데이터 품질 측정부는
상기 데이터 품질 기준 관리부에 의해 설정된 정보를 이용하여 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 제4항에 있어서,
상기 데이터 품질 측정부는
상기 고정 메타데이터 관리부에 의해 설정된 정보에 기초하여 미리 설정된 시간 t안에서의 전체 데이터 개수, 유일 데이터 건수, 가장 최근 수집된 데이터, 최근 데이터와 바로 이전 데이터 사이의 시간 차이, 최대값, 최소값, 평균값, 분산, 이상치 개수 및 데이터 값 별 빈도를 포함하는 데이터 특성을 파악할 수 있는 항목들로 프로파일링하여 상기 복수의 품질 지수들 각각을 측정하는 스트림 데이터 프로파일링부; 및
상기 측정된 복수의 품질 지수들 각각에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 데이터 품질 종합 진단부
를 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 제5항에 있어서,
상기 데이터 품질 측정부는
상기 측정된 품질 지수들 각각 또는 상기 측정된 품질 지수들 각각을 이용하여 계산된 미리 설정된 품질 평가 항목들 각각이 미리 설정된 기준보다 떨어지는 경우 알람 이벤트를 생성하는 데이터 품질 이상 알림부
를 더 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 제1항에 있어서,
상기 복수의 품질 지수들은
균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 값의 변동 지수(Value Fluctuation Indicator), 값의 주기 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 이상 데이터 지수(Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator), 시간 값 이상 지수(Wrong Timestamp Indicator) 및 위치 이상 지수(Abnormal Spatial Indicator)를 포함하는 하나의 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator), 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 정합성 지수(Time Consistency Indicator)를 포함하는 두 개의 데이터간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multi Signals Quality Indicator) 및 시간 포맷 이상 지수(Timestamps Format Indicator), 데이터 타입 이상 지수(Not-matched Data Type Indicator) 및 데이터 단위 이상 지수(Not-matched Data Unit Indicator)을 포함하는 데이터의 구조적 품질 지수(Structural Quality Indicator)를 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 시스템.
- 미리 등록된 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 실시간 데이터인 스트림 데이터에 대한 품질을 지수화하는 복수의 품질 지수들을 관리하는 단계;
상기 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 단계;
상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하는 단계; 및
상기 측정된 복수의 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 단계
를 포함하는 사물 인터넷 실시간 데이터 품질 관리 방법.
- 제8항에 있어서,
상기 최종 품질 진단 지수를 계산하는 단계는
상기 측정된 복수의 품질 지수들 각각과 매핑된 품질 평가 항목들을 상기 측정된 복수의 품질 지수들을 이용하여 계산하고, 상기 계산된 품질 평가 항목들을 이용하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수를 계산하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 방법.
- 제8항에 있어서,
상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 최종 품질 진단 지수에 기초한 품질 결과를 모니터링할 수 있도록, 상기 품질 결과를 화면 상에 제공하는 단계
를 더 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 방법.
- 제8항에 있어서,
데이터의 수집에 관한 정보 및 분석 기준 정보를 포함하는 고정 메타 데이터를 관리하는 단계;
유동 메타데이터를 관리하는 단계; 및
상기 사물 인터넷 장비 센서의 작업 국면들에 대한 전환을 관리하는 단계
를 더 포함하고,
상기 복수의 품질 지수들 각각을 측정하는 단계는
상기 관리하는 단계들에 의해 설정된 정보를 이용하여 상기 수신된 스트림 데이터에 대하여 상기 복수의 품질 지수들 각각을 측정하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 방법.
- 제11항에 있어서,
상기 복수의 품질 지수들 각각을 측정하는 단계는
상기 고정 메타데이터에 기초하여 미리 설정된 시간 t안에서의 전체 데이터 개수, 유일 데이터 건수, 가장 최근 수집된 데이터, 최근 데이터와 바로 이전 데이터 사이의 시간 차이, 최대값, 최소값, 평균값, 분산, 이상치 개수 및 데이터 값 별 빈도를 포함하는 데이터 특성을 파악할 수 있는 항목들로 프로파일링하여 상기 복수의 품질 지수들 각각을 측정하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 방법.
- 제8항에 있어서,
상기 측정된 품질 지수들 각각 또는 상기 측정된 품질 지수들 각각을 이용하여 계산된 미리 설정된 품질 평가 항목들 각각이 미리 설정된 기준보다 떨어지는 경우 알람 이벤트를 생성하는 단계
를 더 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 방법.
- 제8항에 있어서,
상기 복수의 품질 지수들은
균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 값의 변동 지수(Value Fluctuation Indicator), 값의 주기 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 이상 데이터 지수(Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator), 시간 값 이상 지수(Wrong Timestamp Indicator) 및 위치 이상 지수(Abnormal Spatial Indicator)를 포함하는 하나의 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator), 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 정합성 지수(Time Consistency Indicator)를 포함하는 두 개의 데이터간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multi Signals Quality Indicator) 및 시간 포맷 이상 지수(Timestamps Format Indicator), 데이터 타입 이상 지수(Not-matched Data Type Indicator) 및 데이터 단위 이상 지수(Not-matched Data Unit Indicator)을 포함하는 데이터의 구조적 품질 지수(Structural Quality Indicator)를 포함하는 것을 특징으로 하는 사물 인터넷 실시간 데이터 품질 관리 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190021637A KR102184892B1 (ko) | 2019-02-25 | 2019-02-25 | 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190021637A KR102184892B1 (ko) | 2019-02-25 | 2019-02-25 | 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200106106A true KR20200106106A (ko) | 2020-09-11 |
KR102184892B1 KR102184892B1 (ko) | 2020-12-01 |
Family
ID=72472683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190021637A KR102184892B1 (ko) | 2019-02-25 | 2019-02-25 | 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102184892B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220075791A (ko) * | 2020-11-30 | 2022-06-08 | 주식회사 쉬프트베리 | 네트워크 제어 서버 및 방법 |
KR102498062B1 (ko) * | 2022-08-03 | 2023-02-10 | 주식회사 티유컨설팅 | 메타데이터 관리 시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101746646B1 (ko) * | 2016-05-09 | 2017-06-13 | 숭실대학교산학협력단 | 사물인터넷 어플리케이션의 사용 중 품질 관리 방법, 이를 수행하기 위한 기록매체 및 장치 |
KR20170141928A (ko) * | 2016-06-16 | 2017-12-27 | 삼성에스디에스 주식회사 | 데이터 플랫폼에 기반한 IoT 서비스 제공 방법 및 그 장치 |
-
2019
- 2019-02-25 KR KR1020190021637A patent/KR102184892B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101746646B1 (ko) * | 2016-05-09 | 2017-06-13 | 숭실대학교산학협력단 | 사물인터넷 어플리케이션의 사용 중 품질 관리 방법, 이를 수행하기 위한 기록매체 및 장치 |
KR20170141928A (ko) * | 2016-06-16 | 2017-12-27 | 삼성에스디에스 주식회사 | 데이터 플랫폼에 기반한 IoT 서비스 제공 방법 및 그 장치 |
Non-Patent Citations (1)
Title |
---|
IoT 기반 SW 품질평가 모델(정수인 et al, 한국정보통신학회논문지, 2017년7월) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220075791A (ko) * | 2020-11-30 | 2022-06-08 | 주식회사 쉬프트베리 | 네트워크 제어 서버 및 방법 |
KR102498062B1 (ko) * | 2022-08-03 | 2023-02-10 | 주식회사 티유컨설팅 | 메타데이터 관리 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR102184892B1 (ko) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5546686B2 (ja) | 監視システム、及び監視方法 | |
US9389946B2 (en) | Operation management apparatus, operation management method, and program | |
US8635498B2 (en) | Performance analysis of applications | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
JP2019179395A (ja) | 異常検知システム、サポート装置および異常検知方法 | |
CN107086944A (zh) | 一种异常检测方法和装置 | |
US20180095454A1 (en) | Pre-processor and diagnosis device | |
US20150378805A1 (en) | Management system and method for supporting analysis of event root cause | |
EP1983437A1 (en) | Determining of data quality in data streams | |
KR102059112B1 (ko) | 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템 | |
CN110601900A (zh) | 一种网络故障预警方法及装置 | |
US7788280B2 (en) | Method for visualisation of status data in an electronic system | |
KR102184892B1 (ko) | 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법 | |
CN103595416A (zh) | 压缩生产数据流并以不同标准过滤压缩数据的系统和方法 | |
US9007208B2 (en) | Self-configuring system for real-time health monitoring of manufacturing equipment | |
CN114365094A (zh) | 使用倒排索引的时序异常检测 | |
JPWO2012153400A1 (ja) | データ処理システム、データ処理方法、及び、プログラム | |
JP2015194797A (ja) | 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置 | |
JP6915693B2 (ja) | システム分析方法、システム分析装置、および、プログラム | |
CN106652393A (zh) | 假警报确定方法及装置 | |
Burnaev | On construction of early warning systems for predictive maintenance in aerospace industry | |
Hu et al. | TS-InvarNet: Anomaly detection and localization based on tempo-spatial KPI invariants in distributed services | |
KR101977214B1 (ko) | 이상치 탐지 방법, 이를 이용하는 장치 및 시스템 | |
Ding et al. | A data analytic engine towards self-management of cyber-physical systems | |
JP7077644B2 (ja) | 制御システム、診断装置、診断方法、および診断プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |