KR102059112B1 - 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템 - Google Patents

사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템 Download PDF

Info

Publication number
KR102059112B1
KR102059112B1 KR1020190102059A KR20190102059A KR102059112B1 KR 102059112 B1 KR102059112 B1 KR 102059112B1 KR 1020190102059 A KR1020190102059 A KR 1020190102059A KR 20190102059 A KR20190102059 A KR 20190102059A KR 102059112 B1 KR102059112 B1 KR 102059112B1
Authority
KR
South Korea
Prior art keywords
quality
data
indicator
index
stream data
Prior art date
Application number
KR1020190102059A
Other languages
English (en)
Inventor
이동우
이상엽
Original Assignee
지티원 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지티원 주식회사 filed Critical 지티원 주식회사
Priority to KR1020190102059A priority Critical patent/KR102059112B1/ko
Application granted granted Critical
Publication of KR102059112B1 publication Critical patent/KR102059112B1/ko
Priority to US16/864,280 priority patent/US11265232B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/10Detection; Monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/065Generation of reports related to network devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Environmental & Geological Engineering (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템이 개시된다. 본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 방법은 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 단계; 상기 수신된 스트림 데이터에 대하여 미리 설정된 품질 지수들을 계산하는 단계; 및 상기 계산된 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하는 단계를 포함하며, 상기 품질 지수들은 단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator)와 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multiple Signals Quality Indicator)를 포함할 수 있다.

Description

사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템 {IoT STREAM DATA QUALITY MEASUREMENT INDICATORS AND PROFILING METHOD FOR INTERNET OF THINGS AND SYSTEM THEREFORE}
본 발명은 사물 인터넷(IoT; Internet of Things) 스트림 데이터의 품질 측정 지표와 프로파일링 기술에 관한 것으로, 보다 구체적으로는 IoT 스트림 데이터 품질을 측정하기 위한 품질 지수들을 정의하고, 정의된 품질 지수들을 이용하여 IoT 스트림 데이터 품질을 실시간으로 측정할 수 있는 방법 및 그 시스템에 관한 것이다.
4차 산업 혁명 시대에 돌입하면서 기존의 사람이 담당했던 일들이 기계에 의해 대체 되고 있다. 이를 위해서는 IoT(Internet of Things), 즉 기계와 기계가 서로 네트워크에 연결되고 데이터를 주고 받는 환경이 필요하게 되었고 이미 다양한 분야에서 자리잡고 있다. 장비의 센서는 실시간으로 데이터를 생산하고 있으며 그것들을 모니터링 하고 컨트롤 하는 시스템들도 각 산업 분야에서 활용 되고 있다. IoT 모니터링 시스템은 연결된 단일 센서의 데이터 값에 대한 결함을 체크하고 이를 근거로 현재의 상황에 대한 판단을 결정하기 위한 기능들로 구성되어 있다. 실시간으로 장비 또는 네트워크 등을 진단하고 문제를 결정, 개선하는 아주 중요한 작업이고 도메인에 대한 많은 경험과 지식이 필요한 일이다.
현재 IoT 산업은 위와 같은 시스템을 도입하여 데이터를 생산하고 수집, 조금 더 나아가 진단하는 수준에 도달했다. 산업의 성숙도는 점점 높아져 가고 있으며 회사는 IoT 데이터를 활용하기 위한 데이터의 통합 및 분석을 수행하게 된다. 데이터의 통합 및 분석 작업을 위한 데이터의 품질은 기존 단일 시스템 혹은 데이터의 품질과는 다른 관점으로 바라 보아야 한다. 특히 IoT 데이터의 특성인 시간 정보가 포함되어 있고 끝이 없이 생성되어 흘러가는 데이터에 대한 품질 측정 방법들이 논의 되어야 하고 기준을 마련해야 한다.
따라서, IoT 스트림 데이터 품질을 측정하기 위한 품질 지수들을 정의하고, 정의된 품질 지수들을 이용하여 IoT 스트림 데이터 품질을 실시간으로 측정할 수 있는 방법의 필요성이 대두된다.
본 발명의 실시예들은, IoT 스트림 데이터 품질을 측정하기 위한 품질 지수들을 정의하고, 정의된 품질 지수들을 이용하여 IoT 스트림 데이터 품질을 실시간으로 측정할 수 있는 방법 및 그 시스템을 제공한다.
본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 방법은 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 단계; 상기 수신된 스트림 데이터에 대하여 미리 설정된 품질 지수들을 계산하는 단계; 및 상기 계산된 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하는 단계를 포함한다.
상기 품질 지수들은 단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator)와 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multiple Signals Quality Indicator)를 포함할 수 있다.
상기 단일 품질 지수는 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 변동 지속 지수(Flat Value Indicator), 값 패턴 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 범위 이상 지수(Out of Range Outlier Indicator), 통계적 범위 이상 지수(Statistical Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator) 및 시간 값 이상 지수(Wrong Timestamp Indicator)를 포함하고, 상기 다중 관계 품질 지수는 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 동기성 지수(Time Synchronicity Indicator)를 포함할 수 있다.
상기 품질을 측정하는 단계는 상기 계산된 품질 지수들 각각을 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 품질을 측정하는 단계는 상기 계산된 품질 지수들 각각에 상기 품질 지수들 각각에 대하여 미리 설정된 가중치를 곱한 후 상기 가중치가 곱해진 품질 지수들을 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 품질을 측정하는 단계는 상기 계산된 품질 지수들을 데이터 품질 특성(Data Quality Characteristics) 별로 그룹을 나누고, 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 품질을 측정하는 단계는 상기 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각에 대하여 미리 설정된 1차 가중치를 곱한 후 상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 품질을 측정하는 단계는 상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수에 상기 데이터 품질 특성 그룹 별 각각에 대하여 미리 설정된 2차 가중치를 곱한 후 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 시스템은 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 수신부; 상기 수신된 스트림 데이터에 대하여 미리 설정된 품질 지수들을 계산하는 계산부; 및 상기 계산된 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하는 측정부를 포함한다.
상기 품질 지수들은 단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator)와 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multiple Signals Quality Indicator)를 포함할 수 있다.
상기 단일 품질 지수는 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 변동 지속 지수(Flat Value Indicator), 값 패턴 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 범위 이상 지수(Out of Range Outlier Indicator), 통계적 범위 이상 지수(Statistical Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator) 및 시간 값 이상 지수(Wrong Timestamp Indicator)를 포함하고, 상기 다중 관계 품질 지수는 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 동기성 지수(Time Synchronicity Indicator)를 포함할 수 있다.
상기 측정부는 상기 계산된 품질 지수들 각각을 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 측정부는 상기 계산된 품질 지수들 각각에 상기 품질 지수들 각각에 대하여 미리 설정된 가중치를 곱한 후 상기 가중치가 곱해진 품질 지수들을 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 측정부는 상기 계산된 품질 지수들을 데이터 품질 특성(Data Quality Characteristics) 별로 그룹을 나누고, 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 측정부는 상기 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각에 대하여 미리 설정된 1차 가중치를 곱한 후 상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
상기 측정부는 상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수에 상기 데이터 품질 특성 그룹 별 각각에 대하여 미리 설정된 2차 가중치를 곱한 후 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
본 발명의 실시예들에 따르면, IoT 스트림 데이터 품질을 측정하기 위한 품질 지수들을 정의하고, 정의된 품질 지수들을 이용하여 IoT 스트림 데이터 품질을 실시간으로 측정할 수 있다.
도 1은 본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 시간 기반 데이터에 대한 일 예시도를 나타낸 것이다.
도 3은 이벤트 기반 데이터에 대한 일 예시도를 나타낸 것이다.
도 4는 윈도우 기반 동작을 설명하기 위한 일 예시도를 나타낸 것이다.
도 5는 슬라이딩 지속시간을 설명하기 위한 일 예시도를 나타낸 것이다.
도 6은 센서의 통합 데이터 품질을 측정하는 일 실시예의 방법을 설명하기 위한 예시도를 나타낸 것이다.
도 7은 센서의 통합 데이터 품질 수준을 계산하는 다른 일 실시예의 방법을 설명하기 위한 예시도를 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 시스템에 대한 구성을 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상 의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명의 실시예들은, IoT 스트림 데이터 품질을 측정하기 위한 품질 지수들(또는 품질 지표들)(Quality Indicator)을 정의하고, 정의된 품질 지수들을 이용하여 IoT 스트림 데이터 품질을 실시간으로 측정하는 것을 그 요지로 한다.
여기서, 본 발명은 단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(SSQI; Single Signal Quality Indicator)와 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(MSQI; Multiple Signals Quality Indicator)를 정의하고, 정의된 SSQI에 포함되는 지수들과 MSQI에 포함되는 지수들을 계산함으로써, IoT 스트림 데이터 품질을 측정할 수 있다.
나아가, 본 발명은 계산된 지수들을 이용하여 IoT 스트림 데이터 품질을 측정하는데 있어서, 계산된 지수들을 통합하는 방법을 이용할 수도 있고, 유수한 데이터 품질 특성별로 그룹을 지어 해당 데이터 품질 특성에 대한 점수를 산출한 후 이를 통합하는 방법을 이용할 수도 있다.
이러한 본 발명에 대해 도 1 내지 도 8을 참조하여 설명하면 다음과 같다.
도 1은 본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 방법에 대한 동작 흐름도를 나타낸 것이다.
도 1을 참조하면, 본 발명의 실시예에 따른 IoT 스트림 데이터 품질 측정 방법은 적어도 하나 이상의 IoT 장비 센서로부터 발생하는 스트림 데이터를 수신한다(S110).
단계 S110을 통해 적어도 하나 이상의 IoT 장비 센서로부터 스트림 데이터가 수신되면, 수신된 IoT 장비 센서의 스트림 데이터에 대하여 미리 설정된 품질 지수들 예를 들어, 단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(SSQI)에 포함된 품질 지수들과 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(MSQI)에 포함된 품질 지수들을 계산한다(S120).
여기서, SSQI는 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 변동 지속 지수(Flat Value Indicator), 값 패턴 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 범위 이상 지수(Out of Range Outlier Indicator), 통계적 범위 이상 지수(Statistical Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator) 및 시간 값 이상 지수(Wrong Timestamp Indicator)를 포함하고, MSQI는 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 동기성 지수(Time Synchronicity Indicator)를 포함할 수 있다.
물론, 본 발명은 SSQI와 MSQI를 기준으로 스트림 데이터 품질 평가를 할 수 있는 기준이 고정 메타(device or static metadata) 및 유동 메타(observed or dynamic metadata)에 이미 정의되어 있다고 가정한다.
단계 S120에 의해 품질 지수들 각각에 대하여 계산되면, 계산된 품질 지수들 각각에 기초하여 IoT 장비 센서의 스트림 데이터에 대한 품질을 측정한다(S130).
여기서, 단계 S130은 여러 가지 방식을 이용하여 IoT 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
일 예로, 단계 S130은 단계 S120에서 계산된 품질 지수들 각각을 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다. 이 때, 단계 S130은 계산된 품질 지수들 각각에 품질 지수들 각각에 대하여 미리 설정된 가중치를 곱한 후 가중치가 곱해진 품질 지수들을 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
다른 일 예로, 단계 S130은 단계 S120에서 계산된 품질 지수들을 미리 설정된 유수한 데이터 품질 특성(Data Quality Characteristics) 별로 그룹을 나누고, 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다. 이 때, 단계 S130은 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각에 대하여 미리 설정된 1차 가중치를 곱한 후 1차 가중치가 곱해진 품질 지수들을 이용하여 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다. 나아가, 단계 S130은 1차 가중치가 곱해진 품질 지수들을 이용하여 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 산출된 데이터 품질 특성 그룹 별 각각의 점수에 데이터 품질 특성 그룹 별 각각에 대하여 미리 설정된 2차 가중치를 곱한 후 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질을 측정할 수 있다.
이러한 본 발명에 따른 방법에 대해 도 2 내지 도 7을 이용하여 상세히 설명하면 다음과 같다.
본 발명의 실시예에 따른 방법은 센서 데이터 품질 측정을 위한 기본 정보에 대해 설명하면, IoT 장비 센서로 부터 생성된 데이터는 데이터가 생성된 시간 인덱스(index)와 항상 같이 취급하며, 끊임없이 연속적으로 데이터 품질을 측정하기 위한 수단 예를 들어, 품질 측정 모듈로 생성된 데이터가 들어오는 특징이 있을 수 있다. 또한, 품질 측정 모듈은 센서(Sensor or Device)의 메타 정보를 가지고 있을 수 있으며, 기존 정보로 제조사명(또는 제조사 ID), 센서이름(또는 센서 ID) 및 센서설명을 포함할 수 있고, 측정 정보로 측정 데이터 종류(예를 들어, 풍속, 온도, 습도 등), 측정 데이터 단위(예를 들어, ℃, m/h 등), 스트림 데이터 타입(예를 들어, 시간 기반 데이터 또는 이벤트 기반 데이터), 품질 표준 값(예를 들어, 센서의 품질의 good or not 판단 기준으로 0~1 사이의 실수), 1회 데이터 품질 측정을 위해 사용되는 데이터의 크기인 윈도우 크기, 하나의 윈도우를 분석하기 위해 세부 단위로 나누어 놓은 데이터의 크기인 측정 단위 크기, 데이터 품질을 다시 측정하는 주기인 슬라이딩 지속시간(sliding duration time)을 포함할 수 있다.
IoT 장비 센서의 스트림 데이터 품질을 측정하기 위해서, 스트림 데이터 타입, 윈도우 기반 동작 및 슬라이딩 지속 시간을 고려해야 한다.
데이터 스트림 타입은 품질 측정을 위해서 높은 중요도를 차지한다. 여기서, 정의된 스트림 데이터 타입에 따라 품질 지수의 종류나 분석 방법, 기준 값 설정 등의 차이가 발생 하기에 수집되는 스트림 데이터에 대한 타입 관리를 수행할 수 있다.
시간 기반(Time Driven) 데이터는 도 2에 도시된 바와 같이 정해진 특정 시간에 따라 데이터가 주기적으로 수집되는 타입의 데이터를 의미한다. 일반적으로 실제 장비로부터 생성된 시그널(아날로그)은 센서 시그널이 연속적이거나 임의 사건(Event Driven)이 발생하였을 때 데이터 시그널이 발생하는 등과 같이 주기성을 가질 수 없지만, 이를 디지털 데이터로 처리하기 위해서는 이런 시그널을 이산적으로 만들어야 한다. 이 때, 주기적으로 데이터를 처리하는 경우에 의해 '시간 기반 데이터'가 생성될 수 있다. 때때로는 발생된 모든 시그널을 전부 데이터화 하지 않으며, 일정한 짧은 시간 주기(예를 들어, 0.001 초, 0.1 초, 1 초 등)로 데이터를 집계하는 경우도 시간 기반 데이터에 포함될 수 있다. 이러한 시간 기반 데이터는 데이터 수집에 대한 품질 기준 설정이 용이하다.
이벤트 기반(Event-Driven) 데이터는 도 3에 도시된 바와 같이 장비에서 생성된 시그널을 주기적으로 수집(데이터화)하는 것이 아니라 어떠한 특정 이벤트가 발생하거나 시그널 값의 변화가 발생 했을 때 수집(데이터화)하는 형태의 데이터를 의미할 수 있다. 이러한 이벤트 기반 데이터는 데이터 생성 주기 등의 규칙이 없이 특정 조건이 만족될 때 데이터가 생성되기 때문에 품질 기준 설정이 어렵다.
IoT에서 발생하는 스트림 데이터는 도 4에 도시된 바와 같이, 항상 시간에 대한 순서대로 데이터가 발생된다. 그렇기 때문에 데이터 품질 측정을 하고자 할 때는 품질 측정 구간, 윈도우(Window)라는 단위를 기준으로 품질을 측정한다. 이러한 데이터 품질 측정 구간은 최소 단위의 품질 측정 단위(Measure Unit)로 구성되어 있으며 매 측정 단위 시간마다 품질을 위한 계산을 한다. 그리고, 하나의 윈도우 데이터 품질 측정 결과는 각 품질 측정 단위의 계산 결과를 합하여 평가한다. 빠르게 품질을 측정하기 위해서는 짧은 단위 데이터 묶음의 특성 값을 추출해 놓아야 하며, 기준은 데이터 발생/수집 량에 따라 다를 수 있다. 스트림 데이터 품질 평가는 일정 시간 이상의 데이터를 대상으로 품질을 평가할 수 있으며, 너무 짧은 단위의 데이터를 이용해서 센서 데이터 품질을 평가하기에는 평가의 결과가 너무 쉽게 변화할 수 있다. 품질 평가 결과는 데이터 값의 변화처럼 빠르게 바뀌는 것이 아니다. 때때로 장기간의(several or a lot of windows) 데이터 품질 변화를 감지할 필요가 있으며, 이러한 경우가 필요할 때는 업무 룰(Business Rule)로 등록하여 모니터링할 수 있다.
또한 스트림 데이터 품질 측정을 위해서, 도 5에 도시된 바와 같이 반복되는 윈도우의 주기를 슬라이딩 지속 시간(Sliding duration time)으로 정의하고 관리하여야 한다. 이 때, 데이터 품질의 결과를 어떻게 해석할 것인가에 따라 슬라이딩 지속 시간 값을 경험적으로 할당할 수 있다. 예컨대, 도 5에 도시된 바와 같이, 슬라이딩 지속 시간 값은 2개의 시간 크기(2t)로 할당될 수 있다.
스트림 데이터 분석의 특성 상 윈도우 크기(Window size, seconds)의 데이터를 주기적으로 반복(Sliding duration seconds)해서 데이터 품질이 측정되어야 하며, 가장 기본적으로 매번 윈도우 데이터에 대한 기본 프로파일링(Profiling)을 수행한다. 여기서, 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 해당 데이터를 이용하여 기본 데이터 프로파일링을 수행할 수 있다. 매 윈도우 데이터에 대한 데이터 프로파일링 방법에는 Frequecy count, Distinct count, Average, Sum, Min/Max, Recent Time, Trend 등이 있다.
이하, SSQI와 MSQI에 대해 상세히 설명한다.
SSQI는 단일 스트림 데이터에 대한 값 또는 수집 정확도에 대한 데이터 품질 측정 지수로, 주로 절대 진리 값(Ground Truth, 장비 측정 범위 등) 또는 오랜 시간 동일 스트림 데이터를 관찰하여 얻은 값을 기준으로 품질을 측정할 수 있다.
균일 빈도 지수(Uniform Frequency Indicator)(SSQI-01)는 단위 시간 당 데이터가 수집되는 정도를 파악하여 균일하게 수집되고 있는 정도를 측정하는 지수로, 센서에서 생성된 데이터가 균질적으로 발생(수집)되고 있는지를 평가하기 위한 지수이다. 센서에서 생성된 데이터 중에는 데이터 전송 환경(네트워크의 상황, 수집 장비의 부하 등)에 따라 데이터의 누락 혹은 데이터가 늦게 도착하는 경우가 발생하지만 해당 센서 데이터를 활용하고자 하는 시스템에서는 데이터가 안정적으로 수집이 되어야만 데이터를 신뢰하고 사용할 수 있는 상황이 있다. 이러한 상황은 데이터 발생(수집)의 균질성(Uniformity)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 해당 센서에서 기대되는 측정 단위 당 수집(생성)되는 데이터 건수일 수 있으며, 기준 값은 0보다 큰 정수 값일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 해당 윈도우를 미리 설정된 개수의 동일한 크기의 부분 구간으로 나누며, 각 부분 구간에 포함되어 있는 데이터 개수를 구한 후 구해진 각 부분 구간의 데이터 개수가 측정 기준 건수와 동일하게 발생된 부분 단위 건수를 이용하여 균일 빈도 지수를 계산할 수 있다.
결측 시간 지수(Empty Time Indicator)(SSQI-02)는 단위 시간 당 데이터가 수집되지 않고 있는 정도를 측정하는 지수로, 센서에서 생성된 데이터가 일정시간 동안 발생(수집)되지 않는 정도를 평가하기 위한 지수이다. SSQI-01와 같은 상황에서 데이터 충족성을 측정하는 지수로 SSQI-01과 다르게 즉, 기대한 만큼 충분히 수집(생성)된 데이터 구간이 아닌, 기대한 것보다 모자라게 수집된 데이터 구간을 측정하여 데이터를 활용하기에 최소한의 데이터가 수집되었는지(Satisfaction)를 측정하고자 한다. 이러한 상황은 데이터 발생(수집)의 안정성(Stability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 해당 센서에서 측정 단위 당 최소한 수집(생성)되어야 하는 데이터의 기대 건수일 수 있으며, 기준 값은 0보다 큰 정수 값일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 해당 윈도우를 미리 설정된 개수의 동일한 크기의 부분 구간으로 나누며, 각 부분 구간에 포함되어 있는 데이터 개수를 구한 후 구해진 각 부분 구간의 데이터 개수가 측정 기준 건수 이하로 생성된 부분 구간 건수를 이용하여 결측 시간 지수를 계산할 수 있다.
변동 지속 지수(Flat Value Indicator)(SSQI-03)는 일정 시간 동안 데이터 값 변화의 정도를 측정하는 지수로, 센서에서 생성된 데이터가 일정시간 동안 값 변동(Fluctuation)이 없는(작은) 현상을 탐지하기 위한 지수이다. 센서와 센서 데이터를 수집하는 환경에 따라 실제 센서에서는 데이터를 생성하지 않았음에도 불구하고, 센서 데이터 수집기에서 마지막에 수집된 값을 계속해서 수집된 것으로 인식하고 처리하는 경우가 발생할 수 있으며, 또 다른 경우로 센서에서 생성된 데이터가 바로 전에 생성된 데이터와의 차이(변동폭)가 너무 적어 이를 데이터가 변경되었다 또는 이벤트가 발생했다 라고 판단할 수 없는 경우가 있을 수 있다. 이러한 상황은 데이터 값의 신뢰성(Confidence)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 수집된 데이터 값이 바로 직전에 수집된 데이터의 값보다 차이가 나야 하는 최소 차이 값의 범위(절대값)일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 윈도우에 속해 있는 모든 데이터를 시간 순으로 나열 한 후 전후 데이터의 차이 값을 구하며, 모든 차이 값 중 데이터 품질 측정 기준보다 작은 차이 값을 파악함으로써, 변동 지속 지수를 계산할 수 있다.
값 패턴 지수(Value Period Indicator)(SSQI-04)는 데이터가 가지고 있는 주기적인 패턴에서 벗어나는 현상을 측정하는 지수로, 센서에서 생성된 데이터 값의 패턴이 평상시와 다른 패턴(정상 범주를 벗어나는)을 가지는 경우를 측정하기 위한 지수이다. 센서 데이터 값 변화가 일정 범위나 분포로 특정하기 어려운 경우 과거의 데이터 값 변화 패턴을 시계열 데이터 분석 기법(예를 들어, ARIMA, LSTM 등)을 사용하여 과거 패턴을 학습한 측정 모형을 개발하고, 이를 이용하여 현재 생성되는 센서 데이터 값의 패턴이 정상적인 범주를 벗어나는 경우를 탐지할 수 있다. 이러한 상황은 데이터 값의 신뢰성(Reliability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 측정에 사용될 모형과 그 모형의 메타 정보 및 수집된 데이터 값의 패턴이 정상 패턴의 범위 내에 있다고 판단할 수 있는 신뢰구간일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 이미 학습된 품질 측정 모형을 이용하여 신뢰구간을 벗어난 이상 데이터를 검출함으로써, 값 패턴 지수를 계산할 수 있다.
빈도 패턴 지수(Event Pattern Indicator)(SSQI-05)는 데이터가 수집되는 빈도의 주기적인 패턴에서 벗어나는 현상을 측정하는 지수로, 센서에서 생성되는 데이터 빈도 패턴이 평상시와 다른 패턴(정상 범주를 벗어나는)을 가지는 경우를 측정하기 위한 지수이다. 이벤트 타입의 센서 데이터의 경우 센서에서 특정 이벤트가 발생할 때마다 데이터가 생성이 되고, 이러한 이벤트의 패턴이 일정 주기나 분포로 특정하기 어려운 경우 과거의 데이터 생성 빈도 패턴을 시계열 데이터 분석 기법(예를 들어, GARCH 등)을 사용한 변동성 모형으로 과거 패턴을 학습하고, 이를 이용하여 현재 생성되는 센서 데이터 이벤트(빈도) 패턴이 정상적인 범주를 벗어나는 경우를 탐지할 수 있다. 이러한 상황은 데이터 값의 신뢰성(Reliability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 측정에 사용될 모형과 그 모형의 메타 정보 및 수집된 데이터 값의 패턴이 정상 패턴의 범위 내에 있다고 판단할 수 있는 신뢰구간일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 데이터의 이벤트 시간을 이용하여 이미 학습된 품질 측정 모형을 이용하여 신뢰구간을 벗어난 이상 변동성 구간을 시간 크기 값으로 추출함으로써, 빈도 패턴 지수를 계산할 수 있다.
충분 데이터 지수(Enough Volume Indicator)(SSQI-06)는 일정 시간 동안 데이터가 충분히 수집되고 있는가에 대한 정도를 측정하는 지수로, 센서에서 생성된 데이터가 활용하기에 충분하게 발생되는 지를 측정하기 위한 지수이다. 이벤트 기반 센서의 경우 특정 기간 동안(보통은 윈도우 기간) 생성(수집)된 데이터가 기대 이하로 발생한 경우 해당 센서에 문제가 있다고 판단할 수 있으며, 시간 기반 센서의 경우도 센서 주변 환경의 문제로 활용하고자 하는 서버까지 수집된 데이터가 기대 이하인 경우 해당 센서 혹은 해당 환경에 문제가 있다고 판단할 수 있다. 이러한 상황은 데이터 발생(수집)의 충분성(Sufficiency)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 수집된 데이터가 생성되어야 하는 최소한의 빈도 횟수일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 윈도우 데이터 건수가 데이터 품질 측정 기준보다 같거나 큰지를 확인함으로써, 충분 데이터 지수를 계산할 수 있다.
범위 이상 지수(Out of Range Outlier Indicator)(SSQI-07)는 과거의 데이터를 통해 분석된 정상 값 범위(선형 및 비선형)를 벗어나는 데이터가 검출되는 정도를 측정하는 지수로, 센서 데이터가 정해진 범위(Range with upper / lower value)를 벗어나서 생성되는 이상 데이터의 발생 정도를 파악하기 위한 지수이다. 센서에서 갑자기 이상 데이터를 발생시키는 것은 매우 자주 발생하므로 이러한 것을 탐지하고자 하며, 측정 이전에 과거의 데이터를 기반으로 한 기준 범위 값을 생성 시킨 후 이를 기준으로 이상 데이터들을 검출할 수 있다. 기준 범위는 주기적으로 분석 모형을 통하여 새롭게 정해 질 수 있으므로, 새롭게 만들어진 기준 범위는 데이터 품질 점검 기준으로 업데이트가 되어 적용이 가능할 수 있다. 이는 데이터 값의 신뢰성(Reliability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 센서에서 측정된 데이터가 가질 수 있는 정상 범위의 최대 값과 센서에서 측정된 데이터가 가질 수 있는 정상 범위의 최소 값일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 윈도우 데이터 중 정해진 범위를 벗어나는 데이터의 건수를 측정함으로써, 범위 이상 지수를 계산할 수 있다.
통계적 범위 이상 지수(Statistical Outlier Indicator)(SSQI-08)는 측정 대상 데이터들 자체가 가지는 값 분포 범위에서 벗어나는 데이터의 정도를 측정하는 지수로, 센서에서 생성된 하나의 윈도우 내 데이터들의 분포(예를 들어, 정규 분포)를 가정한 후 해당 분포의 신뢰구간을 벗어나는 이상 데이터의 발생 정도를 파악하기 위한 지수이다. 센서에서 갑자기 이상 데이터를 발생시키는 것은 매우 자주 발생하므로 이러한 것을 탐지하고자 하며, 하나의 윈도우에 포함된 데이터 만을 이용하기 때문에 근방 범위 내에서 발생하는 이상 데이터들을 검출하기에 좋고, 매번 분포 모양을 윈도우 내 데이터로 정하기 때문에 사전에 미리 모형을 분석하지 않아도 되는 장점이 있다. 이는 데이터 값의 신뢰성(Reliability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 윈도우 내 데이터가 가지는 분포의 정상 데이터의 범위(신뢰구간)일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 모든 윈도우 데이터들을 이용하여 해당 데이터들의 분포를 가정한 후, 만약 정규분포인 경우는 해당 윈도우 데이터들의 평균과 분산을 구한 후 이를 기반으로 신뢰구간의 상한과 하한을 구함으로써, 통계적 범위 이상 지수를 계산할 수 있다.
데이터 갱신 지수(Data Update Indicator)(SSQI-09)는 최근 측정된 데이터와의 시간적 거리에 대한 정도를 측정하는 지수로, 데이터가 생성되어야 하는 예상시간 내 데이터가 발생하지 않는 현상을 파악하기 위한 지수이다. 이벤트 기반 센서의 경우 특정 기간 동안에 최소한 한 번 이상 데이터가 생성(변화)이 있어야 하는 경우에 데이터가 한번도 생성되지 않았다면 해당 센서에 문제가 있다고 판단할 수 있으며, 이러한 상황은 데이터 발생(수집)의 최신성(Currency)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 마지막 데이터 발생 이후에 다시 데이터가 발생해야 하는 기간일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 측정하고, 시간적으로 가장 최근에 생성된 데이터를 가져와서 해당 데이터의 시간과 현재 시간의 차이를 계산하며, 마지막 데이터 생성 시간 이후의 차이를 데이터 품질 측정 기준에 기초하여 데이터 갱신 지수를 계산할 수 있다.
추세 이상 지수(Trend Abnormal Indicator)(SSQI-10)는 정해진 데이터 흐름 추세를 벗어나는 현상을 측정하는 지수로, 센서에서 생성된 데이터의 값의 추세가 급격하게 변화하는 현상을 파악하고 데이터의 안정성(Stability)을 측정하기 위한 지수이다. 날씨의 온도와 같은 데이터의 경우 측정 값이 급격하게 변화하지 않는다. 즉 절대적인 변화율(추세, 기울기) 이하로 변해야 하는 대상이 급격하게 추세가 변하는 상황을 탐지할 수 있으며, 이러한 상황은 데이터 값의 안정성(Stability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 추세 계산시 평탄화 적용 여부, 평탄화 적용 시 평탄화 방법 및 윈도우내의 데이터들이 가지는 추세가 가질 수 있는 최대 변화일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 필요 시 윈도우 데이터들을 이동평균법(Moving Average) 등을 이용하여 평탄화 (Smoothing) 작업을 수행하며, 평탄화된 윈도우 데이터를 이용하여 단순회귀모형(Simple Regression Model) 식을 계산하며, 계산된 회귀모형의 계수(Coefficient)를 이용하여 해당 데이터의 추세를 계산함으로써, 추세 이상 지수를 계산할 수 있다.
시간 값 이상 지수(Wrong Timestamp Indicator)(SSQI-11)는 수집된 데이터의 잘못 설정된 시간 데이터의 발생 정도를 측정하는 지수로, 센서에서 생성된 데이터의 시간이 잘못 설정되거나, 늦게 도착하는 데이터가 발생하는 현상을 파악하기 위한 지수이다. 센서에서 측정된 데이터에 시간을 매핑 할 때 잘못된 값(포맷이 다르거나, 시간이 아닌 값으로 설정 등)으로 시간이 생성되는 경우가 생기며, 이는 사용할 수 없는 데이터가 될 수 있다. 또한 네트워크의 문제로 인하여 센서에서는 일찍 생성되었으나 다른 데이터들보다 늦게 도착하는 경우, 데이터를 바로 사용하기가 어려울 때가 발생하며 이러한 현상의 정도를 측정하고자 하며, 이는 데이터 발생(수집)의 안정성(Stability)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 센서로부터 데이터 수집기(data collector)까지 소요되는 허용 가능 최대 시간일 수 있다. 데이터 측정 과정은 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 매 윈도우의 시작 시간과 각 데이터의 생성 시간에 기초하여 시간 값 이상 지수를 계산할 수 있다.
MSQI는 여러 스트림 데이터 셋 간의 관계를 정의하고 이를 통해 데이터의 품질을 측정하는 지수로, 주로 상호 데이터 셋 간에 정해진 데이터 값의 룰(business rules, pre-defined data rules) 혹은 기 정의된 유사 데이터 셋 간의 상호 관계 규칙(Related similarly bound)을 기준으로 품질을 측정할 수 있다. 여러 센서들에 대한 데이터 품질 측정을 위해서는 각 Indicator별로 품질 측정 대상 센서들, 품질 측정을 위한 윈도우 크기(SSQI에서 사용한 각 센서 별 설정한 윈도우 크기와 다름), 반복적으로 품질을 측정할 주기, 센서들 간 데이터 비교를 위한 동기화 시간 범위(예를 들어 1초를 동기화 시간으로 정하면, 0.000초부터 0.999초까지의 데이터가 동기화 시간 범위에 포함됨), 동기화 시간 범위 내 대표 데이터 값 산출 방법 (예를 들면, mean(평균), median(중앙값), standard deviation(분산), min/max(최소/최대값), range(= max - min), 즉 앞서 정의된 동기화 시간 범위 내에 발생한 데이터가 1건을 초과하는 경우, 그 데이터들을 mean, median, standard deviation, min/max, range 등의 방법을 이용하여 해당 동기화 시간 범위의 대표 값으로 계산할 수 있음)이 따로 정해져 있을 수 있다.
상호 규칙 지수(Interactive Rule Indicator)(MSQI-01)는 지정된 데이터 셋 간에 정해놓은 정상적인 규칙에서 벗어나는 정도를 측정하는 지수로, 대상 센서들로부터 수집된 데이터가 측정하고자 하는 규칙을 얼마나 준수하고 있는지를 파악하기 위한 지수이다. 하나의 장비에는 여러 센서들이 동시에 작동하고 있으며, 이러한 센서들 간에는 명확한 규칙(Rule)이 있을 수 있으며, 이 중 꼭 지켜져야 하는 중요한 규칙들에 대해서 위반되는 상황이 발생할 경우 해당 센서에, 혹은 해당 상황에 문제가 발생했다고 판단할 수 있다. 해당 규칙은 다양한 형태로 작성될 수 있으나, SQL, BPMN과 같은 규칙 표기법으로 표현이 가능해야 하고 내부에 품질 측정 기준을 가지고 있어, 규칙 기반으로 상호 센서 데이터를 비교하여 품질 기준 대비 이상으로 판단되는 데이터의 목록을 결과로 산출할 수 있다. 이러한 상황은 데이터 값(센서 동작)의 준수성(Compliance)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 센서들 간에 비교 가능한 규칙(품질 규칙)일 수 있다. 데이터 측정 과정은 대상 센서들로부터 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 센서 별 수집된 데이터를 동기화 시간 범위 단위로 대표 데이터를 산출하며, 센서 별로 계산된 동기화 시간 범위의 대표 값을 품질 규칙에 적용하여 계산함으로써, 상호 규칙 지수를 계산할 수 있다.
값 유사성 지수(Value Similarity Indicator)(MSQI-02)는 동일 내용을 수집하는 데이터 셋 간에 인정되는 허용 오차에서 벗어나는 정도를 측정하는 지수로, 대상 센서들로부터 수집된 데이터 값들이 비슷한 범위 내의 값으로 안정적으로 수집되는지를 파악하기 위한 지수이다. 일부 장비들은 신뢰가 높은 센서 데이터 값을 수집하기 위하여 하나의 관측(센싱) 대상을 측정할 때 복수 개의 센서를 운영하는 경우가 있으며, 또한 일반적으로 지리적으로 근방에 있는 센서들은 유사한 값을 측정된다고 가정할 수 있다. 즉 근방에 존재하는 센서들 중 예상하는 유사 범위를 벗어나는 상황이 발생할 경우 특정 센서에서 문제가 발생했다고 판단할 수 있다. 이러한 상황은 데이터 값(센서 동작)의 정확성(Accuracy)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 전체 측정 대상 센서들의 각 동기화 시간 범위의 대표 값들의 차이가 정상 범위 내에 있다고 판단할 수 있는 신뢰구간일 수 있다. 데이터 측정 과정은 대상 센서들로부터 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 센서 별 수집된 데이터를 동기화 시간 범위 단위로 대표 데이터를 산출하며, 각 동기화 시간 범위에 포함되는 대상 센서들의 동기화 시간 범위의 대표 값 중 가장 큰 값과 가장 작은 값의 차이를 계산하여 신뢰구간 범위에 있는지를 비교함으로써, 값 유사성 지수를 계산할 수 있다.
분포 유사성 지수(Distribution Similarity Indicator)(MSQI-03)는 지정된 데이터 셋이 시간에 따른 유사한 분포를 보여야 하는 유사함의 정도를 측정하는 지수로, 대상 센서들로부터 수집된 데이터 값의 변화/분포가 유사한 지를 파악하기 위한 지수이다. 하나의 장비에는 여러 종류의 센서들이 동시에 작동하고 있으며, 이러한 센서들은 동일한 장비를 측정하나 관측(센싱) 대상은 다를 수 있다. 하지만 동일한 장비를 측정하는 센서들의 측정 값 분포 모양은 동일한 패턴을 가지고 있다고 가정할 수 있다. 그래서 대상 센서들 중 예상되는 유사 분포 범위에서 벗어나는 상황이 발생할 경우 특정 센서의 대상에서, 혹은 해당 상황이 문제가 발생되었다고 판단할 수 있다, 예를 들어 하나의 공기펌프 장비를 측정하는 여러 센서들 중 '공기 속도 측정 센서'와 '공기펌프 진동측정 센서'는 동일한 패턴(데이터 분포 모양)을 가지고 있다고 할 수 있다. 펌프 내 흘러가는 공기 속도가 빨라지면, 진동이 커지고, 공기 속도가 낮아지면 진동이 작아짐을 알 수 있다. 여러 가지 이유로 서로의 데이터 패턴의 모양이 많이 달라진다면 이상 상황이 발생한 것으로 판단할 수 있다. 이러한 상황은 데이터 값(센서 동작)의 일관성(Consistency)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 대상 센서들의 시계열 데이터 분포 패턴/모양을 비교할 수 있는 알고리즘(예를 들어, Euclidean Distance, DTW (Dynamic Time Warping) 등) 및 대상 센서들의 데이터가 가지는 분포의 유사 분포 허용 범위를 포함할 수 있다. 데이터 측정 과정은 대상 센서들로부터 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 센서 별 수집된 데이터를 동기화 시간 범위 단위로 대표 데이터를 산출하며, 대상 센서들 간 유사 거리 정도를 계산하여 가장 유사 거리가 먼 정도가 유사 분포 허용 범위를 얼마나 벗어나는 지를 비교함으로써, 분포 유사성 지수를 계산할 수 있다.
패턴 유사성 지수(Pattern Similarity Indicator)(MSQI-04)는 지정된 데이터 셋 간에 데이터 생성 패턴이 달라지는 정도를 측정하는 지수로, 관측 대상 센서들의 데이터 생성 패턴(주기)이 유사한지를 파악하기 위한 지수이다. 하나의 장비에는 여러 센서들이 동시에 측정하고 있으며, 이벤트 기반 센서의 경우 특정 변화가 있는 경우에만 데이터를 생성(센싱)하게 된다. 이 때 비슷한 목적을 가지고 있는 센서들 간에 데이터 생성은 동일한 패턴을 가지고 있다고 가정할 수 있으며, 그래서 대상 센서들 중 예상되는 데이터 생성 패턴(주기)을 벗어나는 상황이 발생할 경우 특정 센서의 대상에서, 혹은 해당 상황이 문제가 발생되었다고 판단할 수 있다. 이러한 상황은 데이터 발생(수집)의 일관성(Consistency)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 대상 센서들의 시계열 데이터 분포 패턴/모양을 비교할 수 있는 알고리즘(예를 들어, Euclidean Distance, DTW(Dynamic Time Warping) 등) 및 대상 센서들의 생성 빈도 데이터가 가지는 패턴의 유사 인정 범위를 포함할 수 있다. 데이터 측정 과정은 대상 센서들로부터 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 센서 별 수집된 데이터를 동기화 시간 범위 단위로 수집된 데이터 건수를 대표값으로 산출하며, 대상 센서들 간 유사 거리 정도를 계산하여 가장 유사 거리가 먼 정도가 유사 인정 범위를 얼마나 벗어나는 지를 비교함으로써, 패턴 유사성 지수를 계산할 수 있다.
추세 유사성 지수(Trend Similarity Indicator)(MSQI-05)는 지정된 데이터 셋 간의 데이터 흐름 추세가 달라지는 정도를 측정하는 지수로, 관측 대상 센서들의 데이터 값 추세가 유사한 지를 파악하기 위한 지수이다. 하나의 장비에는 여러 센서들이 동시에 작동하고 있으며, 각 센서들은 장비의 상황에 따라 비슷한 추세를 가진 데이터들이 수집이 된다. 이 때 추세가 비슷할 것으로 예상되는 센서들 중에 비슷한 추세 패턴을 가지고 있지 않은 경우 특정 센서의 대상에서, 혹은 해당 상황에 문제가 발생되었다고 판단할 수 있다. MSQI-05의 경우 MSQI-03과 같이 센서들 간 데이터 값 패턴을 세부적으로 비교하기 힘든 경우 전반적으로 움직이는 추세를 이용하여 대상 센서들이 비슷하게 동작하는 상황을 모니터링 할 수 있다. 이러한 상황은 데이터 값(센서 동작)의 일관성(Consistency)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 추세 계산시 평탄화 적용 여부, 평탄화 적용 시 평탄화 방법 및 센서들의 추세 차이의 유사 인정 범위를 포함할 수 있다. 데이터 측정 과정은 대상 센서들로부터 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 센서 별 수집된 데이터를 동기화 시간 범위 단위로 대표 데이터를 산출하며, 대상 센서들의 계산된 동기화 시간 범위의 대표 값을 평탄화 적용 시 이동평균법 등을 이용하여 평탄화를 수행하고, 평탄화된 데이터를 이용하여 단순회귀모형 식을 계산하며, 계산된 회귀모형의 기울기 계수를 이용하여 해당 데이터의 추세를 계산하고, 계산된 대상 센서들 간 가장 큰 데이터 추세의 차이와 유사 인정 범위의 비교를 계산함으로써, 추세 유사성 지수를 계산할 수 있다.
시간 동기성 지수(Time Synchronicity Indicator)(MSQI-06)는 동일 시점에 측정된 데이터 셋 간에 수집/처리되는 시간 차이의 정도를 측정하는 지수로, 관측 대상 센서들의 데이터 생성 패턴(주기)이 얼마나 정확한지를 파악하기 위한 지수이다. 하나의 장비에는 여러 센서들이 동시에 측정하고 있으며, 이벤트 기반 센서의 경우 특정 변화가 있는 경우에만 데이터를 생성(센싱)하게 된다. 이 때 비슷한 목적을 가지고 있는 센서들 간에 데이터 생성(센싱)은 동일한 시점에 일어난다고 가정할 수 있으며, 그래서 대상 센서들 중 동일 시간에 데이터 생성(센싱)이 안된 경우가 발생하는 경우 해당 센서 혹은 상황에서 문제가 발생되었다고 판단할 수 있다. 이러한 상황은 데이터 생성의 시간 동기성(Time Synchronicity)을 기준으로 데이터 품질을 판단할 수 있다. 여기서, 데이터 품질 측정 기준은 일치 인정 건수일 수 있다. 데이터 측정 과정은 대상 센서들로부터 매 슬라이딩 지속 시간마다 윈도우 크기의 데이터를 가져오고, 각 센서 별 수집된 데이터를 동기화 시간 범위 단위로 수집된 데이터가 있는지 없는지를 체크하며, 모든 동기화 시간 범위 별 수집된 데이터의 존재 여부에 대한 결과와 일치 인정 건수를 비교하여 시간 동기성 지수를 계산할 수 있다.
상술한 바와 같이, 본 발명은 11개의 SSQI와 6개의 MSQI를 포함하는 품질 지수들을 계산할 수 있으며, 이렇게 계산된 품질 지수들을 이용하여 적어도 하나 이상의 IoT 장비 센서로부터 발생하는 스트림 데이터에 대한 품질을 측정할 수 있다.
이 때, 본 발명은 센서의 다양한 품질 지수들을 하나로 통합하여 데이터 품질을 하나의 값으로 표현함으로써, IoT 장비 센서로부터 발생하는 스트림 데이터에 대한 품질을 측정할 수 있으며, 스트림 데이터 품질 지수(SDQI; Stream Data Quality Indicator)를 통합하는 방법과 IoT 데이터 품질 특성 점수(IoT Data Quality Characteristic Score)를 산출하여 통합하는 방법을 통해 품질을 측정할 수 있다.
이러한 방법에 대해 도 6과 도 7을 참조하여 설명한다.
도 6은 센서의 통합 데이터 품질을 측정하는 일 실시예의 방법을 설명하기 위한 예시도를 나타낸 것으로, 스트림 데이터 품질 지수를 통합하는 방법을 설명하기 위한 예시도를 나타낸 것이다.
도 6에 도시된 바와 같이, 일 실시예의 센서의 통합 데이터 품질을 측정하는 방법은 측정된 다양한 스트림 데이터 품질 지수를 그대로 활용 하여 센서의 통합 데이터 품질을 표현하는 방법으로, 품질 관리자가 각 센서의 데이터 특성에 따라 측정 하고자 하는 SDQI들을 선택하면, 선택된 SDQI 들(indicator 1 내지 indicator 4)을 통합함으로써, 센서의 품질을 측정할 수 있다. 이 때, 본 발명은 선택한 SDQI 들에 대해서 중요도에 따라 미리 설정된 가중치를 부여함으로써, 가중치가 곱해진 SDQI 품질 지수들을 통합 예를 들어, 가중치1 * indicator 1 + 가중치 2 * indicator 2 + 가중치3 * indicator 3 + 가중치 4 * indicator 4로 계산하고, 이 값이 센서의 스트림 데이터에 대한 종합 품질 수준으로 표현할 수 있다. 여기서, 가중치들의 합 도 6의 경우 가중치 1 + 가중치 2 + 가중치 3 + 가중치 4은 1일 수 있다. 즉, 도 6은 가중치를 활용한 가중 합(Weighting Sum)을 해당 센서의 통합 데이터 품질 수준으로 정의하는 것으로, 매 슬라이딩 지속 시간마다 설정된 품질 지수들에 대하여 산출된 인덱스 값을 가져오고, 품질 지수들 각각에 대해 미리 설정된 가중치를 인덱스 값과 곱한 후 합 함으로써, 센서의 통합 품질 수준을 산출할 수 있다.
도 7은 센서의 통합 데이터 품질 수준을 계산하는 다른 일 실시예의 방법을 설명하기 위한 예시도를 나타낸 것으로, IoT 데이터 품질 특성 점수를 산출하여 통합하는 방법을 설명하기 위한 예시도를 나타낸 것이다.
도 7에 도시된 바와 같이, 다른 일 실시예의 센서의 통합 데이터 품질로 계산하는 방법은 측정된 다양한 스트림 데이터 품질 지수에 대해서 유사한 데이터 품질 특성(Data Quality Characteristics) 별로 그룹을 지어 해당 데이터 품질 특성에 대한 점수를 산출 하고 이를 통합하는 방법으로, 데이터 품질 관리자가 각 센서의 데이터 특성에 따라 측정 하고자 하는 SDQI들(indicator 1 내지 indicator 6)을 선택하고, 선택된 SDQI들이 가지는 '데이터 품질 특성'에 매핑(하나의 SDQI는 복수의 '데이터 품질 특성'에 매핑이 가능)하며, 동일 데이터 품질 특성(DQ 특성 1 내지 DQ 특성 3) 내에 포함(매핑)된 SDQI들을 중요도에 따라 SDQI별 1차 가중치를 부여하고, 센서 데이터에 대한 품질 관리(비즈니스) 목적에 따라 '데이터 품질 특성'들을 매핑하여 센서의 데이터 품질 특징으로 선택(매핑)된 '데이터 품질 특성'들을 중요도에 따라 2차 가중치를 부여함으로써, 1차 가중치와 2차 가중치가 부여된 품질 지수들을 통합하여 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다. 여기서, 각 데이터 품질 특성을 계산하기 위한 1차 가중치의 합은 1일 수 있으며 2차 가중치의 합 역시 1일 수 있다. 이 때, 1차 가중치를 활용한 SDQI 가중 합(Weighting Sum)을 해당 '데이터 품질 특성' 점수로 정의할 수 있으며, 2차 가중치를 활용한 '데이터 품질 특성' 점수들의 가중 합(Weighting Sum)을 해당 센서의 품질 수준으로 정의할 수 있다.
즉, 도 7은 매 슬라이딩 지속 시간마다 설정된 품질 지수들에 대하여 산출된 인덱스 값을 가져오고, 품질 지수들을 미리 설정된 유수한 데이터 품질 특성 별로 그룹을 나누며, 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각의 인덱스 값에 미리 설정된 1차 가중치를 곱하여 각 그룹 별 점수를 계산하고, 계산된 각 그룹 별 점수에 각 그룹 별로 미리 설정된 2차 가중치를 곱한 후 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다.
이와 같이, 본 발명의 실시예들에 따른 방법은 IoT 스트림 데이터 품질을 측정하기 위한 품질 지수들 즉, SSQI와 MSQI를 정의하고, 정의된 품질 지수들 각각을 IoT 장비 센서로부터 발생된 스트림 데이터를 이용하여 계산함으로써, IoT 스트림 데이터 품질을 실시간으로 측정할 수 있다.
도 8은 본 발명의 일 실시예에 따른 사물 인터넷 스트림 데이터 품질 측정 시스템에 대한 구성을 나타낸 것으로, 도 1 내지 도 7의 방법을 수행하는 시스템에 대한 개념적인 구성을 나타낸 것이다.
도 8을 참조하면, 본 발명의 실시예에 따른 시스템(800)은 수신부(810), 계산부(820) 및 측정부(830)를 포함한다.
수신부(810)는 적어도 하나 이상의 IoT 장비 센서로부터 발생하는 스트림 데이터를 수신한다.
계산부(820)는 수신부(810)로 수신된 IoT 장비 센서의 스트림 데이터에 대하여 미리 설정된 품질 지수들 예를 들어, 단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(SSQI)에 포함된 품질 지수들과 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(MSQI)에 포함된 품질 지수들을 계산한다.
여기서, SSQI는 균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 변동 지속 지수(Flat Value Indicator), 값 패턴 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 범위 이상 지수(Out of Range Outlier Indicator), 통계적 범위 이상 지수(Statistical Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator) 및 시간 값 이상 지수(Wrong Timestamp Indicator)를 포함하고, MSQI는 상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 동기성 지수(Time Synchronicity Indicator)를 포함할 수 있다.
측정부(830)는 계산부(820)에 의해 계산된 품질 지수들 각각에 기초하여 IoT 장비 센서의 스트림 데이터에 대한 품질을 측정한다.
여기서, 측정부(830)는 계산부(820)에 의해 계산된 품질 지수들 각각을 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다. 이 때, 측정부는 계산부(820)에 의해 계산된 품질 지수들 각각에 품질 지수들 각각에 대하여 미리 설정된 가중치를 곱한 후 가중치가 곱해진 품질 지수들을 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다.
여기서, 측정부(830)는 계산부(820)에 의해 계산된 품질 지수들을 미리 설정된 유수한 데이터 품질 특성 별로 그룹을 나누고, 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다. 이 때, 측정부(830)는 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각에 대하여 미리 설정된 1차 가중치를 곱한 후 1차 가중치가 곱해진 품질 지수들을 이용하여 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다. 나아가, 측정부(830)는 1차 가중치가 곱해진 품질 지수들을 이용하여 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 산출된 데이터 품질 특성 그룹 별 각각의 점수에 데이터 품질 특성 그룹 별 각각에 대하여 미리 설정된 2차 가중치를 곱한 후 통합함으로써, IoT 장비 센서의 스트림 데이터에 대한 품질 수준을 표현할 수 있다.
비록, 도 8의 시스템에서 그 설명이 생략되었더라도, 도 8를 구성하는 각 구성 수단은 도 1 내지 도 7에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 단계;
    상기 수신된 스트림 데이터에 대하여 미리 설정된 품질 지수들을 계산하는 단계; 및
    상기 계산된 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하는 단계
    를 포함하며,
    상기 품질 지수들은
    단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator)와 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multiple Signals Quality Indicator)를 포함하고,
    상기 단일 품질 지수는
    균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 변동 지속 지수(Flat Value Indicator), 값 패턴 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 범위 이상 지수(Out of Range Outlier Indicator), 통계적 범위 이상 지수(Statistical Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator) 및 시간 값 이상 지수(Wrong Timestamp Indicator)를 포함하고,
    상기 다중 관계 품질 지수는
    상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 동기성 지수(Time Synchronicity Indicator)를 포함하며,
    상기 품질을 측정하는 단계는
    상기 계산된 품질 지수들을 데이터 품질 특성(Data Quality Characteristics) 별로 그룹을 나누고, 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하고,
    상기 품질을 측정하는 단계는
    상기 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각에 대하여 미리 설정된 1차 가중치를 곱한 후 상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하며,
    상기 품질을 측정하는 단계는
    상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수에 상기 데이터 품질 특성 그룹 별 각각에 대하여 미리 설정된 2차 가중치를 곱한 후 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하고,
    상기 1차 가중치의 합은
    1이며,
    상기 2차 가중치의 합은
    1인 것을 특징으로 하는 사물 인터넷 스트림 데이터 품질 측정 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 적어도 하나 이상의 사물 인터넷 장비 센서로부터 발생하는 스트림 데이터를 수신하는 수신부;
    상기 수신된 스트림 데이터에 대하여 미리 설정된 품질 지수들을 계산하는 계산부; 및
    상기 계산된 품질 지수들에 기초하여 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하는 측정부
    를 포함하며,
    상기 품질 지수들은
    단일 스트림 데이터에 대한 품질 지수인 단일 품질 지수(Single Signal Quality Indicator)와 여러 스트림 데이터 셋 간의 관계에 대한 품질 지수인 다중 관계 품질 지수(Multiple Signals Quality Indicator)를 포함하고,
    상기 단일 품질 지수는
    균일 빈도 지수(Uniform Frequency Indicator), 결측 시간 지수(Empty Time Indicator), 변동 지속 지수(Flat Value Indicator), 값 패턴 지수(Value Period Indicator), 빈도 패턴 지수(Event Pattern Indicator), 충분 데이터 지수(Enough Volume Indicator), 범위 이상 지수(Out of Range Outlier Indicator), 통계적 범위 이상 지수(Statistical Outlier Indicator), 데이터 갱신 지수(Data Update Indicator), 추세 이상 지수(Trend Abnormal Indicator) 및 시간 값 이상 지수(Wrong Timestamp Indicator)를 포함하고,
    상기 다중 관계 품질 지수는
    상호 규칙 지수(Interactive Rule Indicator), 값 유사성 지수(Value Similarity Indicator), 분포 유사성 지수(Distribution Similarity Indicator), 패턴 유사성 지수(Pattern Similarity Indicator), 추세 유사성 지수(Trend Similarity Indicator) 및 시간 동기성 지수(Time Synchronicity Indicator)를 포함하며,
    상기 측정부는
    상기 계산된 품질 지수들을 데이터 품질 특성(Data Quality Characteristics) 별로 그룹을 나누고, 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하고,
    상기 측정부는
    상기 데이터 품질 특성 그룹 별 각각에 포함된 품질 지수들 각각에 대하여 미리 설정된 1차 가중치를 곱한 후 상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수를 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하며,
    상기 측정부는
    상기 1차 가중치가 곱해진 품질 지수들을 이용하여 상기 데이터 품질 특성 그룹 별 각각의 점수를 산출한 후 상기 산출된 데이터 품질 특성 그룹 별 각각의 점수에 상기 데이터 품질 특성 그룹 별 각각에 대하여 미리 설정된 2차 가중치를 곱한 후 통합함으로써, 상기 사물 인터넷 장비 센서의 스트림 데이터에 대한 품질을 측정하고,
    상기 1차 가중치의 합은
    1이며,
    상기 2차 가중치의 합은
    1인 것을 특징으로 하는 사물 인터넷 스트림 데이터 품질 측정 시스템.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020190102059A 2019-08-21 2019-08-21 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템 KR102059112B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190102059A KR102059112B1 (ko) 2019-08-21 2019-08-21 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템
US16/864,280 US11265232B2 (en) 2019-08-21 2020-05-01 IoT stream data quality measurement indicator and profiling method and system therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190102059A KR102059112B1 (ko) 2019-08-21 2019-08-21 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR102059112B1 true KR102059112B1 (ko) 2019-12-24

Family

ID=69006252

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190102059A KR102059112B1 (ko) 2019-08-21 2019-08-21 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템

Country Status (2)

Country Link
US (1) US11265232B2 (ko)
KR (1) KR102059112B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593981B1 (ko) 2022-11-10 2023-10-25 주식회사 이노와이어리스 네트워크 로그 데이터의 결측치 처리 및 이를 통한 통신 결함 근원 분류 방법
WO2024122786A1 (ko) * 2022-12-09 2024-06-13 주식회사 엑셈 전력 사용량 데이터를 처리하는 방법 및 이를 구현하는 서버

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220327908A1 (en) * 2021-03-31 2022-10-13 Schneider Electric USA, Inc. Systems and methods for analyzing alarms to address electrical system issues

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101746646B1 (ko) * 2016-05-09 2017-06-13 숭실대학교산학협력단 사물인터넷 어플리케이션의 사용 중 품질 관리 방법, 이를 수행하기 위한 기록매체 및 장치
KR20170141928A (ko) * 2016-06-16 2017-12-27 삼성에스디에스 주식회사 데이터 플랫폼에 기반한 IoT 서비스 제공 방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147040B2 (en) * 2017-01-20 2018-12-04 Alchemy IoT Device data quality evaluator

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101746646B1 (ko) * 2016-05-09 2017-06-13 숭실대학교산학협력단 사물인터넷 어플리케이션의 사용 중 품질 관리 방법, 이를 수행하기 위한 기록매체 및 장치
KR20170141928A (ko) * 2016-06-16 2017-12-27 삼성에스디에스 주식회사 데이터 플랫폼에 기반한 IoT 서비스 제공 방법 및 그 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593981B1 (ko) 2022-11-10 2023-10-25 주식회사 이노와이어리스 네트워크 로그 데이터의 결측치 처리 및 이를 통한 통신 결함 근원 분류 방법
WO2024122786A1 (ko) * 2022-12-09 2024-06-13 주식회사 엑셈 전력 사용량 데이터를 처리하는 방법 및 이를 구현하는 서버

Also Published As

Publication number Publication date
US20210058307A1 (en) 2021-02-25
US11265232B2 (en) 2022-03-01

Similar Documents

Publication Publication Date Title
US10817394B2 (en) Anomaly diagnosis method and anomaly diagnosis apparatus
CN109587001B (zh) 一种性能指标异常检测方法及装置
KR102059112B1 (ko) 사물 인터넷 스트림 데이터 품질 측정 지표 및 프로파일링 방법 및 그 시스템
CN108038044B (zh) 一种面向连续被监测对象的异常检测方法
CN109558295A (zh) 一种性能指标异常检测方法及装置
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
US10884404B2 (en) Method of predicting plant data and apparatus using the same
US10599501B2 (en) Information processing device, information processing method, and recording medium
CN110032490A (zh) 用于检测系统异常的方法及其装置
CN111179591B (zh) 一种路网交通时序特征数据质量诊断与修复方法
US20170249559A1 (en) Apparatus and method for ensembles of kernel regression models
JP6636214B1 (ja) 診断装置、診断方法及びプログラム
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
KR101953558B1 (ko) 스마트 기기 결함 관리 장치 및 방법
JP6489235B2 (ja) システム分析方法、システム分析装置、および、プログラム
CN101657770B (zh) 使用间断检测的机器状况监测
JP2019095822A (ja) パラメータ設定方法、データ分析装置、データ分析システム及びプログラム
JPWO2017150286A1 (ja) システム分析装置、システム分析方法、及び、プログラム
Sørbø et al. Navigating the metric maze: a taxonomy of evaluation metrics for anomaly detection in time series
CN113742118A (zh) 对数据管道中的异常进行检测的方法和系统
KR102184892B1 (ko) 사물 인터넷 실시간 데이터 품질 관리 시스템 및 그 방법
WO2019073512A1 (ja) システム分析方法、システム分析装置、および、プログラム
CN111224830A (zh) 数据监控方法、装置、物联网网元及计算机可读存储介质
CN114331688A (zh) 一种银行柜面系统业务批量运行状态检测方法及装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant