KR20150093842A - 사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템 - Google Patents

사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템 Download PDF

Info

Publication number
KR20150093842A
KR20150093842A KR1020157018966A KR20157018966A KR20150093842A KR 20150093842 A KR20150093842 A KR 20150093842A KR 1020157018966 A KR1020157018966 A KR 1020157018966A KR 20157018966 A KR20157018966 A KR 20157018966A KR 20150093842 A KR20150093842 A KR 20150093842A
Authority
KR
South Korea
Prior art keywords
data
graph
quartile
data quality
trend line
Prior art date
Application number
KR1020157018966A
Other languages
English (en)
Other versions
KR101635150B1 (ko
Inventor
밍싱 왕
웬페이 판
시베이 지아
Original Assignee
센젠 아우다크 데이터 테크놀로지 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센젠 아우다크 데이터 테크놀로지 리미티드 filed Critical 센젠 아우다크 데이터 테크놀로지 리미티드
Publication of KR20150093842A publication Critical patent/KR20150093842A/ko
Application granted granted Critical
Publication of KR101635150B1 publication Critical patent/KR101635150B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • G06F19/26
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

본 발명은, 데이터 그리드 Gx를 정의하고 다양한 트랜드 라인을 피팅하는 단계; 데이터 소스를 스캐닝하고 저장하며, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 데이터 제시를 진행하는 단계; 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하는 단계; 적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질을 측정하는 단계를 포함하는 사분위수 그래프에 기반하는 데이터 품질 측정 방법을 제공한다. 본 발명은 데이터 그리드 Gx를 정의하는 것을 통하여 데이터를 저장하고, 사분위수 그래프로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정해 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다. 이 밖에, 본 발명의 다른 일 실시예는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템을 제공한다.

Description

사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템{DATA QUALITY MEASUREMENT METHOD AND SYSTEM BASED ON A QUARTILE GRAPH}
본 발명은 데이터 분야에 관한 것이고, 특히 사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템에 관한 것이다.
사분위수 그래프는 1차원 데이터의 분포 상황을 제시하는 도형으로서, 데이터의 분포 형태를 직관적으로 나타낼 수 있고, 다섯가지 데이터 포인트, 즉 하한 사분위수, 제1사분위수, 중앙값, 제3사분위수, 상한 사분위수를 포함한다. 여기서 하한 사분위수, 상한 사분위수는 각각 최소값, 최대값에 대응되고 제1 사분위수는 모든 데이터에서 25%의 데이터가 제1 사분위수와 대응되는 값보다 작다는 것을 의미하고, 마찬가지로 중앙값은 모든 데이터에서 50%의 데이터가 중앙값과 대응되는 값보다 작은 것이며, 제3 사분위수는 모든 데이터에서 75%의 데이터가 제3 사분위수와 대응되는 수치보다 작다는 것이다. 사분위수 그래프는 단지 제시 도구이고, 또한 1차원 데이터의 분포 상황만 제시할 수 있다. 따라서 사분위수 그래프의 기본 특성으로 2차원 데이터의 분포 상황을 제시, 분석하고 데이터 시정 기능을 구비하는 방법이 부족하다.
따라서, 본 발명은 상기 흠결을 해결하기 위한 것이다.
아울러, 본 발명은 데이터 그리드 Gxy를 정의하는 것을 통하여 데이터를 저장하고, 사분위수 그래프로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정하여 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현하는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템을 제공한다.
따라서, 본 발명의 일 실시예는, 데이터 그리드 Gx를 정의하고 다양한 트랜드 라인을 피팅하는 단계; 데이터 소스를 스캐닝하고 저장하며, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 데이터 제시를 진행하는 단계; 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하는 단계; 적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질 측정을 진행하는 단계를 포함하는 사분위수 그래프에 기반하는 데이터 품질 측정 방법을 제공한다.
본 발명의 일 실시예에 있어서, 사분위수 그래프에서 트랜드 라인을 선택하고 데이터 제시를 진행한다.
본 발명의 일 실시예에 있어서, 데이터 소스를 스캐닝하기 전에 데이터 그리드 Gx를 정의하고, 상기 데이터 소스를 스캐닝하고 저장하는 단계는, 데이터 소스를 스캐닝하고 매 하나의 기록되는 X값과 Y값(x와 y)을 판독하는 단계; X축의 제시 스케일에 근거하여 x 및 y와 대응되는 데이터 그리드 Gx를 산출하고 대응되는 데이터를 Gx에 저장하는 단계를 포함한다.
산출해 낸 x 및 y와 대응되는 데이터 그리드 Gx는 하한 사분위수, 제1 사분위수, 중앙값, 제3 사분위수와 상한 사분위수를 포함하는 것이 바람직하다.
상기 사분위수 그래프가 제시하는 데이터는 Gx에 저장되는 상기 데이터이다.
본 발명의 일 실시예에 있어서, 상기 다양한 트랜드 라인을 피팅하는 단계는, 모든 유효한 데이터 그리드 Gx의 전체 레코드 개수와 총계에 근거하여 x의 평균치, y의 평균치를 산출하는 단계; 상기 Gx의 X의 전체 평균치와 Y의 전체 평균치를 산출하고 전체 평균치에 근거하여 매 종류의 트랜드 라인을 피팅하는 단계를 포함한다.
상기 다양한 트랜드 라인은 리스트의 형식으로 사분위수 그래프에 표시되는 것이 바람직하다.
선택한 상기 트랜드 라인은 수동으로 조정할 수 있는 것이 바람직하다.
상기 수동으로 조정하는 방식은 사분위수 그래프에서 트랜드 라인의 공식을 직접적으로 수정하는 것이 바람직하다.
상기 수동으로 조정하는 방식은 사분위수 그래프에서 마우스를 드래그하여 트랜드 라인의 변화를 실시간으로 제시하는 것이 바람직하다.
본 발명의 일 실시예에 있어서, 상기 데이터 품질 규칙을 생성하는 단계는 트랜드 라인에 근거하여 목표값을 산출해 내고, 목표값에 대하여 하나의 변동 범위를 설정한다.
상기 변동 범위는 하나의 절대치인 것이 바람직하다.
상기 변동 범위는 백분율인 것이 바람직하다.
본 발명의 일 실시예에 있어서, 상기 데이터 품질 측정은 선정된 데이터 품질 규칙과 한계값에 따라 판단하고 상기 한계값은 상기 변동 범위이다.
본 발명의 다른 일 실시예는,
데이터 그리드 Gx를 정의하고 다양한 트랜드 라인을 피팅하기 위한 트랜드 라인 피팅 수단;
데이터 소스를 스캐닝하고 저장하며 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 데이터를 제시하기 위한 데이터 소스 판독 수단;
확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하기 위한 데이터 품질 규칙 생성 수단;
적절한 데이터 품질 규칙을 선정하고, 한계값에 근거하여 데이터 품질 측정을 진행하기 위한 데이터 품질 측정 수단을 포함하는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템에 있어서,
사분위수 그래프에서 트랜드 라인을 선택하고 데이터 제시를 진행하기 위한 데이터 제시 수단을 더 포함하는, 사분위수 그래프에 기반하는 데이터 품질 측정 시스템을 제공한다.
본 발명은 데이터 그리드 Gx를 정의하는 것을 통하여 데이터를 저장하고, 사분위수 그래프로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정하여 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다.
도1은 본 발명의 일 실시예에서 제공하는 사분위수 그래프에 기반하는 데이터 품질 측정 방법의 구체적인 흐름 모식도이다.
도2는 본 발명의 일 실시예에서 정의한 데이터 그리드 Gx의 모식도이다.
본 발명의 목적, 과제의 해결수단 및 이점을 더 분명하게 하기 위하여, 아래에 도면 및 실시예를 결부하여 본 발명에 대해 진일보 상세하게 설명한다. 응당 이해해야 할 것은, 여기서 묘사하는 구체적인 실시예는 단지 본 발명을 해석하기 위한 것으로 본 발명을 한정하지 않는다.
본 발명은 데이터 그리드 Gx를 정의하는 것을 통하여 데이터를 저장하고, 사분위수 그래프로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정하여 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현하는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템을 제공한다.
도1은 본 발명의 일 실시예에서 제공하는 사분위수 그래프에 기반하는 데이터 품질 측정 방법의 구체적인 흐름 모식도이고, 상기 방법의 구체적인 단계는 하기와 같다.
단계S110에 있어서, 데이터 그리드 Gx를 정의하고 다양한 트랜드 라인을 피팅한다.
본 발명의 일 실시예에 있어서, 사분위수 그래프로 2차원 데이터를 제시하고 분석하기 위하여, 응당 먼저 Gx를 정의해야 하고, 만약 독립변수X와 종속변수Y 간의 분포 상황을 제시해야 한다면, 독립변수X를 이산화시켜야 하며, 제시의 편의를 위하여, X의 최대치와 최소치를 조정하는 것이 더 필요하고, X의 값의 범위를 일련의 Gx로 등분하여야 한다. 이에 근거하여, 도2에 도시된 바와 같이, Gx를 하기와 같이 정의한다.
Gx{x1,x2}를 G{(x,y)|x1<=x<x2}로 정의하고, Gx로 약칭하며, 즉 x1<=x<x2에 부합되는 모든 점(x,y)이다.
상기 Gx의 제시 스케일은 네가지를 포함하고 네가지 제시 스케일 간의 상호 전환을 지지한다.
단계S120에 있어서, 데이터 소스를 스캐닝하고 저장하며, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시한다.
본 발명의 일 실시예에 있어서, 상기 데이터 그리드 Gx를 정의하는 단계는 데이터 소스를 스캐닝하기 전에 진행하고, 상기 데이터 소스를 스캐닝하고 저장하는 단계는, 데이터 소스를 스캐닝하고 매 하나의 기록되는 X값과 Y값(x와 y)을 판독하는 단계를 포함한다. 데이터 소스를 스캐닝하기 전에, 본 발명은 X축의 값의 구간에 따라 X의 최대값과 최소값을 조정하여 최대값과 최소값이 모두 10의 n제곱(n은 정수)의 배수로 되고, 즉 Xmin(또는 Xmax)=m*10^n이다. 만약 X의 실제 값의 구간이 [0.1,983.7]이면, 수정 후의 X의 최소값은 0이고 최대값은 1000이며, 즉 값의 구간이 [0,1000]로 변한다. 다음 데이터 소스를 스캐닝하고 매 하나의 기록되는 X와 Y의 값(x와 y)을 인출하여, X축의 제시 스케일에 근거하여 x및 y와 대응되는 데이터 그리드 Gx를 산출하고, 대응되는 데이터를 Gx에 저장한다. 만약 x=155.3이고 X축의 스케일이 "10"일 경우, 155.3/10=15.53이고 Gx는 Gx{150,160}이며, 스케일이 1일 경우, Gx{155,156}에 속한다. 산출해 낸 x및 y와 대응되는 데이터 그리드 Gx는 하한 사분위수, 제1 사분위수, 중앙값, 제3 사분위수와 상한 사분위수를 포함한다.
단계S120에 있어서, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시한다.
본 발명의 일 실시예에 있어서, 사분위수 그래프에서 트랜드 라인을 선택하고 데이터 제시하며 상기 사분위수 그래프가 제시하는 데이터는 Gx에 저장되는 상기 데이터이다. 본 발명은 사분위수 그래프로 2차원 데이터를 제시하는 것을 실현하는 바, 상기 트랜드 라인의 피팅은 매 하나의 제시 스케일 레벨 내의 모든 x와 y의 평균값에 근거하여 진행하고, 상기 선택하는 트랜드 라인의 종류는 하기와 같다.
직선: y = a + b * x;
로그 곡선: y = a + b*ln(x + 1);
지수 곡선: y = k + a* b^x;
2차곡선: y = a + b * x + c * x^2;
곰페르츠 곡선: y = k * a^(b^x);
로지스틱 곡선: y = 1/(k + a* b^x);
주기 곡선: y = a*x + b*sin(c*x+d).
본 발명의 일 실시예에 있어서, 상기 다양한 트랜드 라인은 리스트의 형식으로 사분위수 그래프에 표시되고, 상기 트랜드 라인의 선택은 데이터의 실제 상황에 근거하여 진행되며, 예를 들면 트랜드 라인을 로그 곡선으로 고치는 것이다. 사분위수 그래프에 표시되는 피팅된 트랜드 라인의 파라미터가 제시 수요를 만족할 경우, 본 발명은 수동으로 트랜드 라인을 조정할 수 있고, 상기 조정 방법은 사분위수 그래프에서 직접 트랜드 라인의 공식을 수정하는 것과 사분위수 그래프에서 마우스를 드래그하여 트랜드 라인의 변화를 실시간으로 제시하는 두가지인 것이 바람직하다.
단계S130에 있어서, 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성한다.
본 발명의 일 실시예에 있어서, 데이터 품질 규칙을 생성하는 단계는, 가령 트랜드 라인이 y=f(x)이면, 어느 한 x값에 대하여, 트랜드 라인에 근거하여 목표값y를 산출해 낼 수 있는 단계; 목표값에 하나의 변동 범위를 설정하여 데이터 품질 규칙을 생성하는 단계를 포함하고, 그 중에서, 변동 범위의 설정은 절대치 또는 백분율의 방식일 수 있다. 가령 트랜드 라인이 y=f(x)이면, 어느 한 x값에 대하여, 트랜드 라인에 근거하여 목표값 y를 산출해 낼 수 있고, 목표값에 하나의 합리적인 변동 범위(한계값)를 주어 데이터 품질 규칙을 구성한다. 변동 범위는 두가지 정의 방식을 구비하는 바, 한가지는 절대치이고, 만약 상한을 50으로, 하한을 40으로 정의하면 목표값이 200일 경우, 실제값은 구간 [160,250] 내에서 모두 합리하다. 다른 한가지 방식은 백분율이고, 만약 상한/하한이 모두 20%이며 목표값이 200일 경우, 실제값은 구간 [160,240] 내에서 모두 합리하다. 데이터 규칙을 정의한 후 규칙 베이스에 저장할 수 있고, 추후에 필요할 경우, 직접 규칙 데이스에서 상응한 규칙을 취하여 사용할 수 있다.
단계S140에 있어서, 적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질 측정을 진행한다.
본 발명의 일 실시예에 있어서, 데이터 품질을 측정하는 단계는, 사분위수 그래프에서 데이터가 제시한 실제 상황에 근거하여 적절한 데이터 품질 규칙을 선정하고, 매 하나의 입력 데이터(x, y)에 대해 상기 규칙의 트랜드 라인 기술에 근거하여 x와 대응되는 목표값 y'를 산출하는 단계; 한계값의 크기 또는 백분율을 설정하여 목표값의 합리한 구간을 산출해 내서 실제값 y의 데이터 품질 상황을 판단하는 단계를 포함한다. 가령 데이터 규칙의 트랜드 부분이 y=37.9 + 20*x/1000이면, 한계값 부분은 백분율 20%이다. 입력 데이터(10000,213)에 있어서, 산출해 낼 수 있는 목표값은 37.9+20*10/1000=237.9이고, 합리한 구간은 [237.9*0.8,237.9*1.2]=[190.32,285.48]이며, 실제값 213은 상기 구간에 속하므로, 데이터(10000,213)는 합리적인 데이터이다. 마찬가지로, (32000,511)은 비정상 데이터로 판정할 수 잇다. 본 발명은 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정하여 데이터 품질 측정을 진행하여 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다.
본 발명의 다른 일 실시예는,
데이터 그리드 Gx를 정의하고 다양한 트랜드 라인을 피팅하기 위한 트랜드 라인 피팅 수단; 데이터 소스를 스캐닝하고 저장하며, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 데이터를 제시하기 위한 데이터 소스 판독 수단; 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하기 위한 데이터 품질 규칙 생성 수단; 적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질 측정을 진행하기 위한 품질 측정 수단을 포함하는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템을 제공하는 바, 사분위수 그래프에서 트랜드 라인을 선택하고 데이터 제시를 진행하기 위한 데이터 제시 수단을 포함하는 것을 특징으로 한다. 본 발명은 데이터 그리드 Gx를 정의하는 것을 통하여 데이터를 저장하고, 사분위수 그래프로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정하여 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다.
상기 내용은 구체적이고 바람직한 실시형태를 결부하여 본 발명에 대해 진일보로 상세하게 설명한 것으로, 본 발명의 구체적인 실시를 단지 이러한 설명으로 제한하지 말아야 한다. 본 발명이 속하는 기술분야의 통상적인 지식을 가진 자에게 있어서, 본 발명의 구상을 벗어나지 않은 전제하에서 약간의 간단한 추론 또는 교체를 진행할 수도 있다.

Claims (15)

  1. 사분위수 그래프에 기반하는 데이터 품질 측정 방법으로서,
    데이터 그리드 Gx를 정의하고 복수의 트랜드 라인(trend line)들을 피팅(fitting)하는 단계;
    데이터 소스를 스캐닝하고 저장하며, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 데이터를 표시하는 단계;
    확정된 트랜드 라인의 유형과 파라미터들에 근거하여 데이터 품질 규칙들을 생성하는 단계;
    적절한 데이터 품질 규칙들을 선정하고 한계값에 근거하여 데이터 품질을 측정하는 단계를 포함하고,
    사분위수 그래프에서 트랜드 라인을 선택하고 데이터 표시를 실행하는,
    사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  2. 제1항에 있어서,
    데이터 소스를 스캐닝하기 전에 데이터 그리드 Gx를 정의하는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  3. 제1항에 있어서,
    상기 데이터 소스를 스캐닝하고 저장하는 단계는,
    데이터 소스를 스캐닝하고 매 하나의 기록되는 X값과 Y값(x와 y)을 판독하는 단계;
    X축의 표시 스케일에 근거하여 x 및 y와 대응되는 데이터 그리드 Gx를 산출하고 대응되는 데이터를 Gx에 저장하는 단계를 포함하는,
    사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  4. 제1항 내지 제3항 중의 어느 한 항에 있어서,
    상기 사분위수 그래프가 표시하는 데이터는 Gx에 저장되는 상기 데이터인, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  5. 제1항 또는 제3항에 있어서,
    상기 산출된 x및 y와 대응되는 데이터 그리드 Gx는 하한 사분위수, 제1 사분위수, 중앙값, 제3사분위수와 상한 사분위수를 포함하는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  6. 제1항에 있어서,
    상기 복수의 트랜드 라인들을 피팅하는 단계는,
    모든 유효한 데이터 그리드들 Gx의 전체 레코드 개수 및 합에 근거하여 x의 평균치 및 y의 평균치를 산출하는 단계;
    상기 Gx의 X의 전체 평균치와 Y의 전체 평균치를 산출하고 상기 전체 평균치들에 근거하여 매 종류의 트랜드 라인을 피팅하는 단계를 포함하는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  7. 제1항 또는 제3항에 있어서,
    상기 복수의 트랜드 라인들은 리스트의 형식으로 사분위수 그래프에 표시되는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  8. 제1항에 있어서,
    선택한 상기 트랜드 라인은 수동으로 조정할 수 있는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  9. 제1항 또는 제8항에 있어서,
    상기 수동으로 조정하는 것은 사분위수 그래프에서 트랜드 라인의 공식을 직접적으로 수정하는 것을 포함하는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  10. 제1항 또는 제8항에 있어서,
    상기 수동으로 조정하는 것은 사분위수 그래프에서 마우스를 드래그하여 트랜드 라인의 변화를 실시간으로 표시하는 것을 포함하는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  11. 제1항에 있어서,
    상기 데이터 품질 규칙들을 생성하는 단계는 트랜드 라인에 근거하여 목표값을 산출하고, 목표값에 대하여 하나의 변동 범위를 설정하는 것을 포함하는, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  12. 제1항 또는 제11항에 있어서,
    상기 변동 범위는 하나의 절대치인, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  13. 제1항 또는 제11항에 있어서,
    상기 변동 범위는 백분율인, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  14. 제1항에 있어서,
    상기 데이터 품질을 측정하는 단계는 선정된 데이터 품질 규칙과 한계값에 따라 측정을 실행하고, 상기 한계값은 상기 변동 범위인, 사분위수 그래프에 기반하는 데이터 품질 측정 방법.
  15. 데이터 그리드 Gx를 정의하고 다양한 트랜드 라인을 피팅하기 위한 트랜드 라인 피팅 수단; 데이터 소스를 스캐닝하고 저장하며, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 데이터를 제시하기 위한 데이터 소스 판독 수단; 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하기 위한 데이터 품질 규칙 생성 수단; 적절한 데이터 품질 규칙을 선정하고, 한계값에 근거하여 데이터 품질 측정을 진행하기 위한 품질 측정 수단을 포함하는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템에 있어서,
    사분위수 그래프에서 트랜드 라인을 선택하고 데이터 제시를 진행하기 위한 데이터 제시 수단을 포함하는 것을 특징으로 하는 사분위수 그래프에 기반하는 데이터 품질 측정 시스템.
KR1020157018966A 2013-09-26 2014-08-18 사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템 KR101635150B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310443085.6 2013-09-26
CN201310443085.6A CN103473472B (zh) 2013-09-26 2013-09-26 一种基于四分位图的数据质量检测方法及系统
PCT/CN2014/084612 WO2015043335A1 (zh) 2013-09-26 2014-08-18 一种基于四分位图的数据质量检测方法及系统

Publications (2)

Publication Number Publication Date
KR20150093842A true KR20150093842A (ko) 2015-08-18
KR101635150B1 KR101635150B1 (ko) 2016-06-30

Family

ID=49798319

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157018966A KR101635150B1 (ko) 2013-09-26 2014-08-18 사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템

Country Status (5)

Country Link
US (1) US20160196311A1 (ko)
KR (1) KR101635150B1 (ko)
CN (1) CN103473472B (ko)
GB (1) GB2523287A (ko)
WO (1) WO2015043335A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102218111B1 (ko) * 2019-09-09 2021-02-23 한국전력공사 주파수 조정용 에너지 저장 시스템 성능 평가 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473472B (zh) * 2013-09-26 2017-06-06 深圳市华傲数据技术有限公司 一种基于四分位图的数据质量检测方法及系统
CN106326064B (zh) * 2015-06-30 2020-07-31 阿里巴巴集团控股有限公司 一种数据对象异常状态的识别方法和设备
US11456885B1 (en) 2015-12-17 2022-09-27 EMC IP Holding Company LLC Data set valuation for service providers
US10528522B1 (en) 2016-03-17 2020-01-07 EMC IP Holding Company LLC Metadata-based data valuation
US10838946B1 (en) * 2016-03-18 2020-11-17 EMC IP Holding Company LLC Data quality computation for use in data set valuation
US10789224B1 (en) 2016-04-22 2020-09-29 EMC IP Holding Company LLC Data value structures
US10671483B1 (en) 2016-04-22 2020-06-02 EMC IP Holding Company LLC Calculating data value via data protection analytics
US10838965B1 (en) 2016-04-22 2020-11-17 EMC IP Holding Company LLC Data valuation at content ingest
US10210551B1 (en) 2016-08-15 2019-02-19 EMC IP Holding Company LLC Calculating data relevance for valuation
CN106407329B (zh) * 2016-09-05 2019-06-25 国网江苏省电力公司南通供电公司 海量平台往hadoop平台自动化导入增量数据的方法
US10719480B1 (en) 2016-11-17 2020-07-21 EMC IP Holding Company LLC Embedded data valuation and metadata binding
US11037208B1 (en) 2016-12-16 2021-06-15 EMC IP Holding Company LLC Economic valuation of data assets
CN107657544A (zh) * 2017-09-14 2018-02-02 国网辽宁省电力有限公司 一种改进的电费自动缴纳方法及系统
CN109902081A (zh) * 2019-01-30 2019-06-18 美林数据技术股份有限公司 数据质量管理方法及装置
JP2020134809A (ja) 2019-02-22 2020-08-31 セイコーエプソン株式会社 プロジェクター
CN113140021B (zh) * 2020-12-25 2022-10-25 杭州今奥信息科技股份有限公司 矢量线生成方法、系统及计算机可读存储介质
US11921698B2 (en) * 2021-04-12 2024-03-05 Torana Inc. System and method for data quality assessment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981112A (ja) * 1995-09-11 1997-03-28 Hitachi Eng Co Ltd グラフ表示処理装置及びグラフ表示処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4368880B2 (ja) * 2006-01-05 2009-11-18 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、画像処理プログラム、コンピュータ読み取り可能な記録媒体
US7788280B2 (en) * 2007-11-15 2010-08-31 International Business Machines Corporation Method for visualisation of status data in an electronic system
CN101571891A (zh) * 2008-04-30 2009-11-04 中芯国际集成电路制造(北京)有限公司 异常数据检验方法和装置
CN103080773B (zh) * 2010-07-08 2015-10-14 Sk电信有限公司 利用无线lan无线电波环境图来估计ap位置的方法和装置
WO2012018303A1 (en) * 2010-08-03 2012-02-09 Agency For Science, Technology And Research Corneal graft evaluation based on optical coherence tomography image
CN101982820B (zh) * 2010-11-22 2011-12-07 北京航空航天大学 一种大数据量的曲线显示查询方法
CN102545211B (zh) * 2011-12-21 2013-11-06 西安交通大学 一种通用的用于风电功率预测的数据预处理装置及方法
US9311899B2 (en) * 2012-10-12 2016-04-12 International Business Machines Corporation Detecting and describing visible features on a visualization
CN102981834A (zh) * 2012-11-05 2013-03-20 成都主导软件技术有限公司 一种检测数据趋势图的生成方法
KR20140088691A (ko) * 2013-01-03 2014-07-11 삼성전자주식회사 Dvfs 정책을 수행하는 시스템-온 칩 및 이의 동작 방법
CN103473472B (zh) * 2013-09-26 2017-06-06 深圳市华傲数据技术有限公司 一种基于四分位图的数据质量检测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981112A (ja) * 1995-09-11 1997-03-28 Hitachi Eng Co Ltd グラフ表示処理装置及びグラフ表示処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102218111B1 (ko) * 2019-09-09 2021-02-23 한국전력공사 주파수 조정용 에너지 저장 시스템 성능 평가 방법

Also Published As

Publication number Publication date
KR101635150B1 (ko) 2016-06-30
CN103473472B (zh) 2017-06-06
CN103473472A (zh) 2013-12-25
GB2523287A (en) 2015-08-19
US20160196311A1 (en) 2016-07-07
WO2015043335A1 (zh) 2015-04-02
GB201511185D0 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
KR101635150B1 (ko) 사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템
KR101587018B1 (ko) 산점도에 기반하는 데이터 품질 측정 방법
CN107564069B (zh) 标定参数的确定方法、装置及计算机可读存储介质
DE112014005866B4 (de) Verbesserung der plenoptischen Kameraauflösung
EP2620916A2 (en) Visualization of uncertain times series
US20130251195A1 (en) Electronic device and method for measuring point cloud of object
Basinger et al. Pattern center determination in electron backscatter diffraction microscopy
US10930021B2 (en) Guided generation of color gradients via adjustable color map paths through color space elements of graphical interfaces
US8666708B2 (en) PID adjustment support device and method
JP2017508512A (ja) スカウト画像に基づいて走査パラメータを決定するための医療用走査のシステムおよび方法
WO2017173863A1 (zh) 伽马调制方法
US12001516B2 (en) Method and assistance system for parameterizing an anomaly detection method
JP5916052B2 (ja) 位置合わせ方法
CN105139345B (zh) 一种优质非标准Gamma曲线的自动搜索方法
US9478052B2 (en) Visualization method and system based on quartile graph display data
CN108447456B (zh) 一种影像显示校正方法及装置
CN114222101B (zh) 一种白平衡调节方法、装置及电子设备
JP2014020925A (ja) X線分析装置、x線分析システム、x線分析方法およびx線分析プログラム
US9638570B2 (en) Calibration method for capacitance level sensing apparatus and anti-interference method for plural capacitance level sensing apparatuses
US8805809B2 (en) Autotransform system
CN113724179B (zh) 一种空间亮度评价指标的计算方法及装置
Walker An alternative method for deriving a USLE nomograph K factor equation
CN113506005B (zh) 一种ct教学模拟方法、系统、存储介质及电子设备
JPWO2019176012A1 (ja) 画像処理方法、画像処理装置、ユーザインタフェース装置、画像処理システム、およびサーバ
Oberleiter et al. Fuzinsumo‐Fuzzy investigation with surrogate models

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant