KR101587018B1 - 산점도에 기반하는 데이터 품질 측정 방법 - Google Patents

산점도에 기반하는 데이터 품질 측정 방법 Download PDF

Info

Publication number
KR101587018B1
KR101587018B1 KR1020157018964A KR20157018964A KR101587018B1 KR 101587018 B1 KR101587018 B1 KR 101587018B1 KR 1020157018964 A KR1020157018964 A KR 1020157018964A KR 20157018964 A KR20157018964 A KR 20157018964A KR 101587018 B1 KR101587018 B1 KR 101587018B1
Authority
KR
South Korea
Prior art keywords
data
trend
trend line
data quality
scatter plot
Prior art date
Application number
KR1020157018964A
Other languages
English (en)
Other versions
KR20150095874A (ko
Inventor
밍싱 왕
웬페이 판
시베이 지아
Original Assignee
센젠 아우다크 데이터 테크놀로지 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센젠 아우다크 데이터 테크놀로지 리미티드 filed Critical 센젠 아우다크 데이터 테크놀로지 리미티드
Publication of KR20150095874A publication Critical patent/KR20150095874A/ko
Application granted granted Critical
Publication of KR101587018B1 publication Critical patent/KR101587018B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern

Abstract

본 발명은, 데이터 그리드의 Gxy를 정의하고 다양한 트랜드 라인을 피팅하는 단계; 산점도로 데이터를 제시하고 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시하는 단계; 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하는 단계; 적절한 데이터 품질 규칙을 선정하고, 한계값에 근거하여 데이터 품질 측정을 진행하는 단계를 포함하는 산점도에 기반하는 데이터 품질 측정 방법을 제공한다. 본 발명은 데이터 그리드의 Gxy를 정의하는 것을 통하여 데이터를 저장하고, 산점도로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써 상기 규칙에 근거하여 한계값을 설정해 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다. 이 밖에, 본 발명의 다른 일 실시예는 산점도에 기반하는 데이터 품질 측정 시스템을 제공한다.

Description

산점도에 기반하는 데이터 품질 측정 방법{DATA QUALITY MEASUREMENT METHOD BASED ON A SCATTER PLOT}
본 발명은 데이터 분야에 관한 것이고, 특히 산점도에 기반하는 데이터 품질 측정 방법 및 시스템에 관한 것이다.
산점도는 산점 분포도라고도 하는 바, 하나의 변량을 가로 좌표로 하고, 다른 하나의 변량을 세로 좌표로 하며 산점(좌표점)의 분포 형태를 사용하여 변량의 통계 관계를 반영하는 도형이다. 특징은 영향 요소와 예측 대상 간의 총체적인 관계의 트랜드를 표현하는 것이다. 장점은 직관적으로 눈에 띄는 그래픽스 모드(graphics mode)로 변량 간의 관계의 변화 형태를 반영하여, 어떤 종류의 수학 표현 방식으로 변량 간의 관계를 시뮬레이션할 것인가를 결정하는 것이다. 산점도는 변량 간의 관계 유형의 정보를 전달할 수 있을뿐만 아니라, 변량 간의 관계의 명확한 정도를 반영할 수도 있다. 간단한 산점도는 소량의 데이터만 표시할 수 있어, 데이터 크기가 방대한 상황에서 표시하는 점이 지나치게 많고 응답속도가 매우 느린 등 일련의 문제를 초래한다. 동시에 간단한 산점도는 단지 하나의 제시 도구로서, 인터랙티브 기능이 없고 데이터의 구체적 상황을 관찰할 수 없으며 데이터 오류를 정정하는 능력도 구비하지 않는다. 그러므로 산점도에 기반하여 2차원 데이터의 분포 상황을 제시하고 비정상 데이터에 대해 분석하고 오류를 정정하는 기능을 구비하는 방법이 필요하다.
따라서, 본 발명은 상기 흠결을 해결하기 위한 것이다.
아울러, 본 발명은 데이터 그리드의 Gxy를 정의하는 것을 통하여 데이터를 저장하고, 산점도로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정해 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현하는 산점도에 기반하는 데이터 품질 측정 방법 및 시스템을 제공한다.
따라서, 본 발명의 일 실시예는, 데이터 그리드의 Gxy를 정의하고 다양한 트랜드 라인을 피팅하는 단계; 산점도로 데이터를 제시하고 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시하는 단계; 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하는 단계; 적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질 측정을 진행하는 단계를 포함하는 산점도에 기반하는 데이터 품질 측정 방법을 제공한다.
본 발명의 일 실시예에 있어서, 데이터 그리드의 Gxy를 정의하고 다양한 트랜드 라인을 피팅하는 단계는,
데이터 그리드의 Gxy를 정의하고 데이터 소스를 스캔하는 단계;
데이터 소스를 판독하고 저장된 데이터를 분석하여 X축의 제시 스케일을 수정하는 단계;
매 하나의 유효 제시 스케일의 매 하나의 유효 데이터 그리드의 Gxy에 대하여, 전체 레코드 개수와 총계에 의해 X평균치, Y평균치를 산출해 내는 단계;
매 하나의 유효 제시 스케일의 매 하나의 Gx에 대하여, X의 전체 평균치와 Y의 전체 평균치를 산출하고 전체 평균치에 근거하여 매개 종류의 트랜드 라인을 피팅하는 단계를 포함한다.
사용하는 트랜드 라인의 종류는 직선, 로그 곡선, 지수 곡선, 2차곡선, 곰페르츠 곡선, 로지스틱 곡선, 주기 곡선 등을 포함하는 것이 바람직하다.
산점도로 제시하는 데이터 정보는 적어도 데이터 산점 정보, 모든 Gx평균선과 피팅해 낸 트랜드 라인 등을 포함하는 것이 바람직하다.
본 발명의 일 실시예에 있어서, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하는 단계는,
산점도에 트랜드 라인의 종류를 표시하고 데이터의 실제 트랜드에 근거하여 선택하는 단계;
피팅해 낸 트랜드 라인의 파라미터가 현재 데이터 표시를 만족시키지 않을 경우, 트랜드 라인의 파라미터를 수동으로 조정할 수 있는 단계를 포함하고, 그 중에서, 조정 방식은 산점도에서 트랜드 라인의 공식을 직접 수정하거나, 매 하나의 파라미터에 대한 마우스 드래그 수정을 지원하여 산점도에 마우스 드래그 수정할 때의 트랜드 라인의 변화 상황을 실시간으로 제시할 수 있는 것이다.
본 발명의 일 실시예에 있어서, 데이터 품질 규칙을 생성하는 단계는,
가령 트랜드 라인이 y=f(x)이면, 어느 하나의 x값에 대하여 트랜드 라인에 근거하여 목표값 y을 산출해 낼 수 있는 단계;
목표값에 하나의 한계값을 설정하여 데이터 품질 규칙을 생성하는 단계를 포함한다.
바람직하게는, 한계값은 절대치로 설정될 수 있다.
바람직하게는, 한계값은 백분율 방식으로 설정될 수 있다.
본 발명의 일 실시예에 있어서, 데이터 품질을 측정하는 단계는,
산점도에서 데이터 제시의 실제 상황에 근거하여 데이터 품질 규칙을 선정하고, 매 하나의 입력 데이터(x, y)에 대해 상기 규칙의 트랜드 라인 기술에 근거하여 x에 대응하는 목표값 y'을 산출하는 단계;
실제값 y의 데이터 품질 상황을 판단하도록, 한계값의 크기 또는 백분율을 설정하고, 목표값의 합리한 구간을 산출해 내는 단계를 포함한다.
본 발명의 다른 일 실시예는,
데이터 그리드 Gxy를 정의하는 것에 의해 다양한 트랜드 라인을 피팅한 정보를 획득하기 위한 트랜드 라인 피팅 수단;
산점도로 데이터를 제시하고 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시하는 데이터 제시 수단;
확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하고, 데이터 품질 규칙 정보를 획득하기 위한 데이터 품질 규칙 생성 수단;
적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질 측정을 진행하며 데이터 품질 측정 결과를 획득하기 위한 데이터 품질 측정 수단을 포함하는 산점도에 기반하는 데이터 품질 측정 시스템을 제공한다.
데이터 제시 수단이 선택하는 트랜드 라인의 종류는 직선, 로그 곡선, 지수 곡선, 2차곡선, 곰페르츠 곡선, 로지스틱 곡선, 주기 곡선 등을 포함하는 것이 바람직하다.
본 발명의 일 실시예에 있어서, 데이터 제시 수단이 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시하는 것은,
산점도에 트랜드 라인의 종류를 표시하고 데이터 실제 트랜드에 근거하여 선택하는 것;
피팅해 낸 트랜드 라인의 파라미터가 현재 데이터 표시를 만족시키지 않을 경우, 트랜드 라인의 파라미터를 수동으로 조정할 수 있는 것을 포함하고, 그 중에서,
조정 방식은 산점도에서 트랜드 라인의 공식을 수정하거나, 매 하나의 파라미터에 대한 마우스 드래그 수정을 지원하여 산점도에 마우스 드래그 수정할 때의 트랜드 라인의 변화 상황을 실시간으로 제시하는 것이다.
본 발명 일 실시예에 있어서, 상기 데이터 품질 규칙 생성 수단이 데이터 품질 규칙을 생성하는 것은,
가령 트랜드 라인이 y=f(x)이면, 어느 하나의 x값에 대하여 트랜드 라인에 근거하여 목표값 y을 산출해 낼 수 있는 것;
목표값에 하나의 한계값을 설정하여 데이터 품질 규칙을 생성하는 것을 포함한다. 본 발명은 데이터 그리드의 Gxy를 정의하는 것을 통하여 데이터를 저장하고, 산점도로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정해 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다.
도1은 본 발명의 일 실시예에서 제공한 산점도에 기반하는 데이터 품질 측정 방법의 구체적인 흐름 모식도이다.
도2는 본 발명의 일 실시예에서 정의한 데이터 그리드의 Gxy의 모식도이다.
본 발명의 목적, 과제의 해결수단 및 이점을 더 분명하게 하기 위하여, 아래에 도면 및 실시예를 결부하여 본 발명에 대해 진일보로 상세하게 설명한다. 응당 이해해야 할 것은, 여기서 묘사하는 구체적인 실시예는 단지 본 발명을 해석하기 위한 것으로 본 발명을 한정하지 않는다.
본 발명은 데이터 그리드의 Gxy를 정의하는 것을 통하여 데이터를 저장하고 산점도로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써, 상기 규칙에 근거하여 한계값을 설정해 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현하는 산점도에 기반하는 데이터 품질 측정 방법 및 시스템을 제공한다.
도1은 본 발명의 일 실시예에서 제공한 산점도에 기반하는 데이터 품질 측정 방법의 구체적인 흐름 모식도로서, 상기 방법의 구체적인 단계는 하기와 같다.
단계S110에 있어서, 데이터 그리드의 Gxy를 정의하고 다양한 트랜드 라인을 피팅한다.
단계S111에 있어서, 데이터 그리드의 Gxy를 정의하고 데이터 소스를 스캔한다.
본 발명의 실시예에 있어서, 간단한 산점도가 소량의 데이터의 분포 형태만 표시할 수 있고, 또한 간단한 산점도가 제시 데이터 크기가 거대할 경우 하나의 도형에서 모든 점을 제시할 수 없는 것을 해결하기 위하여, 본 발명은 산점도를 확장시킬 것이고 확장한 후의 산점도 중의 어느 한 점은 하나의 구체적인 기록점에 대응되는 것이 아니라, {x1<=x<x2, y1<=y<y2}에 부합되는 모든 기록점의 집합(데이터 그리드의 Gxy)이다. 도2에 도시된 바와 같이, 데이터 그리드의 Gxy를 하기와 같이 정의한다.
Gx{x1,x2}를 G{(x,y)|x1<=x<x2}로 정의하고, Gx으로 약칭하며, 즉 x1<=x<x2에 부합되는 모든 점(x,y)이다.
Gy{y1,y2}를 G{(x,y)|y1<=y<y2}로 정의하고, Gy로 약칭하며, 즉 y1<=y<y2에 부합되는 모든 점(x,y)이다.
데이터 그리드의 Gxy를 G{Gx,Gy}로 정의하고, 즉 Gx와 Gy에 동시에 부합되는 점이다.
단계S112에 있어서, 데이터 소스를 판독하고 저장된 데이터를 분석하여 X축의 제시 스케일을 수정한다.
데이터를 판독하기 전에 데이터 소스를 배치하여야 하고 데이터 소스를 배치하는 것은 독립변수 X와 종속변수 Y에 의거한다. 다음 데이터 소스를 스캔하여 Y값의 분포 상황과 변량 X, Y의 최소치와 최대치를 획득하고, X, Y의 값의 구간을 산출해 내며, 값의 구간에 따라 최소치, 최대치를 수정하고, X의 값의 구간에 따라 X축의 네가지 제시 스케일을 산출해 낸다. 매 하나의 기록된 X, Y 값의 x와 y에 따라, xy에 대응하는 곳의 데이터 그리드의 Gxy를 산출해 내고, 또한 저장된 데이터를 분석하여 X축의 제시 스케일을 수정하는 바, 만약 어느 작은 레벨의 스케일 중의 유효한 Gx 수량(Gx에서 레코드 개수가 0보다 크면 상기 Gx는 유효함)이 상급의 유효한 Gx 수량의 2배이면 상기 스케일을 삭제한다. 상기 스케일을 삭제하는 원인은 상기 레벨까지 확대할 경우, 정보가 많이 증가하지 않고 실제 데이터 목록이 효과적인 확대를 얻지 못하기 때문이다. 보류를 확정한 유효 제시 스케일에서 제일 큰 것이 초기 제시의 스케일이다.
단계S113에 있어서, 매 하나의 유효 제시 스케일의 매 하나의 유효 데이터 그리드의 Gxy에 대하여, 전체 레코드 개수와 총계에 의해 X평균치, Y평균치를 산출해 낸다.
단계S114에 있어서, 매 하나의 유효 제시 스케일의 매 하나 Gx에 대하여, X의 전체 평균치와 Y의 전체 평균치를 산출하고 전체 평균치에 근거하여 매 종류의 트랜드 라인을 피팅한다.
트랜드 라인 종류는,
직선: y = a + b * x;
로그 곡선: y = a + b*ln(x + 1);
지수 곡선: y = k + a* b^x;
2차곡선: y = a + b * x + c * x^2;
곰페르츠 곡선: y = k * a^(b^x);
로지스틱 곡선: y = 1/(k + a* b^x);
주기 곡선: y = a*x + b*sin(c*x+d)을 포함한다.
단계S120에 있어서, 산점도로 데이터를 제시하고 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시한다.
본 발명의 일 실시예에 있어서, 산점도의 방식으로 처리 후의 데이터를 제시하고, 처리 후의 데이터에서 매 하나의 데이터 그리드는 산점도 중의 하나의 점을 대표하며, 데이터 그리드{[x1,x2), [y1,y2)}에 있어서, 점의 위치는 {(x1+x2)/2, (y1+y2)/2}이고 점의 크기는 상기 데이터 그리드 내에 포함된 레코드 개수에 따라 정해진다. 산점도로 제시하는 데이터 정보는 적어도 데이터 산점 정보, 모든 Gx평균치와 피팅해 낸 트랜드 라인 등을 포함한다.
본 발명의 일 실시예에 있어서, 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하는 단계는, 산점도에 트랜드 라인의 종류를 표시하고 데이터 실제 트랜드에 근거하여 선택하는 단계; 피팅해 낸 트랜드 라인의 파라미터가 현재 데이터 표시를 만족시키지 않을 경우, 트랜드 라인의 파라미터를 수동으로 조정할 수 있는 단계를 포함하고, 그 중에서, 조정 방식은 산점도에서 트랜드 라인의 공식을 집적 수정하거나, 매 하나의 파라미터에 대한 마우스 드래그 수정을 지원하여 산점도에 마우스 드래그 수정할 때의 트랜드 라인의 변화 상황을 실시간으로 제시하는 것이다.
단계S130에 있어서, 확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성한다.
본 발명의 일 실시예에 있어서, 데이터 품질 규칙을 생성하는 단계는, 가령 트랜드 라인이 y=f(x)이면, 어느 하나의 x값에 대하여 트랜드 라인에 근거하여 목표값y을 산출해 낼 수 있는 단계; 목표값에 하나의 한계값을 설정하여 데이터 품질 규칙을 생성하는 단계를 포함하고, 그 중에서, 한계값은 절대치 또는 백분율 방식으로 설정될 수 있다. 가령 트랜드 라인이 y=f(x)이면, 즉 어느 하나의 x값에 대하여 트랜드 라인에 근거하여 목표값 y을 산출해 낼 수 있고, 목표값에 하나의 합리적인 변동 범위(한계값)를 주어 데이터 품질 규칙을 구성한다. 변동 범위는 두가지 정의 방식이 있는 바, 한가지는 절대치이고, 만약 상한을 50으로, 하한을 40으로 정의하면 목표값이 200일 경우, 실제값은 구간[160,250] 내에서 모두 합리하다. 다른 한가지 방식은 백분율이고, 만약 상한/하한이 모두 20%이며 목표값이 200일 경우, 실제값은 구간[160,240] 내에서 모두 합리하다. 데이터 규칙을 정의한 후 규칙 베이스에 저장할 수 있고, 추후에 필요할 경우, 직접 규칙 베이스에서 상응한 규칙을 취하여 사용할 수 있다.
단계S140에 있어서, 적절한 데이터 품질 규칙을 선정하여 한계값에 근거하여 데이터 품질 측정을 진행한다.
본 발명의 일 실시예에 있어서, 데이터 품질을 측정하는 단계는, 산점도에서 데이터 제시의 실제 상황에 근거하여 적절한 데이터 품질 규칙을 선정하고, 매 하나의 입력 데이터(x, y)에 대해 상기 규칙의 트랜드 라인 기술에 근거하여 x에 대응하는 목표값 y'을 산출하는 단계; 한계값의 크기 또는 백분율을 설정하여 목표값의 합리한 구간을 산출해 내서, 실제값 y의 데이터 품질 상황을 판단하는 단계를 포함한다. 가령 데이터 규칙의 트랜드 부분이 y=37.9 + 20*x/1000이면, 한계값 부분은 백분율 20%이다. 입력 데이터(10000,213)에 있어서, 산출해 낼 수 있는 목표값은 37.9+20*10/1000=237.9이고, 합리한 구간은 [237.9*0.8,237.9*1.2]=[190.32,285.48]이며, 실제값 213은 상기 구간에 속하므로, 데이터(10000,213)는 합리적인 데이터이다. 마찬가지로, (32000,511)은 비정상 데이터로 판정할 수 있다.
본 발명의 다른 일 실시예는,
데이터 그리드 Gxy를 정의하는 것에 의하여 다양한 트랜드 라인을 피팅한 정보를 획득하기 위한 트랜드 라인피팅 수단;
산점도로 데이터를 제시하고 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택해 제시하기 위한 데이터 제시 수단;
확정된 트랜드 라인의 유형과 파라미터에 근거하여 데이터 품질 규칙을 생성하고, 데이터 품질 규칙 정보를 획득하기 위한 데이터 품질 규칙 생성 수단;
적절한 데이터 품질 규칙을 선정하고 한계값에 근거하여 데이터 품질 측정을 진행하며 데이터 품질 측정 결과를 획득하기 위한 데이터 품질 측정 수단를 포함하는 산점도에 기반하는 데이터 품질 측정 시스템을 제공한다.
데이터 제시 수단이 선택하는 트랜드 라인의 종류는 직선, 로그 곡선, 지수 곡선, 2차곡선, 곰페르츠 곡선, 로지스틱 곡선, 주기 곡선 등을 포함하는 것이 바람직하다.
본 발명의 일 실시예에 있어서, 데이터 제시 수단이 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하여 제시하는 것은,
산점도에 트랜드 라인의 종류를 표시하고 데이터 실제 트랜드에 근거하여 선택하는 것;
피팅해 낸 트랜드 라인의 파라미터가 현재 데이터 표시를 만족시키지 않을 경우, 트랜드 라인의 파라미터를 수동으로 조정할 수 있는 것을 포함하고, 그 중에서,
조정 방식은 산점도에서 트랜드 라인의 공식을 직접 수정할 수 있거나, 매 하나의 파라미터에 대한 마우스 드래그 수정을 지원하여, 산점도에 마우스 드래그 수정할 때의 트랜드 라인의 변화 상황을 실시간으로 제시할 수 있는 것이다.
본 발명의 일 실시예에 있어서, 데이터 품질 규칙 생성 수단이 데이터 품질 규칙을 생성하는 것은, 가령 트랜드 라인이 y=f(x)이면 어느 하나의 x값에 대하여 트랜드 라인에 근거하여 목표값y을 산출해 낼 수 있는 것; 목표값에 하나의 한계값을 설정하여 데이터 품질 규칙을 생성하는 것을 포함한다. 본 발명은 데이터 그리드의 Gxy를 정의하는 것을 통하여 데이터를 저장하고 산점도로 데이터를 제시하며, 기 확정된 트랜드 라인에 근거하여 데이터 품질 규칙을 생성함으로써 상기 규칙에 근거하여 한계값을 설정해 데이터 품질 측정을 진행하여, 데이터 크기가 방대한 상황하에서 데이터에 대한 제시와 비정상 데이터의 분석, 데이터 오류 정정 등의 응용을 실현한다.
상기 내용은 구체적이고 바람직한 실시형태를 결부하여 본 발명에 대해 진일보로 상세하게 설명한 것으로, 본 발명의 구체적인 실시를 단지 이러한 설명으로 제한하지 말아야 한다. 본 발명이 속하는 기술분야의 통상적인 지식을 가진 자에게 있어서, 본 발명의 구상을 벗어나지 않은 전제하에서 약간의 간단한 추론 또는 교체를 진행할 수도 있다.

Claims (13)

  1. 데이터 품질 측정 시스템에 의해 수행되는 산점도에 기반하는 데이터 품질 측정 방법으로서,
    데이터 그리드(data grid)의 Gxy를 정의하고 복수의 트랜드 라인(trend line)들을 피팅(fitting)하는 단계;
    산점도(scatter plot)로 데이터를 표시하고 데이터의 실제 트랜드들에 근거하여 트랜드 라인을 선택하여 표시하는 단계;
    확정된 트랜드 라인의 유형과 파라미터(parameter)들에 근거하여 데이터 품질 규칙들을 생성하는 단계; 및
    적절한 데이터 품질 규칙들을 선정하고, 한계값에 근거하여 데이터 품질을 측정하는 단계를 포함하고,
    상기 데이터 그리드의 Gxy를 정의하고 복수의 트랜드 라인들을 피팅하는 단계는,
    데이터 그리드의 Gxy를 정의하고 데이터 소스를 스캔하는 단계;
    데이터 소스(data source)를 판독하고, 저장된 데이터를 분석하여 X축의 표시 스케일을 수정하는 단계;
    매 하나의 유효 표시 스케일의 매 하나의 유효 데이터 그리드의 Gxy에 대하여, X 및 Y의 전체 레코드 개수와 X 및 Y의 합에 의해 X 평균치 및 Y 평균치를 산출해 내는 단계; 및
    매 하나의 유효 표시 스케일의 매 하나의 Gx에 대하여, X의 전체 평균치와 Y의 전체 평균치를 산출하고 상기 전체 평균치들에 근거하여 모든 종류의 트랜드 라인을 피팅하는 단계를 포함하는,
    산점도에 기반하는 데이터 품질 측정 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 트랜드 라인들은 직선, 로그 곡선, 지수 곡선, 2차 곡선, 곰페르츠 곡선, 로지스틱 곡선, 주기 곡선을 포함하는, 산점도에 기반하는 데이터 품질 측정 방법.
  4. 제1항에 있어서,
    상기 산점도로 표시되는 데이터 정보는 적어도 데이터 산점 정보, 모든 Gx의 평균선, 및 피팅된 트랜드 라인들을 포함하는, 산점도에 기반하는 데이터 품질 측정 방법.
  5. 제1항에 있어서,
    상기 데이터의 실제 트랜드에 근거하여 트랜드 라인을 선택하는 단계는,
    산점도에 트랜드 라인의 종류를 표시하고, 데이터의 실제 트랜드들에 근거하여 선택을 실행하는 단계;
    피팅된 트랜드 라인의 파라미터들이 현재 데이터 표시를 만족시키지 않을 경우, 트랜드 라인의 파라미터들을 수동으로 조정하는 단계를 포함하고,
    상기 조정은 산점도에서 트랜드 라인의 공식을 직접 조정하거나, 매 하나의 파라미터에 대한 마우스 드래그 수정을 지원하여 산점도에 마우스로 드래그 수정할 때의 트랜드 라인의 변화 상황을 실시간으로 표시하는, 산점도에 기반하는 데이터 품질 측정 방법.
  6. 제1항에 있어서,
    상기 데이터 품질 규칙을 생성하는 단계는,
    트랜드 라인이 y=f(x)이면, 어느 하나의 x값에 대하여 트랜드 라인에 근거하여 목표값 y을 산출해 낼 수 있는 단계;
    목표값에 하나의 한계값을 설정하여 데이터 품질 규칙을 생성하는 단계를 포함하는, 산점도에 기반하는 데이터 품질 측정 방법.
  7. 제6항에 있어서,
    상기 한계값은 절대치로 설정된, 산점도에 기반하는 데이터 품질 측정 방법.
  8. 제6항에 있어서,
    상기 한계값은 백분율 방식으로 설정된, 산점도에 기반하는 데이터 품질 측정 방법.
  9. 제1항에 있어서,
    상기 데이터 품질을 측정하는 단계는,
    산점도에서 데이터 표시의 실제 상황에 근거하여 데이터 품질 규칙을 선정하고, 매 하나의 입력 데이터(x, y)에 대해 상기 규칙의 트랜드 라인 기술에 근거하여 x에 대응하는 목표값 y'를산출하는 단계;
    실제값 y의 데이터 품질을 판단하도록, 한계값의 크기 또는 백분율을 설정하고, 목표값의 합리적 구간을 산출하는 단계를 포함하는, 산점도에 기반하는 데이터 품질 측정 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
KR1020157018964A 2013-09-26 2014-08-18 산점도에 기반하는 데이터 품질 측정 방법 KR101587018B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310443454.1 2013-09-26
CN201310443454.1A CN103473473B (zh) 2013-09-26 2013-09-26 一种基于散点图的数据质量检测方法及系统
PCT/CN2014/084608 WO2015043333A1 (zh) 2013-09-26 2014-08-18 一种基于散点图的数据质量检测方法

Publications (2)

Publication Number Publication Date
KR20150095874A KR20150095874A (ko) 2015-08-21
KR101587018B1 true KR101587018B1 (ko) 2016-01-20

Family

ID=49798320

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157018964A KR101587018B1 (ko) 2013-09-26 2014-08-18 산점도에 기반하는 데이터 품질 측정 방법

Country Status (5)

Country Link
US (1) US20160284108A1 (ko)
KR (1) KR101587018B1 (ko)
CN (1) CN103473473B (ko)
GB (1) GB2523514A (ko)
WO (1) WO2015043333A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473473B (zh) * 2013-09-26 2018-03-02 深圳市华傲数据技术有限公司 一种基于散点图的数据质量检测方法及系统
CN104318061B (zh) * 2014-09-25 2018-02-02 北京国双科技有限公司 用于散点图的数据展示处理方法及装置
CN105303044A (zh) * 2015-10-27 2016-02-03 中国疾病预防控制中心环境与健康相关产品安全所 一种判断死因数据质量的方法
CN108960480A (zh) * 2018-05-18 2018-12-07 北京工业职业技术学院 沉降预测方法及装置
CA3159420A1 (en) * 2019-09-12 2021-03-18 Farmbot Holdings Pty Ltd System and method for data filtering and transmission management
CN110674126B (zh) * 2019-10-12 2020-12-11 珠海格力电器股份有限公司 得到异常数据的方法及系统
US11563447B2 (en) 2019-11-01 2023-01-24 International Business Machines Corporation Scatterplot data compression
CN110851497A (zh) * 2019-11-01 2020-02-28 唐山钢铁集团有限责任公司 一种检测转炉吹氧是否不着火的方法
CN112800602B (zh) * 2021-01-25 2023-05-23 国家能源集团新疆吉林台水电开发有限公司 一种安全监测数据的整体可视化分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571891A (zh) 2008-04-30 2009-11-04 中芯国际集成电路制造(北京)有限公司 异常数据检验方法和装置
US20130173191A1 (en) 2012-01-04 2013-07-04 General Electric Company Power curve correlation system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221388A (ja) * 1995-02-09 1996-08-30 Nec Corp フィッティングパラメータ決定方法
CN1288601C (zh) * 2003-09-12 2006-12-06 中国科学院力学研究所 基于自由曲面的三维散乱点集数据进行路径规划的方法
CN1555018A (zh) * 2003-12-25 2004-12-15 中国科学院力学研究所 一种反问题的计算机曲线拟合方法
US7065534B2 (en) * 2004-06-23 2006-06-20 Microsoft Corporation Anomaly detection in data perspectives
CN100363755C (zh) * 2005-04-21 2008-01-23 中国石油天然气集团公司 绘制含正断层地质体构造等值线图的矩形网网格化方法
CN102253714B (zh) * 2011-07-05 2013-08-21 北京工业大学 基于视觉决策的选择触发方法
CN103218523B (zh) * 2013-04-02 2016-02-17 南京航空航天大学 基于网格队列和分段拟合的机场噪声可视化方法
CN103473473B (zh) * 2013-09-26 2018-03-02 深圳市华傲数据技术有限公司 一种基于散点图的数据质量检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571891A (zh) 2008-04-30 2009-11-04 中芯国际集成电路制造(北京)有限公司 异常数据检验方法和装置
US20130173191A1 (en) 2012-01-04 2013-07-04 General Electric Company Power curve correlation system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RESHEF, David N. et al. ‘Detecting Novel Associations in Large Data sets’, Science, no. 10.1126(2011.12.16)

Also Published As

Publication number Publication date
US20160284108A1 (en) 2016-09-29
GB201511187D0 (en) 2015-08-12
CN103473473A (zh) 2013-12-25
KR20150095874A (ko) 2015-08-21
GB2523514A (en) 2015-08-26
CN103473473B (zh) 2018-03-02
WO2015043333A1 (zh) 2015-04-02

Similar Documents

Publication Publication Date Title
KR101587018B1 (ko) 산점도에 기반하는 데이터 품질 측정 방법
KR101635150B1 (ko) 사분위수 그래프에 기반하는 데이터 품질 측정 방법 및 시스템
CN102168945B (zh) 影像测量系统及方法
US20220051051A1 (en) Method and assistance system for parameterizing an anomaly detection method
CN103472979A (zh) 一种基于散点图展示数据的可视化方法及系统
JPWO2014125692A1 (ja) 非機能評価によるプロジェクト管理システム、非機能評価によるプロジェクト管理方法および非機能評価によるプロジェクト管理用プログラム
US9478052B2 (en) Visualization method and system based on quartile graph display data
KR102280389B1 (ko) 데이터 처리 방법, 데이터 처리 장치, 및 데이터 처리 프로그램을 저장한 컴퓨터 판독 가능한 기록 매체
US9356848B2 (en) Monitoring apparatus, monitoring method, and non-transitory storage medium
US20170115332A1 (en) Electricity consumption predicting system and electricity consumption predicting method applied for processing machine
CN115880087A (zh) 预算指标的测算方法、装置、电子设备和存储介质
KR20130085062A (ko) 리스크 관리 장치
JP2013120397A (ja) 製造ラインシミュレーションモデル構築方法、製造ラインシミュレーションモデル構築装置、及び製造ラインシミュレーションモデル構築プログラム
US8761515B2 (en) Electronic device and method for creating measurement codes
CN114222101A (zh) 一种白平衡调节方法、装置及电子设备
CN117193566B (zh) 触控屏检测方法、装置、电子设备和存储介质
TW201942817A (zh) 學習處理裝置、資料分析裝置、分析手法選擇方法及分析手法選擇程式
Sneed et al. Analyzing data on software evolution processes
CN109598442A (zh) 一种监理行为的评分方法及装置
CN113468158B (zh) 数据修复方法、系统、电子设备及介质
US11935277B2 (en) Generation method, training data generation device and program
CN108764625A (zh) 财务分析装置及方法
US11796987B2 (en) System and method for supporting production management
JP2010287026A (ja) プロジェクト管理システム及びプロジェクト管理プログラム
JP2018009887A (ja) 情報表示装置

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20181226

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191226

Year of fee payment: 5