KR101557854B1 - 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치 - Google Patents

이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치 Download PDF

Info

Publication number
KR101557854B1
KR101557854B1 KR1020147030103A KR20147030103A KR101557854B1 KR 101557854 B1 KR101557854 B1 KR 101557854B1 KR 1020147030103 A KR1020147030103 A KR 1020147030103A KR 20147030103 A KR20147030103 A KR 20147030103A KR 101557854 B1 KR101557854 B1 KR 101557854B1
Authority
KR
South Korea
Prior art keywords
information
abnormality
statistical
data
detection
Prior art date
Application number
KR1020147030103A
Other languages
English (en)
Other versions
KR20140147113A (ko
Inventor
정영임
김재훈
김정환
최호남
김환민
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of KR20140147113A publication Critical patent/KR20140147113A/ko
Application granted granted Critical
Publication of KR101557854B1 publication Critical patent/KR101557854B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

본 발명은 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치를 개시한다. 즉, 각각의 전자정보를 발행하는 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하고, 수집된 상기 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하며, 상기 이상탐지대상으로 결정된 이용통계데이터로부터 유형별 이상을 탐지함으로써, 이용통계데이터에 대한 신뢰도와 정확성을 향상시킬 수 있다.

Description

이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치{SYSTEM FOR AUTOMATICALLY DETECTING ABNORMALITIES STATISTICAL DATA ON USAGE, METHOD THEREFOR, AND APPARATUS APPLIED TO SAME}
본 발명은 전자정보를 발행하는 다수의 정보공급사로부터 수집된 대규모의 전자정보에 대한 이용통계데이터에서 유형별 이상을 탐지하여 탐지된 이상과 관련한 메시지를 관리자에게 전달하기 위한 방법에 관한 것이다.
인터넷은 산업의 전부분에 걸쳐 효율성과 생산성 제고를 위한 전략적인 도구로서 중요성이 급속히 증대되어, 인터넷을 통한 새로운 비즈니스 기회가 지속적으로 창출됨은 물론, 그 영역도 확장되고 있는 추세이다.
이에, 신문, 잡지, 책 등의 종이를 이용한 인쇄물들이 점차 퇴보하는 반면, 이들 인쇄물을 디지털화하는 전자정보 서비스와 함께 이러한 전자정보 서비스를 이용하는 사용자들은 점차 증가하고 있다.
여기서, 전자정보 서비스의 경우, 개별 정보공급사에서 예컨대, 논문, 학술지, 잡지 등의 정기 간행물을 전자문서의 형태의 전자정보로서 발행하여 제공하는 것이 그 대표적인 서비스 예라고 할 수 있다.
한편, 전자정보 서비스를 제공하는 정보공급사에서는, 전술한 바와 같이 전자정보의 발행뿐만 아니라, 발행된 전자정보의 이용과 관련된 이용통계데이터를 함께 생성함으로써, 이를 수집하여 활용할 수 있도록 하고 있다.
헌데, 전술한 전자정보의 이용과 관련된 이용통계데이터의 경우, 다양한 주체에 의해 활용될 수 있는 데이터이므로 그 정확성이 요구되나, 각각의 정보공급사에서 자체적으로 생성되는 데이터이므로, 다양한 이상(오류)을 포함하고 있을 가능성이 높다 할 것이다.
이에, 전자정보와 관련된 이용통계데이터에 대한 신뢰도를 높이기 위해선, 수집된 이용통계데이터에 대한 통합적인 검증 방안이 요구된다 할 것이다.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 전자정보를 발행하는 다수의 정보공급사로부터 수집된 대규모의 전자정보에 대한 이용통계데이터에서 유형별 이상을 탐지하여 탐지된 이상과 관련한 메시지를 관리자에게 전달함으로써, 이용통계데이터에 대한 신뢰도와 정확성을 향상시키는데 있다.
상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 이상 자동 탐지 시스템은, 전자정보의 이용과 관련된 이용통계데이터를 각각 생성하는 다수의 정보공급사플랫폼장치; 및 상기 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하여, 수집된 상기 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하고, 상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하여 탐지된 상기 유형별 이상을 통지하기 위한 알림메시지를 생성하는 이상탐지장치를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 이상탐지장치는, 각각의 전자정보를 발행하는 다수의 정보공급사플랫폼장치로부터 수집된 전자정보의 이용과 관련된 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 탐지대상결정부; 및 상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하여 탐지된 유형별 이상이 통지되도록 하는 이상탐지부를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 이상탐지장치는, 상기 수집된 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 상기 유형별 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지를 생성하여 해당 정보공급사플랫폼장치에 전달하는 메시지전달부를 더 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 기준데이터포맷에는, XML(Extensible Markup Language) 데이터포맷이 포함되며, 상기 탐지대상결정부는, 상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정하는 것을 특징으로 한다.
보다 구체적으로, 상기 이용통계데이터에는, 상기 다수의 정보공급사플랫폼장치로부터 수집되는 각각의 전자정보의 이용통계데이터를 구분하기 위한 식별정보, 각각의 전자정보의 이용에 대한 통계수치정보, 및 각각의 전자정보에 대한 사용자의 이용 형태를 구분하기 위한 이용형태정보 중 적어도 하나가 포함되는 것을 특징으로 한다.
보다 구체적으로, 상기 이상탐지부는, 상기 식별정보를 기초로 특정 정보공급사플랫폼장치로부터 수집된 전자정보에 대하여 2 이상의 이용통계데이터가 존재하는지 여부를 확인하고, 상기 2 이상의 이용통계데이터가 존재하는 것으로 확인되면, 상기 2 이상의 이용통계데이터 각각에 대한 상기 통계수치정보를 확인하여, 상기 2 이상의 이용통계데이터 각각의 상기 통계수치정보가 서로 상이한 것으로 확인되는 경우를 상기 유형별 이상 중 하나로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 유형별 이상은, 2 이상의 단위기간이 포함되도록 지정된 이상탐지기간을 기초로 탐지되며, 상기 이상탐지부는, 상기 2 이상의 단위기간 각각에서의 상기 통계수치정보의 합산값과, 상기 이상탐지기간 동안의 상기 통계수치정보가 서로 일치하는지 여부를 확인하여, 서로 일치하지 않는 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 2 이상의 단위기간에서의 상기 통계수치정보는, 상기 이용형태정보를 기초로 구분되며, 상기 이상탐지부는, 상기 2 이상의 단위기간 각각에서의 상기 이용형태정보를 기초로 구분되는 통계수치정보의 각각의 합산값과, 상기 이상탐지기간 동안의 상기 통계수치정보가 서로 일치하는지 여부를 확인하여, 서로 일치하지 않는 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 유형별 이상은, 상기 2 이상의 단위기간 각각에서의 상기 통계수치정보의 변동추이를 기초로 탐지되며, 상기 이상탐지부는, 2 이상의 상기 이상탐지기간 각각에 대하여 상기 2 이상의 단위기간에서의 상기 통계수치정보의 변동추이 간의 차이를 확인하며, 상기 2 이상의 단위기간 중 특정 단위기간에서의 상기 통계수치정보의 변동추이 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 유형별 이상은, 상기 2 이상의 단위기간 각각에서의 상기 통계수치정보와 관련하여 지정된 기준값을 기초로 탐지되며, 상기 이상탐지부는, 상기 2 이상의 단위기간에서의 상기 통계수치정보와 상기 기준값 간의 차이를 확인하여, 상기 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제 3 관점에 따른 이상 자동 탐지 방법은, 다수의 정보공급사플랫폼장치 각각이 전자정보의 이용과 관련된 이용통계데이터를 각각 생성하는 데이터생성단계; 이상탐지장치가 상기 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하는 데이터수집단계; 상기 이상탐지장치가 수집된 상기 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 탐지대상결정단계; 상기 이상탐지장치가 상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하는 이상탐지단계; 및 상기 이상탐지장치가 탐지된 상기 유형별 이상을 통지하기 위한 알림메시지를 생성하는 메시지생성단계를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제 4 관점에 따른 이상탐지장치의 동작 방법은, 각각의 전자정보를 발행하는 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하는 데이터수집단계; 상기 수집된 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 탐지대상결정단계; 및 상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하는 이상탐지단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 방법은, 상기 수집된 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 상기 유형별 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지를 생성하여 해당 정보공급사플랫폼장치에 전달하는 메시지전달단계를 더 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 기준데이터포맷에는, XML(Extensible Markup Language) 데이터포맷이 포함되며, 상기 탐지대상결정단계는, 상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정하는 것을 특징으로 한다.
보다 구체적으로, 상기 이용통계데이터에는, 상기 다수의 정보공급사플랫폼장치로부터 수집되는 각각의 전자정보의 이용통계데이터를 구분하기 위한 식별정보, 각각의 전자정보의 이용에 대한 통계수치정보, 및 각각의 전자정보에 대한 사용자의 이용 형태를 구분하기 위한 이용형태정보 중 적어도 하나가 포함되는 것을 특징으로 한다.
보다 구체적으로, 상기 이상탐지단계는, 상기 식별정보를 기초로 특정 정보공급사플랫폼장치로부터 수집된 전자정보에 대하여 2 이상의 이용통계데이터가 존재하는지 여부를 확인하고, 상기 2 이상의 이용통계데이터가 존재하는 것으로 확인되면, 상기 2 이상의 이용통계데이터 각각에 대한 상기 통계수치정보를 확인하여, 상기 2 이상의 이용통계데이터 각각의 상기 통계수치정보가 서로 상이한 것으로 확인되는 경우를 상기 유형별 이상 중 하나로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 유형별 이상은, 2 이상의 단위기간이 포함되도록 지정된 이상탐지기간을 기초로 탐지되며, 상기 이상탐지단계는, 상기 2 이상의 단위기간 각각에서의 상기 통계수치정보의 합산값과, 상기 이상탐지기간 동안의 상기 통계수치정보가 서로 일치하는지 여부를 확인하여, 서로 일치하지 않는 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 2 이상의 단위기간에서의 상기 통계수치정보는, 상기 이용형태정보를 기초로 구분되며, 상기 이상탐지단계는, 상기 2 이상의 단위기간 각각에서의 상기 이용형태정보를 기초로 구분되는 통계수치정보의 각각의 합산값과, 상기 이상탐지기간 동안의 상기 통계수치정보가 서로 일치하는지 여부를 확인하여, 서로 일치하지 않는 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 유형별 이상은, 상기 2 이상의 단위기간 각각에서의 상기 통계수치정보의 변동추이를 기초로 탐지되며, 상기 이상탐지단계는, 2 이상의 상기 이상탐지기간 각각에 대하여, 상기 2 이상의 단위기간에서의 상기 통계수치정보의 변동추이 간의 차이를 확인하며, 상기 2 이상의 단위기간 중 특정 단위기간에서의 상기 통계수치정보의 변동추이 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
보다 구체적으로, 상기 유형별 이상은, 상기 2 이상의 단위기간 각각에서의 상기 통계수치정보와 관련하여 지정된 기준값을 기초로 탐지되며, 상기 이상탐지단계는, 상기 2 이상의 단위기간에서의 상기 통계수치정보와 상기 기준값 간의 차이를 확인하여, 상기 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 한다.
이에, 본 발명의 일 실시예에 따른 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치에 의하면, 전자정보를 발행하는 다수의 정보공급사로부터 수집된 대규모의 전자정보에 대한 이용통계데이터에서 유형별 이상을 탐지하여 탐지된 이상과 관련한 메시지를 생성 및 전달함으로써, 이용통계데이터에 대한 신뢰도와 정확성을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 이상 자동 탐지 시스템의 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 이상탐지장치의 구성도.
도 3은 본 발명의 일 실시예에 따른 이상탐지 동작을 설명하기 위한 도면.
도 4는 본 발명의 일 실시예에 따른 이상 자동 탐지 시스템에서의 동작 흐름을 설명하기 위한 개략적인 순서도.
도 5는 본 발명의 일 실시예에 따른 이상탐지장치의 동작을 설명하기 위한 개략적인 순서도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 이상 자동 탐지 시스템을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이상 자동 탐지 시스템은,
전자정보에 이용에 따른 이용통계데이터를 생성하는 정보공급사플랫폼장치(100) 및 다수의 상기 정보공급사플랫폼장치(100)로부터 전자정보의 이용통계데이터를 수집하여 이상을 탐지하는 이상탐지장치(200)를 포함하는 구성을 갖는다.
우선, 정보공급사플랫폼장치(100)는 개별 정보공급사에서 발행되는 전자정보를 배포하기 위한 플랫폼을 지칭하는 것으로서, 발행된 전자정보를 사용자가 이용할 수 있도록 사용자장치(도시안됨)에 배포하며, 전자정보에 대한 사용자의 이용 결과에 해당하는 상기 이용통계데이터를 생성하는 서버의 형태를 가질 수 있다.
여기서, 상기 전자정보는, 개별 정보공급사에서 발행되는 전자문서를 지칭하는 것으로서, 예컨대, 논문, 학술지, 잡지 등의 정기 간행물 등이 해당될 수 있다.
또한, 사용자장치는 정보공급사플랫폼장치(100)에 접속하여 전자정보를 수신하거나, 또는 정보공급사플랫폼장치(100)로부터 푸쉬(예: e-mail) 형태로 전달되는 전자정보를 수신하기 위한 사용자 디바이스를 지칭한다.
예를 들어, 사용자장치의 경우, 스마트폰, 개인용컴퓨터(PC), 노트북, 테블릿 PC, 및 PDA 등이 해당될 수 있으며, 이에 제한되는 것이 정보공급사플랫폼장치(100)와 연동 가능한 장치는 모두 포함될 수 있다.
그리고, 이상탐지장치(200)는 다수의 정보공급사플랫폼장치(100) 각각에서 생성되는 이용통계데이터를 수집하여, 수집한 대규모의 이용통계데이터 상의 이상을 탐지하기 위한 구성으로서, 이용통계데이터 수집 동작과, 이상 탐지를 위한 알고리즘을 구동하는 서버의 형태의 가질 수 있다.
한편, 본 발명의 일 실시예에 따르면, 이상탐지장치(200)에서는 다수의 정보공급사플랫폼장치(100)에서 생성된 전자정보의 이용통계데이터를 수집하여 대규모의 이용통계데이터에 대한 관리를 수행하도록 동작하고 있다.
여기서, 전자정보의 이용통계데이터의 경우, 전술한 바와 같이 각 정보공급사플랫폼장치(100)에서 전자정보의 배포 결과로서 개별적으로 생성되는 개별 생성 데이터를 일컫는다.
이에, 각각의 정보공급사플랫폼장치(100)에서는 전자정보의 이용통계데이터를 생성함에 있어서, 기본적인 데이터포맷 이외에 기타 데이터 생성에 요구되는 프로그램 또는 알고리즘을 공통적으로 적용하고 있지 않은 실정이다.
이로 인해, 전자정보 이용과 관련한 이용통계데이터의 경우, 다양한 주체에 의해 활용되는 정확성이 요구되는 데이터인 반면, 실질적으로 각 정보공급사플랫폼장치(100)에서 개별 생성됨에 따라, 다양한 이상(오류)을 포함하는 등 그 신뢰성이 낮다 할 것이다.
더욱이, 전자정보를 구독하는 이용자의 증가로 인해 전자정보의 이용통계데이터는 다양한 주체에 의해 월별로 생성되고 있으며, 이러한 대규모의 이용통계데이터를 일일이 검증하는 것은 실질적으로 불가능한 일이다 할 수 있다.
이에, 본 발명의 일 실시예에서는 다수의 정보공급사플랫폼장치(100)로부터 수집된 대규모의 전자정보와 관련된 이용통계데이터에서 유형별 이상을 탐지하여, 이를 관리자에게 통지하기 위한 방안을 제안하고자 하며, 이하에서는 이를 구체적으로 설명하기로 한다.
우선, 정보공급사플랫폼장치(100)는 전자정보의 이용과 관련된 이용통계데이터를 생성하는 기능을 수행한다.
보다 구체적으로, 정보공급사플랫폼장치(100)는 발행된 전자정보를 사용자가 이용할 수 있도록 사용자장치(도시안됨)에 배포하며, 전자정보에 대한 사용자의 이용 결과에 해당하는 상기 이용통계데이터를 지정된 기간마다 생성한다.
여기서, 지정된 기간은 예컨대, 년 단위, 분기 단위, 월 단위, 주 단위, 내지는 일 단위의 이용통계데이터의 생성 주기를 지칭하는 것으로, 이는 운용자의 지정에 따라 다양하게 지정되거나, 이상탐지장치(200)에서의 이용통계데이터의 수집 주기에 맞춰 달라질 수 있다.
그리고, 이상탐지장치(200)는 다수의 정보공급사플랫폼장치(100)로부터 이용통계데이터를 수집하는 기능을 수행한다.
보다 구체적으로, 이상탐지장치(200)는 각 정보공급사플랫폼장치(100)에서의 이용통계데이터 생성 주기 또는 자체 이용통계데이터 수집 주기에 따라, 다수의 정보공급사플랫폼장치(100) 각각으로부터 이용통계데이터를 수집하게 된다.
여기서, 이용통계데이터에는, 예컨대, 전자정보 명칭, 전자정보의 이용통계데이터를 구분하기 위한 식별정보, 전자정보를 발행하는 정보공급사 명칭, 정보공급사플랫폼장치(100)의 식별정보, 및 해당 전자정보의 이용에 대한 통계수치정보, 및 해당 전자정보에 대한 사용자의 이용 형태를 구분하기 위한 이용형태정보(예:PDF 이용, HTML 이용)가 포함될 수 있다.
또한, 이상탐지장치(200)는 수집된 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 기능을 수행한다.
보다 구체적으로, 이상탐지장치(200)는 수집된 이용통계데이터가 예컨대, XML(Extensible Markup Language) 데이터포맷인지 여부를 확인하고, 상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정한다.
또한, 이상탐지장치(200)는 이상탐지대상으로 결정된 이용통계데이터로부터 중복 통계 이상을 탐지하는 기능을 수행할 수 있다.
보다 구체적으로, 이상탐지장치(200)는 이상탐지대상으로 결정된 이용통계데이터의 식별정보를 기초로 특정 정보공급사플랫폼장치(100)로부터 발행된 동일한 전자정보에 대해 중복된 이용통계데이터가 존재하는 경우, 하나의 이용통계데이터만을 저장함으로써, 각각의 정보공급사플랫폼장치(100) 각각에 대응하여 하나의 전자정보에 대하여 하나의 이용통계데이터만이 데이터베이스에 적재될 수 있도록 한다.
이때, 이상탐지장치(200)는 서로 중복된 이용통계데이터 각각에 대한 통계수치정보를 확인하게 되며, 만약, 중복된 이용통계데이터 각각이 상이한 통계수치정보를 갖는 것으로 확인되는 경우, 이를 중복 통계 이상으로서 탐지하게 된다.
또한, 이상탐지장치(200)는 중복 통계 이상이 없는 이용통계데이터에 대한 통계수치정보의 이상을 탐지하는 기능을 수행할 수 있다.
보다 구체적으로, 이상탐지장치(200)는 이상탐지대상을 결정된 이용통계데이터에 대해 전술한 중복 통계 이상 탐지가 완료되는 경우, 정보공급사플랫폼장치(100) 각각의 전자정보에 대해, 단위기간으로 구분되는 이상탐지기간 동안의 상기 통계수치정보를 확인함으로써, 단위기간 대비 이상탐지기간 동안의 통계수치정보의 불일치 이상을 탐지하게 된다.
또한, 이상탐지장치(200)는 통계수치정보의 변동추이를 확인하여 이상을 탐지하는 기능을 수행할 수 있다.
보다 구체적으로, 이상탐지장치(200)는 단위기간 별로 상기 이용형태정보에 따라 구분되는 각각의 상기 통계수치정보를 기초로 단위기간 각각에서의 상기 통계수치정보의 변동추이를 확인하며, 특정 단위기간에서의 상기 통계수치정보의 변동추이가 상기 특정 단위기간에 대해 이전에 확인된 변동추이와 임계치 이상의 차이가 발생하는 경우를 이상으로서 탐지할 수 있다.
또한, 이상탐지장치(200)는 수집한 이용통계데이터로부터 이상이 탐지되면, 해당 상태를 통지하기 위한 알림메시지를 생성하여 전달하는 기능을 수행할 수 있다.
보다 구체적으로, 이상탐지장치(200)는 수집된 상기 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 전술한 바와 같은 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지(예: e-mail)를 생성하여 이를 시스템 관리자 또는 해당 정보공급사플랫폼장치(100)의 담당자에게 전달하게 된다.
이하에서는, 도 2를 참조하여 본 발명의 일 실시예에 따른 이상탐지장치(200)의 구성을 보다 구체적으로 설명하도록 한다.
즉, 이상탐지장치(200)는 다수의 정보공급사플랫폼장치(100)로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하기 위한 데이터수집부(210), 수집된 상기 이용통계데이터 중 이상탐지대상으로 결정하기 위한 탐지대상결정부(220) 및 이상탐지대상으로 결정된 이용통계데이터로부터 유형별 이상을 탐지하기 위한 이상탐지부(230)를 포함하는 구성을 갖는다.
또한, 이상탐지장치(200)는 전술한 구성 이외에 이상 상태에 대한 알림메시지를 전달하기 위한 메시지전달부(240)를 더 포함하는 구성을 가질 수 있다.
여기서, 전술한 데이터수집부(210), 탐지대상결정부(220), 이상탐지부(230), 및 메시지전달부(240)를 포함하는 이상탐지장치(200)의 구성 전체 내지는 일부는, 프로세서에 의해 실행되는 소프트웨어 모듈의 형태로서 구현되거나, 하드웨어로 구현될 수 있다.
우선, 데이터수집부(210)는 다수의 정보공급사플랫폼장치(100)로부터 이용통계데이터를 수집하는 기능을 수행한다.
보다 구체적으로, 데이터수집부(210)는 각 정보공급사플랫폼장치(100)에서의 이용통계데이터 생성 주기 또는 자체 이용통계데이터 수집 주기에 따라, 다수의 정보공급사플랫폼장치(100) 각각으로부터 이용통계데이터를 수집하게 된다.
여기서, 다수의 정보공급사플랫폼장치(100) 각각에서는, 전자정보를 사용자가 이용할 수 있도록 사용자장치(도시안됨)에 배포하며, 전자정보에 대한 사용자의 이용 결과에 해당하는 상기 이용통계데이터를 지정된 기간마다 생성함으로써, 수집할 수 있도록 한다.
그리고, 탐지대상결정부(220)는 수집된 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 기능을 수행한다.
보다 구체적으로, 탐지대상결정부(220)는 수집된 이용통계데이터가 XML(Extensible Markup Language) 데이터포맷인지 여부를 확인하고, 상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정한다.
이때, 탐지대상결정부(220)는 예컨대, XML 데이터포맷에서 정의된 문서 규격인 DTD(Document Type Definition) 문서를 기준으로 이상탐지대상을 결정하게 된다.
예를 들어, 탐지대상결정부(220)는, 문서에 대한 논리적, 물리적 구조와, 문서에서 허용되는 태그 엘리먼트 형, 각 태그 엘리먼트에 할당되어 있는 속성, 문서에 허용되는 엔티티, 및 외부 엔티티와 함께 사용되는 표기법 등의 데이터포맷을 확인하여, DTD 문서에 정의되는 기준에 부합되는 데이터포맷의 이용통계데이터만을 이상탐지대상으로서 결정할 수 있다.
그리고, 이상탐지부(230)는 이상탐지대상으로 결정된 이용통계데이터로부터 중복 통계 이상을 탐지하는 기능을 수행한다.
보다 구체적으로, 이상탐지부(230)는 이상탐지대상으로 결정된 이용통계데이터의 식별정보를 기초로 특정 정보공급사플랫폼장치(100)로부터 발행된 동일한 전자정보에 대해 중복된 이용통계데이터가 존재하는 지를 확인하여 중복 통계 이상을 확인할 수 있다.
예를 들어, 이상탐지부(230)는 특정 정보공급사플랫폼장치(100)로부터 발행된 동일한 전자정보와 관련된 이용통계데이터가 2 이상인 경우, 상기 2 이상의 이용통계데이터 중 특정 이용통계데이터 하나만을 저장함으로써, 각각의 정보공급사플랫폼장치(100) 각각에 대응하여 하나의 전자정보에 대하여 하나의 이용통계데이터만이 데이터베이스에 적재될 수 있도록 한다.
이때, 이상탐지부(230)는 상기 2 이상의 이용통계데이터 각각에 대한 통계수치정보를 확인하고, 확인된 통계수치정보가 서로 상이한 것으로 확인되는 경우, 이를, 중복 통계 이상으로서 탐지하게 된다.
또한, 이상탐지부(230)는 중복 통계 이상이 없는 이용통계데이터에 대한 통계수치정보의 이상을 탐지하는 기능을 수행할 수 있다.
보다 구체적으로, 이상탐지부(230)는 이상탐지대상을 결정된 이용통계데이터에 대해 전술한 중복 통계 이상 탐지가 완료되는 경우, 정보공급사플랫폼장치(100) 각각의 전자정보에 대해, 단위기간으로 구분되는 이상탐지기간 동안의 통계수치정보를 확인함으로써, 단위기간 대비 이상탐지기간 동안의 통계수치정보의 불일치 이상을 탐지하게 된다.
이때, 이상탐지부(230)는 단위기간별 상기 통계수치정보의 합산값이 상기 이상탐지기간 동안의 상기 통계수치정보와 일치하지 않는 것으로 확인되는 경우를 이상으로서 탐지할 수 있다.
예를 들어, 도 3 <a>에 도시한 바와 같이, 이상탐지기간을 1년으로 하고, 각각의 단위기간은 해당 년도의 매월로 결정하는 경우, 월별 통계수치정보의 합산값을 1년 동안의 전체 통계수치정보와 비교하고, 비교 결과 서로 일치하지 않는 것으로 확인되는 경우, 이를 이상으로서 탐지할 수 있다.
또한, 이상탐지부(230)는 단위기간 별로 전자정보를 이용에 적용된 이용형태정보(예: PDF or HTML)에 따라 구분되는 각각의 통계수치정보를 확인하고, 상기 단위시간 별 이용형태정보로 구분되는 각각의 상기 통계수치정보의 합산값이 이상탐지기간 동안의 통계수치정보와 일치하지 않는 것으로 확인되는 경우를 이상으로서 탐지할 수 있다.
예를 들어, 도 3 <b>에 도시한 바와 같이, 이상탐지기간을 1년으로 하고, 각각의 단위기간은 해당 년도의 매월로 결정하는 경우, 월별로 PDF 형식의 전자정보를 이용한 통계수치정보와, 이와 마찬가지로 HTML 형식의 전자정보를 이용한 통계수치정보의 합산값을 1년 동안의 전체 통계수치정보와 비교하고, 비교 결과, 서로 일치하지 않는 것으로 확인되는 경우, 이를 이상으로서 탐지할 수 있다.
또한, 이상탐지부(230)는 통계수치정보의 변동추이를 확인하여 이상을 탐지하는 기능을 수행할 수 있다.
보다 구체적으로, 이상탐지부(230)는 단위기간 별로 상기 이용형태정보에 따라 구분되는 각각의 상기 통계수치정보를 기초로 단위기간 각각에서의 상기 통계수치정보의 변동추이를 확인하며, 특정 단위기간에서의 상기 통계수치정보의 변동추이와 상기 특정 단위기간에 대해 이전에 확인된 변동추이 간의 차이가 임계치 이상인 경우를 이상으로서 탐지할 수 있다.
예를 들어, 도 3 <c>에 도시한 바와 같이, 매년 이상탐지기간을 1년으로 하고, 각각의 단위기간은 해당 년도의 매월로 결정하는 경우, 각 년도 별로 월간 통계수치정보의 변동추이를 확인한 결과, 특정 월(6월)에서의 변동추이 간 차이(증가/감소)가 임계치(예: 100배) 이상인 것이 확인되면, 해당 상태를 이상으로서 탐지할 수 있다.
한편, 이상탐지부(230)는 전술한 이상 탐지 방안 이외에, 통계수치정보와 관련하여 지정된 기준값을 기초로 이상을 탐지할 수 있다.
여기서, 통계수치정보와 관련하여 지정되는 기준값의 경우, 단위기간별 통계수치정보가 정상 범위에서 벗어나거나 특이한 이용패턴을 보이는 지를 탐지하기 위한 것으로서, 예컨대, 상기 통계수치정보의 평균값이 이에 해당될 수 있다.
즉, 이상탐지부(230)는 단위기간별 통계수치정보를 상기 지정된 기준값과 비교하여, 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되면 이를 정상 범위에서 벗어나거나 특이한 이용패턴을 보이는 이상으로서 탐지하게 되는 것이다.
이때, 이상탐지부(230)는 이상 탐지에 적용되는 방안으로서는 예컨대, 일변량 이상치 탐지(Univariate outlier detection), LOF 기반 이상치 탐지(Outlier Detection with Local Outlier Factor), 클러스터링을 이용한 이상치 탐지(Outlier Detection by Clustering) 및 시계열데이터 이상치 탐지(Outlier Detection from Time Series Data) 방안이 적용될 수 있다.
여기서, 상기 일변량 이상치 탐지의 경우, 분위수 플롯을 이용해 일변량 데이터의 분포를 그래프화하고 데이터의 중심 경향에서 얼마나 떨어졌는지, 즉 사분위수 범위(Interquartile range, IQR)를 벗어난 데이터의 위치를 통해 이상치로 간주할 수 있는 데이터 값의 자동 탐지 방안을 일컫는다.
또한, 상기 LOF 기반 이상치 탐지의 경우, 수치 변수에 대해서만 적용하는 방안으로서 주변 k개의 데이터와 비교해 밀도(한 지역에 치밀하게 모여있는지)를 검사하는 방식을 일컫는다.
또한, 클러스터링을 이용한 이상치 탐지의 경우, 밀도 기반 클러스터링 기법이나 k-means 클러스터링 기법을 이용한 이상치 탐지 방안을 일컫는다.
또한, 시계열데이터 이상치 탐지의 경우에는, 시계열데이터의 특성인 추이성, 계절성, 순환성 특성을 벗어나는 데이터에 대해 STL(Seasonal-trend decomposition based on Loess)과 ARIMA(auto-regressive moving average model)를 이용하여 이상치를 탐지하는 방안을 일컫는다.
그리고, 메시지전달부(240)는 수집한 이용통계데이터로부터 이상이 탐지되면, 해당 상태를 통지하기 위한 알림메시지를 생성하여 전달하는 기능을 수행한다.
보다 구체적으로, 메시지전달부(240)는 수집된 상기 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 전술한 바와 같은 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지(예: e-mail)를 생성하여 이를 시스템 관리자 또는 해당 정보공급사플랫폼장치(100)의 담당자에게 전달하게 된다.
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 이상 자동 탐지 시스템에 따르면, 전자정보를 발행하는 다수의 정보공급사로부터 수집된 대규모의 전자정보에 대한 이용통계데이터에서 유형별 이상을 탐지하고, 탐지된 이상과 관련한 메시지를 생성 및 전달함으로써, 이용통계데이터에 대한 신뢰도와 정확성을 향상시킬 수 있다.
이하에서는 도 4 및 도 5를 참조하여, 본 발명의 일 실시예에 따른 이상 자동 탐지 방법을 설명하도록 한다. 여기서, 설명의 편의를 위해 전술한 도 1 내지 도 3에 도시된 구성은 해당 참조번호를 언급하여 설명하겠다.
우선, 도 4를 참조하여 본 발명의 일 실시예에 따른 이상 자동 탐지 시스템에서의 동작 흐름을 설명하도록 한다.
먼저, 정보공급사플랫폼장치(100)는 발행된 전자정보를 사용자가 이용할 수 있도록 사용자장치(도시안됨)에 배포하며, 전자정보에 대한 사용자의 이용 결과에 해당하는 상기 이용통계데이터를 지정된 기간마다 생성한다(S110).
그리고 나서, 이상탐지장치(200)는 각 정보공급사플랫폼장치(100)에서의 이용통계데이터 생성 주기 또는 자체 이용통계데이터 수집 주기에 따라, 다수의 정보공급사플랫폼장치(100) 각각으로부터 이용통계데이터를 수집한다(S120).
그런 다음, 이상탐지장치(200)는 수집된 이용통계데이터가 예컨대, XML(Extensible Markup Language) 데이터포맷인지 여부를 확인하고, 상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정한다(S130-S140).
다음으로, 이상탐지장치(200)는 이상탐지대상으로 결정된 이용통계데이터의 식별정보를 기초로 특정 정보공급사플랫폼장치(100)로부터 발행된 동일한 전자정보에 대해 중복된 이용통계데이터가 존재하는 경우, 하나의 이용통계데이터만을 저장함으로써, 각각의 정보공급사플랫폼장치(100) 각각에 대응하여 하나의 전자정보에 대하여 하나의 이용통계데이터만이 데이터베이스에 적재될 수 있도록 한다(S150-S170).
이때, 이상탐지장치(200)는 서로 중복된 이용통계데이터 각각에 대한 통계수치정보를 확인하게 되며, 만약, 중복된 이용통계데이터 각각이 상이한 통계수치정보를 갖는 것으로 확인되는 경우, 이를 중복 통계 이상으로서 탐지하게 된다.
그리고 나서, 이상탐지장치(200)는 이상탐지대상을 결정된 이용통계데이터에 대해 전술한 중복 통계 이상 탐지가 완료되는 경우, 정보공급사플랫폼장치(100) 각각의 전자정보에 대해, 단위기간으로 구분되는 이상탐지기간 동안의 상기 통계수치정보를 확인함으로써, 단위기간 대비 이상탐지기간 동안의 통계수치정보의 불일치 이상을 탐지한다(S180-S190).
이때, 이상탐지장치(200)는 단위기간 별로 상기 이용형태정보에 따라 구분되는 각각의 상기 통계수치정보를 기초로 단위기간 각각에서의 상기 통계수치정보의 변동추이를 확인하며, 특정 단위기간에서의 상기 통계수치정보의 변동추이가 상기 특정 단위기간에 대해 이전에 확인된 변동추이와 임계치 이상의 차이가 발생하는 경우를 이상으로서 탐지할 수 있다.
이후, 이상탐지장치(200)는 수집된 상기 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 전술한 바와 같은 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지(예: e-mail)를 생성하여 이를 시스템 관리자 또는 해당 정보공급사플랫폼장치(100)의 담당자에게 전달하게 된다(S200-S210).
이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 이상탐지장치(200)의 동작 방법을 구체적으로 설명하도록 한다.
먼저, 데이터수집부(210)는 각 정보공급사플랫폼장치(100)에서의 이용통계데이터 생성 주기 또는 자체 이용통계데이터 수집 주기에 따라, 다수의 정보공급사플랫폼장치(100) 각각으로부터 이용통계데이터를 수집한다(S310).
이때, 다수의 정보공급사플랫폼장치(100) 각각에서는, 전자정보를 사용자가 이용할 수 있도록 사용자장치(도시안됨)에 배포하며, 전자정보에 대한 사용자의 이용 결과에 해당하는 상기 이용통계데이터를 지정된 기간마다 생성함으로써, 수집할 수 있도록 한다.
그리고 나서, 탐지대상결정부(220)는 수집된 이용통계데이터가 XML(Extensible Markup Language) 데이터포맷인지 여부를 확인하고, 상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정한다(S320-S340).
이때, 탐지대상결정부(220)는 예컨대, XML 데이터포맷에서 정의된 문서 규격인 DTD(Document Type Definition) 문서를 기준으로 이상탐지대상을 결정하게 된다.
예를 들어, 탐지대상결정부(220)는, 문서에 대한 논리적, 물리적 구조와, 문서에서 허용되는 태그 엘리먼트 형, 각 태그 엘리먼트에 할당되어 있는 속성, 문서에 허용되는 엔티티, 및 외부 엔티티와 함께 사용되는 표기법 등의 데이터포맷을 확인하여, DTD 문서에 정의되는 기준에 부합되는 데이터포맷의 이용통계데이터만을 이상탐지대상으로서 결정할 수 있다.
그런 다음, 이상탐지부(230)는 이상탐지대상으로 결정된 이용통계데이터의 식별정보를 기초로 특정 정보공급사플랫폼장치(100)로부터 발행된 동일한 전자정보에 대해 중복된 이용통계데이터가 존재하는 지를 확인함으로써, 중복 통계 이상을 확인한다(S350).
이때, 이상탐지부(230)는 특정 정보공급사플랫폼장치(100)로부터 발행된 동일한 전자정보와 관련된 이용통계데이터가 2 이상인 경우, 상기 2 이상의 이용통계데이터 중 특정 이용통계데이터 하나만을 저장함으로써, 각각의 정보공급사플랫폼장치(100) 각각에 대응하여 하나의 전자정보에 대하여 하나의 이용통계데이터만이 데이터베이스에 적재될 수 있도록 한다(S360-S380).
여기서, 이상탐지부(230)는 상기 2 이상의 이용통계데이터 각각에 대한 통계수치정보를 확인하고, 확인된 통계수치정보가 서로 상이한 것으로 확인되는 경우, 이를, 중복 통계 이상으로서 탐지하게 된다.
다음으로, 이상탐지부(230)는 이상탐지대상을 결정된 이용통계데이터에 대해 전술한 중복 통계 이상 탐지가 완료되는 경우, 정보공급사플랫폼장치(100) 각각의 전자정보에 대해, 단위기간으로 구분되는 이상탐지기간 동안의 통계수치정보를 확인함으로써, 단위기간 대비 이상탐지기간 동안의 통계수치정보의 불일치 이상을 탐지한다(S390).
이때, 이상탐지부(230)는 단위기간별 상기 통계수치정보의 합산값(b)이 상기 이상탐지기간 동안의 상기 통계수치정보(a)와 일치하지 않는 것으로 확인되는 경우를 이상으로서 탐지하게 된다.
또한, 이상탐지부(230)는 단위기간 별로 상기 이용형태정보에 따라 구분되는 각각의 상기 통계수치정보를 확인하며, 상기 단위시간 별 상기 이용형태정보(PDF or HTML)로 구분되는 각각의 상기 통계수치정보의 합산값(c)이 이상탐지기간 동안의 통계수치정보(a)와 일치하지 않는 것으로 확인되는 경우를 이상으로서 탐지하게 된다.
아울러, 이상탐지부(230)는 단위기간 별로 상기 이용형태정보에 따라 구분되는 각각의 상기 통계수치정보를 기초로 단위기간 각각에서의 상기 통계수치정보의 변동추이를 확인하며, 특정 단위기간에서의 상기 통계수치정보의 변동추이(D)가 상기 특정 단위기간에 대해 이전에 확인된 변동추이(E)와 임계치 이상의 차이가 발생하는 경우를 이상으로서 탐지하게 된다.
한편, 이상탐지부(230)는 단위기간별 통계수치정보를 통계수치정보와 관련하여 지정되는 기준값과 비교하여, 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되면 이를 정상 범위에서 벗어나거나 특이한 이용패턴을 보이는 이상으로서 탐지할 수 있다.
이후, 메시지전달부(240)는 수집된 상기 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 전술한 바와 같은 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지(예: e-mail)를 생성하여 이를 시스템 관리자 또는 해당 정보공급사플랫폼장치(100)의 담당자에게 전달하게 된다(S430).
이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 이상 자동 탐지 방법에 따르면, 전자정보를 발행하는 다수의 정보공급사로부터 수집된 대규모의 전자정보에 대한 이용통계데이터에서 유형별 이상을 탐지하고, 탐지된 이상과 관련한 메시지를 생성 및 전달함으로써, 이용통계데이터에 대한 신뢰도와 정확성을 향상시킬 수 있다.
한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 프로세서에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다.  소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 기술적으로 공지된 임의의 다른 형태의 저장 매체에 상주할 수 있다.  예시적인 저장 매체는 프로세서와 연결되며, 그 결과 프로세서는 저장 매체로부터 정보를 판독하고 저장 매체로 정보를 기록할 수 있다. 대안적으로, 저장 매체는 프로세서로 통합될 수 있다. 프로세서 및 저장 매체는 ASIC 내에 포함될 수 있다. ASIC은 사용자단말장치 내에 포함될 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자단말장치 내에 개별적인 컴포넌트들로서 포함될 수 있다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.
본 발명에 일 실시예에 따른 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치에 따르면, 전자정보를 발행하는 다수의 정보공급사로부터 수집된 대규모의 전자정보에 대한 이용통계데이터에서 유형별 이상을 탐지하여 탐지된 이상과 관련한 메시지를 관리자에게 전달한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

Claims (20)

  1. 전자정보의 이용과 관련된 이용통계데이터를 각각 생성하는 다수의 정보공급사플랫폼장치; 및
    상기 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하여, 수집된 상기 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하고, 상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하여 탐지된 상기 유형별 이상을 통지하기 위한 알림메시지를 생성하는 이상탐지장치를 포함하며,
    상기 유형별 이상은,
    2 이상의 단위기간 각각에서의 통계수치정보와 관련하여 지정된 기준값을 기초로 탐지되며,
    상기 이상탐지장치는,
    상기 2 이상의 단위기간에서의 상기 통계수치정보와 상기 기준값 간의 차이를 확인하여, 상기 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하며,
    상기 이상탐지장치는,
    일변량 이상치 탐지(Univariate outlier detection), LOF 기반 이상치 탐지(Outlier Detection with Local Outlier Factor), 클러스터링을 이용한 이상치 탐지(Outlier Detection by Clustering) 및 시계열데이터 이상치 탐지(Outlier Detection from Time Series Data) 방안을 통해 상기 유형별 이상을 탐지하는 것을 특징으로 하는 이상 자동 탐지 시스템.
  2. 각각의 전자정보를 발행하는 다수의 정보공급사플랫폼장치로부터 수집된 전자정보의 이용과 관련된 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 탐지대상결정부; 및
    상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하여 탐지된 유형별 이상이 통지되도록 하는 이상탐지부를 포함하며,
    상기 유형별 이상은,
    2 이상의 단위기간 각각에서의 통계수치정보와 관련하여 지정된 기준값을 기초로 탐지되며,
    상기 이상탐지부는,
    상기 2 이상의 단위기간에서의 상기 통계수치정보와 상기 기준값 간의 차이를 확인하여, 상기 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하며,
    상기 이상탐지부는,
    일변량 이상치 탐지(Univariate outlier detection), LOF 기반 이상치 탐지(Outlier Detection with Local Outlier Factor), 클러스터링을 이용한 이상치 탐지(Outlier Detection by Clustering) 및 시계열데이터 이상치 탐지(Outlier Detection from Time Series Data) 방안을 통해 상기 유형별 이상을 탐지하는 것을 특징으로 하는 이상탐지장치.
  3. 제 2 항에 있어서,
    상기 이상탐지장치는,
    상기 수집된 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 상기 유형별 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지를 생성하여 해당 정보공급사플랫폼장치에 전달하는 메시지전달부를 더 포함하는 것을 특징으로 하는 이상탐지장치.
  4. 제 2 항에 있어서,
    상기 기준데이터포맷에는,
    XML(Extensible Markup Language) 데이터포맷이 포함되며,
    상기 탐지대상결정부는,
    상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정하는 것을 특징으로 하는 이상탐지장치.
  5. 제 2 항에 있어서,
    상기 이용통계데이터에는,
    상기 다수의 정보공급사플랫폼장치로부터 수집되는 각각의 전자정보의 이용통계데이터를 구분하기 위한 식별정보, 각각의 전자정보의 이용에 대한 통계수치정보, 및 각각의 전자정보에 대한 사용자의 이용 형태를 구분하기 위한 이용형태정보 중 적어도 하나가 포함되는 것을 특징으로 하는 이상탐지장치.
  6. 제 5 항에 있어서,
    상기 이상탐지부는,
    상기 식별정보를 기초로 특정 정보공급사플랫폼장치로부터 수집된 전자정보에 대하여 2 이상의 이용통계데이터가 존재하는지 여부를 확인하고, 상기 2 이상의 이용통계데이터가 존재하는 것으로 확인되면, 상기 2 이상의 이용통계데이터 각각에 대한 상기 통계수치정보를 확인하여, 상기 2 이상의 이용통계데이터 각각의 상기 통계수치정보가 서로 상이한 것으로 확인되는 경우를 상기 유형별 이상 중 하나로서 탐지하는 것을 특징으로 하는 이상탐지장치.
  7. 제 6 항에 있어서,
    상기 유형별 이상은,
    2 이상의 단위기간이 포함되도록 지정된 이상탐지기간을 기초로 탐지되며,
    상기 이상탐지부는,
    상기 2 이상의 단위기간 각각에서의 상기 통계수치정보의 합산값과, 상기 이상탐지기간 동안의 상기 통계수치정보가 서로 일치하는지 여부를 확인하여, 서로 일치하지 않는 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 하는 이상탐지장치.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 다수의 정보공급사플랫폼장치 각각이 전자정보의 이용과 관련된 이용통계데이터를 각각 생성하는 데이터생성단계;
    이상탐지장치가 상기 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하는 데이터수집단계;
    상기 이상탐지장치가 수집된 상기 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 탐지대상결정단계;
    상기 이상탐지장치가 상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하는 이상탐지단계; 및
    상기 이상탐지장치가 탐지된 상기 유형별 이상을 통지하기 위한 알림메시지를 생성하는 메시지생성단계를 포함하며,
    상기 유형별 이상은,
    2 이상의 단위기간 각각에서의 통계수치정보와 관련하여 지정된 기준값을 기초로 탐지되며,
    상기 이상탐지단계는,
    상기 2 이상의 단위기간에서의 상기 통계수치정보와 상기 기준값 간의 차이를 확인하여, 상기 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하며, 일변량 이상치 탐지(Univariate outlier detection), LOF 기반 이상치 탐지(Outlier Detection with Local Outlier Factor), 클러스터링을 이용한 이상치 탐지(Outlier Detection by Clustering) 및 시계열데이터 이상치 탐지(Outlier Detection from Time Series Data) 방안을 통해 상기 유형별 이상을 탐지하는 것을 특징으로 하는 이상 자동 탐지 방법.
  12. 각각의 전자정보를 발행하는 다수의 정보공급사플랫폼장치로부터 전자정보의 이용과 관련된 이용통계데이터를 수집하는 데이터수집단계;
    상기 수집된 이용통계데이터 중에서 기준데이터포맷과 일치하는 이용통계데이터만을 이상탐지대상으로 결정하는 탐지대상결정단계; 및
    상기 이상탐지대상으로 결정된 이용통계데이터로부터 기 지정된 유형별 이상을 탐지하는 이상탐지단계를 포함하며,
    상기 유형별 이상은,
    2 이상의 단위기간 각각에서의 통계수치정보와 관련하여 지정된 기준값을 기초로 탐지되며,
    상기 이상탐지단계는,
    상기 2 이상의 단위기간에서의 상기 통계수치정보와 상기 기준값 간의 차이를 확인하여, 상기 통계수치정보와 상기 기준값 간의 차이가 임계치 이상인 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하며, 일변량 이상치 탐지(Univariate outlier detection), LOF 기반 이상치 탐지(Outlier Detection with Local Outlier Factor), 클러스터링을 이용한 이상치 탐지(Outlier Detection by Clustering) 및 시계열데이터 이상치 탐지(Outlier Detection from Time Series Data) 방안을 통해 상기 유형별 이상을 탐지하는 것을 특징으로 하는 이상탐지장치의 동작 방법.
  13. 제 12 항에 있어서,
    상기 방법은,
    상기 수집된 이용통계데이터가 상기 기준데이터포맷과 일치하지 않거나, 또는 상기 이상탐지대상으로 결정된 이용통계데이터로부터 상기 유형별 이상이 확인되면, 해당 상태를 통지하기 위한 알림메시지를 생성하여 해당 정보공급사플랫폼장치에 전달하는 메시지전달단계를 더 포함하는 것을 특징으로 하는 이상탐지장치의 동작 방법.
  14. 제 12 항에 있어서,
    상기 기준데이터포맷에는,
    XML(Extensible Markup Language) 데이터포맷이 포함되며,
    상기 탐지대상결정단계는,
    상기 XML 데이터포맷에서 정의된 문서 규격을 갖는 이용통계데이터만을 상기 이상탐지대상으로 결정하는 것을 특징으로 하는 이상탐지장치의 동작 방법.
  15. 제 12 항에 있어서,
    상기 이용통계데이터에는,
    상기 다수의 정보공급사플랫폼장치로부터 수집되는 각각의 전자정보의 이용통계데이터를 구분하기 위한 식별정보, 각각의 전자정보의 이용에 대한 통계수치정보, 및 각각의 전자정보에 대한 사용자의 이용 형태를 구분하기 위한 이용형태정보 중 적어도 하나가 포함되는 것을 특징으로 하는 이상탐지장치의 동작 방법.
  16. 제 15 항에 있어서,
    상기 이상탐지단계는,
    상기 식별정보를 기초로 특정 정보공급사플랫폼장치로부터 수집된 전자정보에 대하여 2 이상의 이용통계데이터가 존재하는지 여부를 확인하고, 상기 2 이상의 이용통계데이터가 존재하는 것으로 확인되면, 상기 2 이상의 이용통계데이터 각각에 대한 상기 통계수치정보를 확인하여, 상기 2 이상의 이용통계데이터 각각의 상기 통계수치정보가 서로 상이한 것으로 확인되는 경우를 상기 유형별 이상 중 하나로서 탐지하는 것을 특징으로 하는 이상탐지장치의 동작 방법.
  17. 제 16 항에 있어서,
    상기 유형별 이상은,
    2 이상의 단위기간이 포함되도록 지정된 이상탐지기간을 기초로 탐지되며,
    상기 이상탐지단계는,
    상기 2 이상의 단위기간 각각에서의 상기 통계수치정보의 합산값과, 상기 이상탐지기간 동안의 상기 통계수치정보가 서로 일치하는지 여부를 확인하여, 서로 일치하지 않는 것으로 확인되는 경우를 상기 유형별 이상으로서 탐지하는 것을 특징으로 하는 이상탐지장치의 동작 방법.

  18. 삭제
  19. 삭제
  20. 삭제
KR1020147030103A 2012-12-24 2013-12-12 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치 KR101557854B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20120151949 2012-12-24
KR1020120151949 2012-12-24
PCT/KR2013/011519 WO2014104622A1 (ko) 2012-12-24 2013-12-12 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치

Publications (2)

Publication Number Publication Date
KR20140147113A KR20140147113A (ko) 2014-12-29
KR101557854B1 true KR101557854B1 (ko) 2015-10-07

Family

ID=51021613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147030103A KR101557854B1 (ko) 2012-12-24 2013-12-12 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치

Country Status (3)

Country Link
US (1) US9672242B2 (ko)
KR (1) KR101557854B1 (ko)
WO (1) WO2014104622A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488061B (zh) * 2014-09-18 2019-08-09 阿里巴巴集团控股有限公司 一种验证数据有效性的方法及装置
CN111527478B (zh) * 2017-10-13 2022-08-09 华为技术有限公司 云设备协同实时用户体验和性能异常检测的系统和方法
CN108628721B (zh) * 2018-05-02 2021-07-27 腾讯科技(上海)有限公司 用户数据值的异常检测方法、装置、存储介质及电子装置
US11086948B2 (en) 2019-08-22 2021-08-10 Yandex Europe Ag Method and system for determining abnormal crowd-sourced label
US11710137B2 (en) 2019-08-23 2023-07-25 Yandex Europe Ag Method and system for identifying electronic devices of genuine customers of organizations
RU2757007C2 (ru) 2019-09-05 2021-10-08 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для определения вредоносных действий определенного вида
US11108802B2 (en) 2019-09-05 2021-08-31 Yandex Europe Ag Method of and system for identifying abnormal site visits
US11334559B2 (en) 2019-09-09 2022-05-17 Yandex Europe Ag Method of and system for identifying abnormal rating activity
US11128645B2 (en) 2019-09-09 2021-09-21 Yandex Europe Ag Method and system for detecting fraudulent access to web resource
RU2752241C2 (ru) 2019-12-25 2021-07-23 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для выявления вредоносной активности предопределенного типа в локальной сети
KR102362582B1 (ko) * 2020-12-31 2022-02-15 렉스소프트 주식회사 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172313A (ja) * 2004-12-17 2006-06-29 Fuji Electric Systems Co Ltd データチェック管理方法およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100619402B1 (ko) 1999-11-05 2006-09-06 주식회사 케이티 무선통신 시스템에서의 통계 데이터 축적을 통한 오류검증 방법
US7305360B1 (en) * 2000-10-25 2007-12-04 Thomson Financial Inc. Electronic sales system
US7103452B2 (en) * 2003-12-29 2006-09-05 Theodora Retsina Method and system for targeting and monitoring the energy performance of manufacturing facilities
KR101069405B1 (ko) 2004-09-13 2011-09-30 주식회사 케이티 아이피 망에서의 과금 자료 검증 장치 및 방법
WO2008128068A1 (en) * 2007-04-13 2008-10-23 Opus Iii System and method for providing packaged programming to electronic media players
JP2012068928A (ja) 2010-09-24 2012-04-05 Toshiba Corp 情報監視システムおよび情報監視方法
US8751414B2 (en) * 2011-05-04 2014-06-10 International Business Machines Corporation Identifying abnormalities in resource usage

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172313A (ja) * 2004-12-17 2006-06-29 Fuji Electric Systems Co Ltd データチェック管理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정영임, ‘출판사 생성 이용통계 데이터의 품질 평가에 대한 연구’, 정보관리연구 제43권 제3호 pp.161-180, (2012.7)*

Also Published As

Publication number Publication date
KR20140147113A (ko) 2014-12-29
WO2014104622A1 (ko) 2014-07-03
US9672242B2 (en) 2017-06-06
US20150106340A1 (en) 2015-04-16

Similar Documents

Publication Publication Date Title
KR101557854B1 (ko) 이용통계데이터의 이상 자동 탐지 시스템 및 그 방법 그리고 이에 적용되는 장치
US12014405B2 (en) Systems and methods for supporting regulatory requirements for the distribution of controlled and non-controlled items
JP6680902B2 (ja) 精算処理方法、精算処理装置、端末機器及び記憶媒体
CN112100219B (zh) 基于数据库查询处理的报表生成方法、装置、设备和介质
CN108304554B (zh) 文件拆分方法、装置、计算机设备和存储介质
US10339007B2 (en) Agile re-engineering of information systems
US20130111459A1 (en) Delivery system and management method thereof
CN103902442A (zh) 一种云软件健康度评测方法及系统
US10839389B1 (en) System and method for updating and managing hosted catalogs in a procurement system
JP2008192091A (ja) ログ分析プログラム、ログ分析装置及びログ分析方法
US20150142506A1 (en) Account Health Assessment, Risk Identification, and Remediation
US20160294651A1 (en) Method, apparatus, and computer program product for monitoring an electronic data exchange
CN114202256B (zh) 架构升级预警方法、装置、智能终端及可读存储介质
CN116302502A (zh) 电子签章方法、装置、设备及存储介质
CN111427959B (zh) 一种数据存储方法及装置
CN113220777B (zh) 业务数据处理方法、装置、计算机设备及存储介质
US20120066370A1 (en) Business processes tracking
JP6119101B2 (ja) 集計装置、集計方法および集計システム
CN112581295B (zh) 基于字段拆分的产品数据处理方法、装置、设备和介质
JP2011238046A (ja) 監視システム、監視装置及び監視プログラム
JP6350437B2 (ja) 管理システムおよび管理方法
US11860757B2 (en) Apparatus and method for determining the performance impact of changes in a computing system
CN117235396B (zh) 一种精选楼层入参的校验方法、装置、设备及存储介质
CN117710068B (zh) 基于人工智能的临时供应商核验方法、装置及设备
CN117745401A (zh) 网上银行系统的检测方法及装置、非易失性存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180809

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 5