KR20230036384A - 이상 탐지 시스템 및 그의 임계치 설정 방법 - Google Patents

이상 탐지 시스템 및 그의 임계치 설정 방법 Download PDF

Info

Publication number
KR20230036384A
KR20230036384A KR1020210119157A KR20210119157A KR20230036384A KR 20230036384 A KR20230036384 A KR 20230036384A KR 1020210119157 A KR1020210119157 A KR 1020210119157A KR 20210119157 A KR20210119157 A KR 20210119157A KR 20230036384 A KR20230036384 A KR 20230036384A
Authority
KR
South Korea
Prior art keywords
tnr
estimating
estimated
processor
tpr
Prior art date
Application number
KR1020210119157A
Other languages
English (en)
Inventor
김지훈
박성수
천창우
이송은
조현수
김준엽
이상구
Original Assignee
현대자동차주식회사
기아 주식회사
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사, 서울대학교산학협력단 filed Critical 현대자동차주식회사
Priority to KR1020210119157A priority Critical patent/KR20230036384A/ko
Priority to US17/702,234 priority patent/US11868199B2/en
Priority to CN202210366961.9A priority patent/CN115795385A/zh
Publication of KR20230036384A publication Critical patent/KR20230036384A/ko

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0235Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on a comparison with predetermined threshold or range, e.g. "classical methods", carried out during normal operation; threshold adaptation or choice; when or how to compare with the threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Automation & Control Theory (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)

Abstract

본 발명은 이상 탐지 시스템 및 그의 임계치 설정 방법에 관한 것으로, 사용자 입력에 따라 최소 TPR(True Positive Rate) 및 미분 기울기를 설정하고, 이상 데이터들 및 정상 데이터들을 이용하여 ROC(Receiver Operating Characteristic) 커브를 생성하고, 상기 최소 TPR 및 상기 미분 기울기를 기반으로 상기 ROC 커브에서 TNR(True Negative Rate)을 추정하고, 상기 추정된 TNR에 기반하여 임계치를 추정하여 설정한다.

Description

이상 탐지 시스템 및 그의 임계치 설정 방법{ANOMALY DETECTION SYSTEM AND METHOD FOR SETTING THRESHOLD THEREOF}
본 발명은 이상 탐지 시스템 및 그의 임계치 설정 방법에 관한 것이다.
일반적으로, 이상 탐지(anomaly detection) 성능 측정은 수신자 조작 특성(Receiver Operating Characteristic, ROC) 커브 기반 이상 탐지 성능 측정 방식을 이용한다. ROC 커브 기반 이상 탐지 성능 측정 방식은 TPR(True Positive Rate)이 N%일 때 FPR(False Positive Rate)을 측정한다. 여기서, FPR은 이상 탐지 성능을 나타내는 수치로, FPR @ TPR N%(False Positive Rate at True Positive Rate N%) 또는 FPR @ N%로 지칭할 수 있다. FPR이 낮을수록 긍정 오류(false positive)가 적게 발생하여 좋은 성능을 나타낸다. 또한, TPR이 N%가 되게 만드는 특정 임계치(threshold)를 이상 탐지를 위한 임계치로 설정한다. 이와 같이, 종래에는 이상 탐지 성능 측정을 위해 정상 탐지 성능 수치를 고정했을 때 이상 탐지 성능을 측정하는 방식을 사용한다. 따라서, TPR이 N%로 고정됨에 따라 (100-N)% 만큼의 TPR(Recall) 손실이 무조건 발생하며, 이상 탐지 모델에 따라 적정 N을 설정하기 위한 수고스러운 작업이 불가피하다.
US 8239203 B2 US 20200357506 A1 US 9582828 B2
본 발명은 수신자 조작 특성 커브 기반 이상 탐지의 정밀도(precision) 손실 및 긍정 오류(false positive)를 동시에 최소화하는 이상 탐지 임계치(threshold)를 적응적으로(adaptive) 추정하여 설정하는 이상 탐지 시스템 및 그의 임계치 설정 방법을 제공하고자 한다.
본 발명의 실시 예들에 따른 이상 탐지 시스템의 임계치 설정 방법은 사용자 입력에 따라 최소 TPR(True Positive Rate) 및 미분 기울기를 설정하는 단계, 이상 데이터들 및 정상 데이터들을 이용하여 ROC(Receiver Operating Characteristic) 커브를 생성하는 단계, 상기 최소 TPR 및 상기 미분 기울기를 기반으로 상기 ROC 커브에서 TNR(True Negative Rate)을 추정하는 단계, 및 상기 추정된 TNR에 기반하여 임계치를 추정하여 설정하는 단계를 포함하는 것을 특징으로 한다.
상기 TNR을 추정하는 단계는, 상기 ROC 커브의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 단계를 포함하는 것을 특징으로 한다.
상기 TNR을 추정하는 단계는, 상기 이상 데이터들 및 상기 정상 데이터들의 분포 정보를 활용하여 미분 가능한 함수식을 추정하는 단계, 및 상기 추정된 함수식의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 단계를 포함하는 것을 특징으로 한다.
상기 TNR을 추정하는 단계는, 상기 ROC 커브의 2차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 단계를 포함하는 것을 특징으로 한다.
상기 TNR을 추정하는 단계는, 상기 추정된 TNR이 상기 최소 TPR 이상이면 상기 추정된 TNR을 반환하는 단계를 포함하는 것을 특징으로 한다.
상기 TNR을 추정하는 단계는, 상기 추정된 TNR이 상기 최소 TPR 보다 작으면 상기 TNR 추정을 중단하고, 상기 추정된 TNR로 상기 최소 TPR을 반환하는 단계를 포함하는 것을 특징으로 한다.
상기 임계치를 추정하여 설정하는 단계는, 재현율이 상기 추정된 TNR 일 때 예측 확률을 임계치로 설정하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 실시 예들에 따른 이상 탐지 시스템은 이상 데이터들 및 정상 데이터들을 저장하는 메모리, 및 상기 메모리와 연결되는 프로세서를 포함하고, 상기 프로세서는 사용자 입력에 따라 최소 TPR 및 미분 기울기를 설정하고, 이상 데이터들 및 정상 데이터들을 이용하여 ROC 커브를 생성하고, 상기 최소 TPR 및 상기 미분 기울기를 기반으로 상기 ROC 커브에서 TNR을 추정하고, 상기 추정된 TNR에 기반하여 임계치를 추정하여 설정하는 것을 특징으로 한다.
상기 프로세서는, 상기 ROC 커브의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 것을 특징으로 한다.
상기 프로세서는, 상기 이상 데이터들 및 상기 정상 데이터들의 분포 정보를 활용하여 미분 가능한 함수식을 추정하고, 상기 추정된 함수식의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 것을 특징으로 한다.
상기 프로세서는, 상기 ROC 커브의 2차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 것을 특징으로 한다.
상기 프로세서는, 상기 추정된 TNR이 상기 최소 TPR 이상이면 상기 추정된 TNR을 반환하는 것을 특징으로 한다.
상기 프로세서는, 상기 추정된 TNR이 상기 최소 TPR 보다 작으면 상기 TNR 추정을 중단하고, 상기 추정된 TNR로 상기 최소 TPR을 반환하는 것을 특징으로 한다.
상기 프로세서는, 재현율이 상기 추정된 TNR 일 때 예측 확률을 임계치로 설정하는 것을 특징으로 한다.
본 발명에 따르면, 이상 탐지 정밀도 손실 및 긍정 오류를 동시에 최소화하는 이상 탐지 임계치(기준치)를 적응적으로 추정하여 설정하므로, 이상 탐지 임계치 설정을 위한 불필요한 노력을 최소화할 수 있다.
또한, 본 발명에 따르면, 필요 이상의 정밀도(precision) 손실을 방지하며 이상 탐지 성능을 적응적으로 조절할 수 있다.
또한, 본 발명에 따르면, 사용자가 원하는 이상 탐지와 정상 탐지의 중요도 비율에 맞는 이상 탐지 모델의 임계치를 설정할 수 있다.
도 1은 본 발명의 실시 예들에 따른 이상 탐지 시스템을 도시한 블록구성도이다.
도 2는 본 발명의 실시 예에 따른 이상 탐지 시스템의 임계치 설정 방법을 도시한 흐름도이다.
도 3a는 본 발명의 실시 예에 따른 ROC 커브를 도시한 예시도이다.
도 3b는 본 발명의 실시 예에 따른 TNR 추정을 설명하기 위한 예시도이다.
도 3c는 본 발명의 실시 예에 따른 임계치 설정을 설명하기 위한 예시도이다.
도 4는 본 발명의 다른 실시 예에 따른 이상 탐지 시스템의 임계치 설정 방법을 도시한 흐름도이다.
도 5는 본 발명의 또 다른 실시 예에 따른 이상 탐지 시스템의 임계치 설정 방법을 도시한 흐름도이다.
도 6a 및 도 6b는 본 발명의 또 다른 실시 예에 따른 임계치 설정을 설명하기 위한 예시도이다.
도 7은 본 발명의 실시 예들에 따른 이상 탐지 시스템을 이용한 음성 인식의 일 예를 도시한 예시도이다.
도 8은 본 발명의 실시 예들에 따른 이상 탐지 시스템을 이용한 음성 인식의 다른 예를 도시한 예시도이다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 실시 예들에 따른 이상 탐지 시스템을 도시한 블록구성도이다.
이상 탐지 시스템(100)은 데이터를 처리하는 컴퓨팅 시스템으로, 통신장치(110), 사용자 인터페이스 장치(Human Interface Device, HID)(120), 메모리(130) 및 프로세서(140)를 포함할 수 있다.
통신장치(110)는 유선 네트워크 및/또는 무선 네트워크 등을 이용할 수 있다. 유선 네트워크는 LAN(Local Area Network), WAN(Wide Area Network), 및/또는 이더넷(Ethernet) 등으로 구현될 수 있다. 무선 네트워크는 무선 인터넷(예: wi-fi), 근거리 통신(예: 블루투스, 지그비 및 적외선 통신), 및 이동 통신 등의 통신 기술 중 적어도 하나로 구현될 수 있다. 통신장치(110)는 통신 프로세서, 통신 회로, 안테나, 및/또는 트랜시버(transceiver) 등을 포함할 수 있다.
사용자 인터페이스 장치(120)는 사용자와의 상호작용을 위한 입출력 장치일 수 있다. 이러한 사용자 인터페이스 장치(120)는 마이크, 키보드, 키패드, 버튼, 스위치, 터치 패드, 터치 스크린, 디스플레이, 스피커 및/또는 진동자 등을 포함할 수 있다.
메모리(130)는 이상 탐지 임계치 설정 모델 및/또는 이상 탐지 모델 등을 저장할 수 있다. 또한, 메모리(130)는 사전에 사용자 및/또는 시스템 개발자 등에 의해 미리 정해지는 설정 정보 등을 저장할 수 있다. 메모리(130)는 통신장치(110) 및/또는 사용자 인터페이스 장치(120)로부터 수신되는 테스트 데이터 즉, 정상 데이터와 이상 데이터를 저장할 수 있다.
메모리(130)는 프로세서(140)에 의해 실행되는 명령어들(instructions)을 저장하는 저장매체(non-transitory storage medium)일 수 있다. 메모리(130)는 플래시 메모리(flash memory), 하드디스크(hard disk), SSD(Solid State Disk), SD 카드(Secure Digital Card), RAM(Random Access Memory), SRAM(Static Random Access Memory), ROM(Read Only Memory), PROM(Programmable Read Only Memory), EEPROM(Electrically Erasable and Programmable ROM), EPROM(Erasable and Programmable ROM), eMMC(embedded multimedia card), 및/또는 UFS(universal flash storage) 등의 저장매체(기록매체) 중 적어도 하나를 포함할 수 있다.
프로세서(140)는 이상 탐지 시스템(100)의 전반적인 동작을 제어할 수 있다. 프로세서(140)는 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), PLD(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), CPU(Central Processing unit), 마이크로컨트롤러(microcontrollers) 및/또는 마이크로프로세서(microprocessors) 등의 처리장치 중 적어도 하나를 포함할 수 있다.
프로세서(140)는 정상 데이터와 이상 데이터를 사용하여 TPR(True Positive Rate)과 FPR(False Positive Rate)로 구성되는 ROC(Receiver Operating Characteristic) 커브(curve)를 생성할 수 있다. 프로세서(140)는 생성된 RCO 커브에 대해 1차 미분을 수행할 수 있다. 프로세서(140)는 ROC 커브의 1차 미분 값이 기설정된 미분 기울기 α가 되는 TNR(True Negative Rate) 지점을 추정할 수 있다. 여기서, TNR은 거짓(false)으로 예측한 것 중 실제 거짓일 확률이다. 프로세서(140)는 추정한 TNR 지점(θ)을 재현률(recall)로 갖는 임계치(threshold, δ)를 추정할 수 있다.
먼저, ROC 커브를 획득하기 위해, 프로세서(140)는 높은 값을 갖는 데이터일수록 정상 데이터일 확률이 높은 데이터임을 나타내는 점수 함수(scoring function) 또는 확률 값을 정의할 수 있다. 프로세서(140)는 정의된 점수 함수를 사용하여 테스트할 전체 데이터 즉, 정상 데이터들 및 이상 데이터들에 대해 점수를 측정하고, 측정된 점수에 따라 오름차순으로 정렬할 수 있다. 프로세서(140)는 정렬된 리스트의 값(예측 확률)을 차례대로 정상 데이터와 이상 데이터의 분류 기준(threshold)으로 삼아 FPR 및 TPR을 측정(산출)한 후 그래프의 좌표를 얻을 수 있다. 프로세서(140)는 정렬된 리스트의 모든 데이터 값에 해당하는 좌표를 얻을 때가지 작업을 반복할 수 있다.
다음, TNR(recall) 지점을 추정하기 위해, 프로세서(140)는 사용자 인터페이스 장치(120)로부터 최소 TPR (N) 및 1차 미분 기울기(α)를 수신할 수 있다. 여기서, 최소 TPR(N) 및 1차 미분 기울기(α)는 사용자에 의해 수동적으로 설정될 수 있다. 최소 TPR은 사용자가 용인(허용)할 수 있는 최대 정상 데이터 분류 성능을 나타내는 수치로, 재현율(recall)이라고 할 수 있다. 1차 미분 기울기는 정상 데이터 분류 성능과 이상 데이터 분류 성능의 중요성을 비율로 나타내는 수치이다. 1차 미분 기울기가 높을수록 정상 데이터 분류 성능의 중요성이 높아지며, 1차 미분 기울기가 낮을수록 이상 데이터 분류 성능의 중요성이 높아질 수 있다. 기본적으로, 1차 미분 기울기(α)가 '1'인 지점을 찾으면, FPR과 재현율의 합이 최대가 되는 지점을 찾을 수 있다. 1차 미분 기울기(α)는 사용자가 이상 탐지 모델의 목표에 따라 임의로 지정(설정)할 수 있다. 또한, 프로세서(140)는 사용자 인터페이스 장치(120)로부터 윈도우 사이즈(window size)를 수신할 수 있다. 윈도우 사이즈는 FPR 및 TPR 변화량 감지를 위한 데이터 처리 단위(처리 능력)로 정의될 수 있다.
프로세서(140)는 사용자가 설정한 1차 미분 기울기(α)에 맞는 TNR(θ)를 탐색하여 반환할 수 있다. 여기서, 프로세서(140)는 탐색된 TNR(θ)가 최소 TPR(N) 보다 작아지면 탐색을 중단하고 'θ=N'을 반환할 수 있다.
ROC 커브는 첨점이 존재하며 연속 함수이지만 전 구간에서 미분이 가능하지 않을 수 있다. 이에, 프로세서(140)는 ROC 커브가 미분 불가인 경우, ROC 커브에서 미분값을 추정하기 위해 다음 2가지 방법을 사용해서 모사할 수 있다. 첫번째는 정렬된 리스트에서 사용자에 의해 설정된 윈도우 사이즈만큼의 데이터 중 FPR 및 TPR 변화량을 감지하여 1차 미분값을 모사하는 방법이다. 이때, 윈도우 사이즈가 작을수록 미분값에 근접해지지만 너무 작으면 변화량을 감지하지 못할 수 있다. 두번째는 각 좌표 점들을 이어서 만든 그래프를 미분 가능 함수로 근사하는 방법으로, 이변량 정규분포 추정 및/또는 커널 밀도 추정 등과 같은 방법이 사용될 수 있다.
프로세서(140)는 추정한 TNR(θ)을 재현율로 갖는 임계치(δ)를 추정할 수 있다. 다시 말해서, 프로세서(140)는 재현율이 θ일 때 점수 혹은 예측 확률(δ)을 임계치(기준치)로 설정할 수 있다.
도 2는 본 발명의 실시 예에 따른 이상 탐지 시스템의 임계치 설정 방법을 도시한 흐름도이다. 도 3a는 본 발명의 실시 예에 따른 ROC 커브를 도시한 예시도이고, 도 3b는 본 발명의 실시 예에 따른 TNR 추정을 설명하기 위한 예시도이며, 도 3c는 본 발명의 실시 예에 따른 임계치 설정을 설명하기 위한 예시도이다.
프로세서(160)는 이상 데이터 및 정상 데이터를 이용하여 ROC 커브를 생성할 수 있다(S100). 프로세서(140)는 높은 값을 갖는 데이터일수록 정상 데이터일 확률이 높은 데이터임을 나타내는 점수 함수(scoring function)를 정의할 수 있다. 프로세서(140)는 정의된 점수 함수를 사용하여 정상 데이터 및 이상 데이터에 대해 점수를 측정하고, 측정된 점수에 따라 오름차순으로 정렬할 수 있다. 프로세서(140)는 정렬된 리스트의 예측 확률을 차례대로 정상 데이터와 이상 데이터의 분류 기준(기준치)으로 삼아 FPR 및 TPR을 측정한 후 그래프의 좌표를 얻을 수 있다. 프로세서(140)는 정렬된 리스트의 모든 데이터 값에 해당하는 좌표를 얻을 때가지 반복하여 도 3a에 도시된 바와 같은 ROC 커브를 생성(획득)할 수 있다.
프로세서(160)는 사용자 입력에 따라 최소 TPR(N) 및 1차 미분 기울기(α)를 설정할 수 있다(S110). 프로세서(140)는 사용자 인터페이스 장치(120)로부터 사용자 입력을 수신할 수 있다. 사용자 입력은 최소 TPR(N) 및 1차 미분 기울기(α)를 포함할 수 있다. 최소 TPR(N)은 사용자가 용인(허용)할 수 있는 최대 정상 데이터 분류 성능을 나타내는 수치로, 재현율(recall)이라고 할 수 있다. 1차 미분 기울기(α)는 정상 데이터 분류 성능과 이상 데이터 분류 성능의 중요성을 비율로 나타내는 수치이다. 또한, 프로세서(140)는 사용자 입력으로 윈도우 사이즈(window size)를 수신할 수 있다. 윈도우 사이즈는 변화량 감지를 위한 처리 단위(처리 능력)로 정의될 수 있다.
프로세서(160)는 ROC 커브의 1차 미분값이 설정된 1차 미분 기울기(α)가 되는 TNR을 추정할 수 있다(S120). 프로세서(140)는 ROC 커브에서 1차 미분 값이 사용자가 설정한 1차 미분 기울기(α)가 되는 TNR(θ)를 탐색하여 반환할 수 있다. 프로세서(140)는 탐색된 TNR(θ)가 최소 TPR(N) 보다 작아지면 탐색을 중단하고 'θ=N'을 반환할 수 있다. 예를 들어, 도 3b를 참조하면, 1차 미분 기울기(α)가 '1'로 설정되고, 최소 TPR(N)이 70%로 설정된 경우, 프로세서(140)는 ROC 커브에서 1차 미분 값이 '1'이 되는 TNR(θ)을 탐색할 수 있다. 프로세서(140)는 탐색된 θ가 최소 TPR인 N=70% 이상이면 θ를 반환하고, 탐색된 θ가 70% 보다 작으면 탐색을 중단하고, θ 대신 최소 TPR인 70%를 반환할 수 있다.
또한, 프로세서(140)는 ROC 커브에 미분 불가 구간이 존재하는 경우, 해당 구간에서 다음 2가지 방법을 사용하여 1차 미분 값을 추정할 수 있다. 첫번째는 정렬된 리스트에서 사용자에 의해 설정된 윈도우 사이즈만큼의 데이터 중 FPR 및 TPR 변화량을 감지하여 1차 미분 값을 모사하는 방법이다. 두번째는 이변량 정규분포 또는 커널 밀도 등을 이용하여 각 좌표 점들을 이어서 만든 그래프를 미분 가능 함수로 근사하는 방법이다.
프로세서(160)는 추정된 TNR을 재현율로 갖는 임계치를 추정하여 설정할 수 있다(S130). 프로세서(160)는 추정된 TNR(θ) 또는 최소 TPR(N)을 재현율로 갖는 임계치를 추정할 수 있다. 즉, 프로세서(160)는 재현율이 θ 또는 N 일 때 점수 또는 예측 확률을 임계치로 설정할 수 있다. 예를 들어, 도 3c를 참조하면, 프로세서(160)는 TPR 85%에서의 예측 확률을 임계치로 설정할 수 있다.
도 4는 본 발명의 다른 실시 예에 따른 이상 탐지 시스템의 임계치 설정 방법을 도시한 흐름도이다.
프로세서(160)는 사용자 입력에 따라 최소 TPR(N) 및 1차 미분 기울기(α)를 설정할 수 있다(S200). 프로세서(140)는 사용자 인터페이스 장치(120)로부터 사용자 입력을 수신할 수 있다. 프로세서(140)는 사용자 입력에 기반하여 최소 TPR(N) 및 1차 미분 기울기(α)를 설정할 수 있다.
프로세서(140)는 이상 데이터들 및 정상 데이터들의 분포 정보를 검출할 수 있다(S210). 분포 정보는 이상 데이터들 및 정상 데이터들 각각의 평균 및 편차를 포함할 수 있다. 즉, 프로세서(140)는 이상 데이터들 및 정상 데이터들 각각에 대한 평균 및 편차를 계산할 수 있다.
프로세서(140)는 검출된 분포 정보를 활용하여 미분 가능한 함수식을 추정할 수 있다(S220). 프로세서(140)는 이변량 정규분포를 이용하여 함수식 f(x)을 추정할 수 있다.
프로세서(140)는 추정된 함수식의 1차 미분 값이 1차 미분 기울기(α)가 되는 TNR 지점을 계산할 수 있다(S230). 프로세서(140)는 미분한 함수식 f'(N)이 α가 될 때 TNR 지점을 연산할 수 있다.
프로세서(140)는 계산된 TNR 지점이 N일 때 갖는 임계치(δ)를 추정할 수 있다(S240). 프로세서(140)는 추정된 임계치(δ)를 이상 탐지 시스템(100)의 임계치(기준치)로 설정할 수 있다.
도 5는 본 발명의 또 다른 실시 예에 따른 이상 탐지 시스템의 임계치 설정 방법을 도시한 흐름도이다. 도 6a 및 도 6b는 본 발명의 또 다른 실시 예에 따른 임계치 설정을 설명하기 위한 예시도이다.
프로세서(160)는 사용자 인터페이스 장치(120)로부터 수신되는 사용자 입력에 따라 최소 TPR(N) 및 미분 기울기(α)를 설정할 수 있다(S300).
프로세서(140)는 이상 데이터들 및 정상 데이터들을 이용하여 ROC 커브를 생성할 수 있다(S310).
프로세서(140)는 ROC 커브의 2차 미분 값이 미분 기울기(α)가 되는 TNR을 추정할 수 있다(S320). 도 6a에 도시된 바와 같이, 프로세서(140)는 ROC 커브에 대해 2차 미분을 수행하고, 2차 미분된 값이 기설정된 미분 기울기(α)가 되는 TNR 지점을 추정할 수 있다. 프로세서(140)는 2차 미분을 활용하여 FPR 및 TPR이 급격하게 변화되는 지점(변곡점)을 도출할 수 있다.
프로세서(140)는 추정된 TNR을 재현율로 가지는 임계치(δ)를 추정하여 설정할 수 있다(S330). 도 6b에 도시된 바와 같이, 프로세서(140)는 FPR 및 TPR의 변곡점을 임계치로 설정할 수 있다.
도 7은 본 발명의 실시 예들에 따른 이상 탐지 시스템을 이용한 음성 인식의 일 예를 도시한 예시도이다. 도 8은 본 발명의 실시 예들에 따른 이상 탐지 시스템을 이용한 음성 인식의 다른 예를 도시한 예시도이다.
본 실시 예에서는 음성 인식 기능이 탑재된 전자기기(200)가 본 발명의 이상 탐지 시스템을 이용하여 음성 인식을 수행하는 것을 설명한다. 여기서, 전자기기(200)는 차량에 탑재되는 AVNT(Audio, Video, Navigation, Telematics) 단말기 및/또는 인포테인먼트(Infotainment) 단말기 등일 수 있다. 도면에 도시하지 않았으나, 전자기기(200)는 적어도 하나의 프로세서 및 메모리를 포함할 수 있다. 메모리에는 프로세서에 의해 실행되는 적어도 하나의 음성 인식 엔진, 이상 탐지 모델 및/또는 임계치 설정 엔진 등이 저장될 수 있다.
전자기기(200)는 마이크 등을 사용하여 외부로부터 음성 신호를 입력 받을 수 있다. 전자기기(200)는 적어도 하나의 음성 인식 엔진 중 어느 하나의 음성 인식 엔진을 사용하여 입력된 음성 신호에 대한 음성 인식을 수행할 수 있다. 전자기기(200)는 음성 인식 결과에 기반하여 인터넷 검색, 차량 제어, 및/또는 음악 재생 등의 서비스를 제공할 수 있다.
도 7을 참조하면, 전자기기(200)는 목적지 및/또는 날씨 등의 정보 검색을 지원하는 제1 음성 인식 엔진(210) 및 차량 및/또는 AVNT 제어를 지원하는 제2 음성 인식 엔진(220)을 포함할 수 있다. 전자기기(200)는 외부로부터 음성 신호가 입력되면 제1 음성 인식 엔진(210) 및 제2 음성 인식 엔진(220) 중 어느 하나를 선택할 수 있다. 이때, 전자기기(200)는 각 음성 인식 엔진의 처리 영역을 고려하여 음성 인식에 사용할 음성 인식 엔진을 선정할 수 있다. 제1 음성 인식 엔진(210)과 제2 음성 인식 엔진(220)의 처리 영역이 겹치는 영역이 발생할 수 있는데, 이로 인해 음성 인식 오류가 발생할 수 있다.
이에, 전자기기(200)는 본 발명의 임계치 설정 방법을 사용하여 제1 음성 인식 엔진(210)과 제2 음성 인식 엔진(220)의 처리 영역 경계를 제1 임계치(Th1)로 설정할 수 있다. 이후, 전자기기(200)는 음성 신호가 입력되면 해당 음성 신호가 제1 임계치(Th1) 이내인지를 확인할 수 있다. 전자기기(200)는 음성 신호가 제1 임계치(Th1) 이내이면 제1 음성 인식 엔진(210)을 이용하여 음성 인식을 수행하고, 음성 신호가 제1 임계치(Th1)를 벗어나면(초과하면), 제2 음성 인식 엔진(220)을 이용하여 음성 인식을 수행할 수 있다.
도 8을 참조하면, 전자기기(200)에 음악 검색을 지원하는 제3 음성 인식 엔진(230)이 추가되는 경우, 본 발명의 임계치 설정 방법을 사용하여 각 음성 인식 엔진의 처리 영역을 정의할 수 있다. 예컨대, 전자기기(200)는 제1 음성 인식 엔진(210)과 제2 음성 인식 엔진(220)의 처리 영역 경계를 제1 임계치(Th1)로 설정하고, 제2 음성 인식 엔진(220)과 제3 음성 인식 엔진(230)의 처리 영역 경계를 제2 임계치(Th2)로 설정할 수 있다. 이 경우, 전자기기(200)는 음성 신호가 제1 임계치(Th1)를 벗어나지만 제2 임계치(Th2)를 벗어나지 않은 경우, 제2 음성 인식 엔진(220)을 이용하여 음성 인식을 수행할 수 있다. 또한, 전자기기(200)는 음성 신호가 제1 임계치(Th1) 및 제2 임계치(Th2)를 벗어나는 경우, 제3 음성 인식 엔진(230)을 이용하여 음성 인식을 수행할 수 있다.
상기한 제1 임계치(Th1) 및/또는 제2 임계치(Th2)는 적어도 하나의 음성 인식 엔진의 처리 영역이 변경되거나 새로운 음성 인식 엔진이 도입되는 경우, 자동으로 재설정될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (14)

  1. 사용자 입력에 따라 최소 TPR(True Positive Rate) 및 미분 기울기를 설정하는 단계;
    이상 데이터들 및 정상 데이터들을 이용하여 ROC(Receiver Operating Characteristic) 커브를 생성하는 단계;
    상기 최소 TPR 및 상기 미분 기울기를 기반으로 상기 ROC 커브에서 TNR(True Negative Rate)을 추정하는 단계; 및
    상기 추정된 TNR에 기반하여 임계치를 추정하여 설정하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템의 임계치 설정 방법.
  2. 청구항 1에 있어서,
    상기 TNR을 추정하는 단계는,
    상기 ROC 커브의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템이 임계치 설정 방법.
  3. 청구항 1에 있어서,
    상기 TNR을 추정하는 단계는,
    상기 이상 데이터들 및 상기 정상 데이터들의 분포 정보를 활용하여 미분 가능한 함수식을 추정하는 단계; 및
    상기 추정된 함수식의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템의 임계치 설정 방법.
  4. 청구항 1에 있어서,
    상기 TNR을 추정하는 단계는,
    상기 ROC 커브의 2차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템의 임계치 설정 방법.
  5. 청구항 1에 있어서,
    상기 TNR을 추정하는 단계는,
    상기 추정된 TNR이 상기 최소 TPR 이상이면 상기 추정된 TNR을 반환하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템의 임계치 설정 방법.
  6. 청구항 5에 있어서,
    상기 TNR을 추정하는 단계는,
    상기 추정된 TNR이 상기 최소 TPR 보다 작으면 상기 TNR 추정을 중단하고, 상기 추정된 TNR로 상기 최소 TPR을 반환하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템의 임계치 설정 방법.
  7. 청구항 1에 있어서,
    상기 임계치를 추정하여 설정하는 단계는,
    재현율이 상기 추정된 TNR 일 때 예측 확률을 임계치로 설정하는 단계를 포함하는 것을 특징으로 하는 이상 탐지 시스템의 임계치 설정 방법.
  8. 이상 데이터들 및 정상 데이터들을 저장하는 메모리; 및
    상기 메모리와 연결되는 프로세서를 포함하고,
    상기 프로세서는,
    사용자 입력에 따라 최소 TPR(True Positive Rate) 및 미분 기울기를 설정하고,
    이상 데이터들 및 정상 데이터들을 이용하여 ROC(Receiver Operating Characteristic) 커브를 생성하고,
    상기 최소 TPR 및 상기 미분 기울기를 기반으로 상기 ROC 커브에서 TNR(True Negative Rate)을 추정하고,
    상기 추정된 TNR에 기반하여 임계치를 추정하여 설정하는 것을 특징으로 하는 이상 탐지 시스템.
  9. 청구항 8에 있어서,
    상기 프로세서는,
    상기 ROC 커브의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 것을 특징으로 하는 이상 탐지 시스템.
  10. 청구항 8에 있어서,
    상기 프로세서는,
    상기 이상 데이터들 및 상기 정상 데이터들의 분포 정보를 활용하여 미분 가능한 함수식을 추정하고,
    상기 추정된 함수식의 1차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 것을 특징으로 하는 이상 탐지 시스템.
  11. 청구항 8에 있어서,
    상기 프로세서는,
    상기 ROC 커브의 2차 미분 값이 상기 미분 기울기가 되는 TNR 지점을 추정하는 것을 특징으로 하는 이상 탐지 시스템.
  12. 청구항 8에 있어서,
    상기 프로세서는,
    상기 추정된 TNR이 상기 최소 TPR 이상이면 상기 추정된 TNR을 반환하는 것을 특징으로 하는 이상 탐지 시스템.
  13. 청구항 12에 있어서,
    상기 프로세서는,
    상기 추정된 TNR이 상기 최소 TPR 보다 작으면 상기 TNR 추정을 중단하고, 상기 추정된 TNR로 상기 최소 TPR을 반환하는 것을 특징으로 하는 이상 탐지 시스템.
  14. 청구항 8에 있어서,
    상기 프로세서는,
    재현율이 상기 추정된 TNR 일 때 예측 확률을 임계치로 설정하는 것을 특징으로 하는 이상 탐지 시스템.
KR1020210119157A 2021-09-07 2021-09-07 이상 탐지 시스템 및 그의 임계치 설정 방법 KR20230036384A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210119157A KR20230036384A (ko) 2021-09-07 2021-09-07 이상 탐지 시스템 및 그의 임계치 설정 방법
US17/702,234 US11868199B2 (en) 2021-09-07 2022-03-23 System for detecting anomaly and method for setting threshold thereof
CN202210366961.9A CN115795385A (zh) 2021-09-07 2022-04-08 用于检测异常的系统以及设置该用于检测异常的系统的阈值的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210119157A KR20230036384A (ko) 2021-09-07 2021-09-07 이상 탐지 시스템 및 그의 임계치 설정 방법

Publications (1)

Publication Number Publication Date
KR20230036384A true KR20230036384A (ko) 2023-03-14

Family

ID=85386153

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210119157A KR20230036384A (ko) 2021-09-07 2021-09-07 이상 탐지 시스템 및 그의 임계치 설정 방법

Country Status (3)

Country Link
US (1) US11868199B2 (ko)
KR (1) KR20230036384A (ko)
CN (1) CN115795385A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117008559B (zh) * 2023-10-07 2024-01-26 同心县京南惠方农林科技有限公司 应用于有机肥料生产系统的数据采集处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239203B2 (en) 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
US9582828B2 (en) 2013-08-05 2017-02-28 Applied Materials, Inc. Method and apparatus for optimizing profit in predictive systems
US20200357506A1 (en) 2019-05-10 2020-11-12 National Taiwan University Medical image analyzing system and method thereof

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
CN107391760B (zh) * 2017-08-25 2018-05-25 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
US11467570B2 (en) * 2017-09-06 2022-10-11 Nippon Telegraph And Telephone Corporation Anomalous sound detection apparatus, anomaly model learning apparatus, anomaly detection apparatus, anomalous sound detection method, anomalous sound generation apparatus, anomalous data generation apparatus, anomalous sound generation method and program
US20210089927A9 (en) * 2018-06-12 2021-03-25 Ciena Corporation Unsupervised outlier detection in time-series data
JP7063237B2 (ja) * 2018-10-31 2022-05-09 日本電信電話株式会社 分類装置、分類方法および分類プログラム
JP7331369B2 (ja) * 2019-01-30 2023-08-23 日本電信電話株式会社 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
US20230119103A1 (en) * 2019-10-11 2023-04-20 Nippon Telegraph And Telephone Corporation Training device, classification device, training method, and training program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239203B2 (en) 2008-04-15 2012-08-07 Nuance Communications, Inc. Adaptive confidence thresholds for speech recognition
US9582828B2 (en) 2013-08-05 2017-02-28 Applied Materials, Inc. Method and apparatus for optimizing profit in predictive systems
US20200357506A1 (en) 2019-05-10 2020-11-12 National Taiwan University Medical image analyzing system and method thereof

Also Published As

Publication number Publication date
US20230076888A1 (en) 2023-03-09
US11868199B2 (en) 2024-01-09
CN115795385A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN108475935B (zh) 一种电池充电管理方法和终端
US20220043067A1 (en) Charging method and device, charging system, electronic equipment and storage medium
KR102383295B1 (ko) 터치 제어 방법 및 장치
CN110176226A (zh) 一种语音识别、及语音识别模型训练方法及装置
US9037518B2 (en) Classifying unclassified samples
CN110188862B (zh) 用于数据处理的模型超参数的搜索方法、装置、系统
CN110765414B (zh) 性能指标数据评估方法、装置、设备及存储介质
CN206531924U (zh) 用于检测由于辐射暴露而引起的劣化的装置
CN110659179B (zh) 一种评估系统运行状况的方法、装置及电子设备
WO2020062803A1 (zh) 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质
US8780828B2 (en) Cognitive radio device and method for determining channel occupancy
US20190286341A1 (en) Method and Apparatus for Managing Storage Medium in Storage Device, and Storage Device
US20230349721A1 (en) Step counting method, step counting device, and computer readable storage medium
KR20230036384A (ko) 이상 탐지 시스템 및 그의 임계치 설정 방법
CN112183052A (zh) 一种文档重复度检测方法、装置、设备和介质
CN117151855A (zh) 欺诈风险预测方法、装置、计算机设备和可读存储介质
CN114444333B (zh) 生态水位分析方法、装置、电子设备及存储介质
CN113034771B (zh) 基于人脸识别的过闸方法、装置、设备及计算机存储介质
CN113648659B (zh) 一种确定用户活跃度的方法和相关装置
JP2019057237A (ja) 歩数計測装置、歩数計測方法及びプログラム
CN114049195A (zh) 一种卡方分箱方法和装置
CN111984736B (zh) 对象类别检测方法、装置、可读存储介质和计算机设备
JPWO2020039701A1 (ja) 検知装置
WO2024140236A1 (zh) 数据分流方法、装置、设备及存储介质
KR102713822B1 (ko) 데이터 스트림에서 이상 패턴 발생 탐지 방법

Legal Events

Date Code Title Description
A201 Request for examination