WO2023106498A1 - 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치 - Google Patents

다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치 Download PDF

Info

Publication number
WO2023106498A1
WO2023106498A1 PCT/KR2021/019348 KR2021019348W WO2023106498A1 WO 2023106498 A1 WO2023106498 A1 WO 2023106498A1 KR 2021019348 W KR2021019348 W KR 2021019348W WO 2023106498 A1 WO2023106498 A1 WO 2023106498A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
input data
class
learning model
supervised learning
Prior art date
Application number
PCT/KR2021/019348
Other languages
English (en)
French (fr)
Inventor
김근진
김경민
박성주
Original Assignee
주식회사 스파이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스파이스웨어 filed Critical 주식회사 스파이스웨어
Priority to JP2023574580A priority Critical patent/JP2024527682A/ja
Priority to US18/180,910 priority patent/US20230222348A1/en
Publication of WO2023106498A1 publication Critical patent/WO2023106498A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Definitions

  • the present invention relates to a method and apparatus for enhancing personal information detection using multiple filtering.
  • Supervised learning is a method of machine learning to build one learning model by using data with correct answers as training data.
  • the learning model built in this way analyzes the characteristics of the data and outputs the class of the data as result data.
  • the problem to be solved by the present invention is to provide a method and apparatus for enhancing personal information detection using multiple filtering.
  • a method for enhancing personal information detection using multiple filtering includes performing first filtering on input data using record data and pattern data, and pre-built supervised learning. classifying a class of the first filtered input data using a model; performing second filtering on the first filtered input data using an unsupervised algorithm based on the classified class; and and updating the supervised learning model based on the second filtered result data.
  • the input data is compared with the previously collected record data based on the prediction result of the supervised learning model to determine whether the input data corresponds to the record data;
  • By performing a regular expression pattern check on data that does not correspond to the recorded data it is possible to determine whether pattern data corresponding to the type of the input data exists among pre-stored pattern data with respect to the data type.
  • the method may further include determining a class corresponding to the pattern data as a class of the input data in which the pattern data exists, with respect to the input data in which the pattern data exists.
  • a class of input data without pattern data may be classified by applying input data without pattern data to the supervised learning model.
  • an unsupervised algorithm is performed on the first filtered input data to determine whether the classified class for the first filtered input data is correct. It may include a decision-making step.
  • the classified class In the step of determining whether the class is correct, if the characteristic value of the first filtered input data exceeds a preset range based on the data statistical value of the classified class, the classified class is not accurate. and the similarity between the first filtered input data and data of each of a plurality of classes learned by the supervised learning model is measured, and a class having the highest similarity value among the plurality of classes is selected as the first filtered input data.
  • the classified class may be corrected by selecting a class of data.
  • the predetermined range is set based on data characteristics, and the data characteristics may include data length distribution, data character number distribution, and learning score distribution.
  • the supervised learning model may be updated by adding the corrected class and the input data as training data of the supervised learning model.
  • the method includes updating a pre-constructed record-based model, a pre-constructed pattern-based model, a pre-constructed statistics-based model, and a pre-constructed unsupervised learning model based on the second filtered result data. Further steps may be included.
  • An apparatus for enhancing personal information detection using multiple filtering for solving the above problems includes a communication unit, a memory for storing at least one process for enhancing personal information detection using multiple filtering, and the process Based on the process, the processor performs first filtering on the input data using record data and pattern data, and performs the first filtering on the input data using a pre-built supervised learning model. Classifying the filtered input data, performing second filtering on the first filtered input data based on the classified class using an unsupervised algorithm, and based on the second filtered result data The supervised learning model may be updated.
  • incorrect results may not be output for data having a clear pattern and a value previously selected by a user through a record-based search filter.
  • data classified as an uncertain class through supervised learning can be corrected into a more accurate class through an unsupervised algorithm-based filter.
  • FIG. 1 is a diagram for explaining an apparatus for enhancing personal information detection according to the present invention.
  • FIG. 2 is a flow chart of a personal information detection enhancement method according to the present invention.
  • FIG. 3 is a diagram for explaining the overall process of detecting personal information and updating a supervised learning model based on the detection result according to the present invention.
  • 'device' includes all various devices capable of providing results to users by performing calculation processing.
  • the devices may be in the form of computers and mobile terminals.
  • the computer may be in the form of a server receiving a request from a client and processing information.
  • a computer may correspond to a sequencing device that performs sequencing.
  • the mobile terminal includes a mobile phone, a smart phone, a personal digital assistants (PDA), a portable multimedia player (PMP), a navigation device, a notebook PC, a slate PC, a tablet PC, and an ultrabook.
  • PDA personal digital assistants
  • PMP portable multimedia player
  • a navigation device e.g, a watch type terminal (smartwatch), a glass type terminal (smart glass), a head mounted display (HMD)
  • HMD head mounted display
  • a 'supervised learning model' is a learning model based on artificial intelligence, and can be learned based on various artificial intelligence algorithms.
  • algorithms for learning such as CNN, DNN, RNN, KNN, and support vector machine (SVM) are all applicable.
  • FIG. 1 is a diagram for explaining an apparatus for enhancing personal information detection according to the present invention.
  • FIG. 2 is a flow chart of a personal information detection enhancement method according to the present invention.
  • FIG. 3 is a diagram for explaining the overall process of detecting personal information and updating a supervised learning model based on the detection result according to the present invention.
  • an apparatus 10 for enhancing personal information detection according to the present invention may include a communication unit 12, a memory 14, and a processor 16.
  • the device 10 may include fewer or more components than those shown in FIG. 1 .
  • the communication unit 12 may receive input data from an external device.
  • the external device may be a mobile terminal used by an individual or may be a server device managed by a company (company), but is not limited thereto.
  • the input data is data applied to the supervised learning model and used to predict which personal information is included, and the personal information may include a name, resident registration number, address, phone number, and the like.
  • the communication unit 12 of the device 10 of the present invention may receive input data from an external device through a communication network.
  • wireless LANs such as WLAN (Wireless LAN), Wi-Fi, Wibro, Wimax, and High Speed Downlink Packet Access (HSDPA).
  • a wired communication method such as communication method or Ethernet, xDSL (ADSL, VDSL), HFC (Hybrid Fiber Coax), FTTC (Fiber to The Curb), FTTH (Fiber To The Home) may be used.
  • the communication network is not limited to the communication methods presented above, and may include all other types of communication methods that are widely known or will be developed in the future in addition to the above communication methods.
  • At least one process for enhancing personal information detection using multiple filtering is stored in the memory 14 .
  • a pre-built supervised learning model is stored in the memory 14 .
  • the supervised learning model can predict the class of personal information included in the input data.
  • the supervised learning model since the supervised learning model performs probability-based prediction, it may produce erroneous prediction results, and therefore, the erroneous prediction of the supervised learning model can be supplemented by using multiple filters.
  • the processor 16 may perform overall functions for controlling the device 10, various operations associated with prediction of the supervised learning model, and various operations associated with supplementing erroneous prediction of the supervised learning model. For example, the processor 16 performs overall functions for controlling the device 10 by executing programs or processes stored in the memory 14, various operations related to prediction of the supervised learning model, and errors of the supervised learning model. It is possible to perform various operations related to supplementation of prediction.
  • the processor 16 may be implemented as a Central Processing Unit (CPU), a Graphic Processing Unit (GPU), a Digital Signal Processor (DSP), a Neural Processing Unit (NPU), or an Application Processor (AP) provided in the device 10. However, it is not limited thereto.
  • the processor 16 may include a first filter module 161 , a supervised learning module 162 and a second filter module 163 .
  • the processor 16 may include fewer or more components than those shown in FIG. 1 .
  • the first filter module 161 applies a record-based and pattern-based preprocessing filter before applying the input data to the supervised learning model, so that if the input data has been previously predicted, it is not applied to the supervised learning model, and The predicted result can be used as the prediction result for the corresponding input data.
  • the supervised learning module 162 may perform prediction by applying the first filtered input data (ie, data that has not been previously predicted) to the supervised learning model.
  • the supervised learning module 162 may be composed of one or more cores, and may include a central processing unit (CPU), a general purpose graphics processing unit (GPGPU), and a tensor processing unit (TPU) of a computing device. It may include a processor for data analysis and deep learning, such as a tensor processing unit).
  • the supervised learning module 162 may read a computer program stored in a memory to enhance personal information detection using multiple filtering according to an embodiment of the present invention. According to an embodiment of the present invention, the supervised learning module 162 may perform an operation for learning a neural network.
  • the supervised learning module 162 processes input data for learning in deep learning (DL), extracts features from input data, calculates errors, and learns neural networks such as weight updates of neural networks using backpropagation. Calculations can be performed for At least one of the CPU, GPGPU, and TPU of the supervised learning module 162 may process learning of the network function.
  • the CPU and GPGPU can process learning of network functions and data classification using network functions.
  • the learning of a network function and data classification using a network function may be processed by using processors of a plurality of computing devices together.
  • a computer program executed in a computing device may be a CPU, GPGPU or TPU executable program.
  • the second filter module 163 may apply a post-processing filter using an unsupervised algorithm to determine whether the prediction result of the supervised learning model is accurate and correct the inaccurate prediction result.
  • the predicted result corrected in this way is learned by the supervised learning model, so that the prediction accuracy of the supervised learning model can be improved.
  • the processor 16 of the present invention complements the supervised learning technique through pre-filtering (first filtering) and post-processing filtering (second filtering) will be described in detail.
  • the operation of the processor 16 may be performed by the device 10 .
  • the processor 16 may perform first filtering on input data using record data and pattern data (S100).
  • the processor 16 may classify the first filtered input data class using the built supervised learning model (S200).
  • the processor 16 may perform second filtering on the first filtered input data based on the classified class using an unsupervised algorithm (S300).
  • the processor 16 may update the supervised learning model based on the second filtered result data (S400).
  • the input data may be data including personal information.
  • the present invention detects what kind of personal information is included in input data through a supervised learning model. It helps to accurately identify the type of personal information included in the data.
  • the performance of the supervised learning model may be improved by learning result data accurately predicted through the first filtering and the second filtering.
  • step S100 the processor 16 may perform first filtering by comparing the input data with record data and pattern data.
  • the record data may be pre-collected data based on previous prediction results of the supervised learning model. More specifically, only data for which prediction results were accurate among input data for which prediction was previously input to a supervised learning model may be collected as historical data. Record data may be collected by mapping input data and a class (prediction result) of the corresponding input data.
  • the pattern data may be pre-stored data about data types based on regular expressions. Since personal information each has a different form, each form can be preset as pattern data.
  • the processor 16 may check whether there is data identical to the input data among the pre-collected record data, and if there is the same data, determine the class of the corresponding data as the class of the input data. For example, if the input data is "John Gil-dong”, if there is data of "John Gil-dong” among the recorded data, and the class mapped to the corresponding data is "name”, the class of the input data "gil-dong Hong” is determined as "name”.
  • the processor 16 may compare the corresponding input data with pattern data.
  • the class of the corresponding data may be determined as the class of the input data. For example, if the input data is "000000-0000000 (in the form of a resident registration number)", the pattern of " ⁇ d ⁇ 6 ⁇ ⁇ - [1-4] ⁇ d ⁇ 6 ⁇ ” among the pattern data through regular expression pattern inspection If exists, the class of the input data “000000-0000000” may be determined as “resident registration number”.
  • the processor 16 may input the corresponding input data to the supervised learning model.
  • step S200 the processor 16 may classify a class of the input data without pattern data by applying the input data without pattern data to the supervised learning model.
  • the data for which class classification is performed in step S200 may mean the first filtered data in step S100. More specifically, the first filtered data refers to data not included in the record data and pattern data, and data not included in the record data and pattern data may be classified into classes in step S200.
  • step S300 the processor 16 determines that the classified class is not accurate when the characteristic value of the first filtered input data is out of a preset range based on the data statistical values for the classified class. can judge
  • the preset range may be set based on data characteristics.
  • the data characteristics may include a length distribution of data, a distribution of the number of characters in the data, and a learning score distribution, but are not limited thereto, and various characteristics suitable for the data may all be applied.
  • the preset range may be set based on at least one of a length distribution of data, a distribution of the number of characters in the data, and a distribution of learning scores.
  • the total length, the number of included Korean, English, numbers and special characters, correct and incorrect scores of learning results are different, and the statistical values may also be different.
  • the classified class is "name"
  • the name data are distributed at 0.5 among values between 0 and 1 in the number of characters distribution, the number of characters distribution and the learning score distribution, and the preset range is ⁇ 0.1
  • the corresponding The classified class can be determined to be accurate only when the feature value of the input data is between 0.4 and 0.6.
  • the class classified for the corresponding input data may be determined to be incorrect.
  • the processor 16 may apply an unsupervised algorithm to the input data.
  • the processor 16 measures the similarity between the first filtered input data and data of each of a plurality of classes learned by the supervised learning model, and selects a class having the largest similarity value among the plurality of classes. 1
  • the classified class may be corrected by selecting a class of the filtered input data.
  • the processor 16 has a plurality of classes (for example, “address”, “resident registration number”, “mobile phone number”) for the input data. ", etc.) when measuring the similarity with each data, if the input data has the highest similarity with the data of "mobile phone number", the class classified as "name” for the corresponding input data is "mobile phone number” can be corrected with
  • step S400 the processor 16 may update the supervised learning model by adding the corrected class and the input data as training data of the supervised learning model.
  • the supervised learning model can be updated by using input data as an input value and correct correct values as a class corrected by an unsupervised algorithm rather than an erroneous prediction result of the supervised learning model.
  • input data and classes corrected for the corresponding data may be added to the record data, pattern data, and unsupervised algorithm-related data. Accordingly, the accuracy of pre-processing filtering using record data and pattern data and post-processing filtering using an unsupervised algorithm can be improved.
  • a supervised learning model when a supervised learning model is updated (step S400) after all processes (steps S100 to S300) are completed, a record base built in advance based on the second filtered result data.
  • the method may further include updating a model, a pre-constructed pattern-based model, a pre-constructed statistics-based model, and a pre-constructed unsupervised learning model.
  • updating may be performed with the same data for not only the supervised learning model but also the remaining four models.
  • the record-based model can be updated by adding the result value to the record list when the result value of the process (steps S100 to S300) is information that has not been previously added.
  • the pattern-based model can be updated by adding the corresponding result value to the pattern list when the result value of the process (steps S100 to S300) is a pattern that has not been previously added.
  • the supervised learning model may be updated by learning result values of the process (steps S100 to S300) as correct values.
  • the statistics-based model can be updated by extracting and storing feature values required for statistics from result values of the process (steps S100 to S300).
  • the unsupervised learning model may be updated by performing learning using the output values of the process (steps S100 to S300) as input values.
  • FIG. 2 describes that steps S100 to S300 are sequentially executed, but this is merely an example of the technical idea of this embodiment, and those skilled in the art to which this embodiment belongs will Since it will be possible to change and execute the order described in FIG. 2 without departing from the essential characteristics or to perform steps S100 to S300 in parallel, it will be possible to apply various modifications and variations, so FIG. 2 is not limited to a time-series order. .
  • steps S100 to S300 may be further divided into additional steps or combined into fewer steps, depending on the embodiment of the present invention. Also, some steps may be omitted if necessary, and the order of steps may be changed.
  • the personal information detection enhancement method using multiple filtering according to the present invention described above may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a computer readable recording medium.
  • the above-mentioned program is C, C++, JAVA, Ruby, C, C++, JAVA, Ruby, which the processor (CPU) of the computer can read through the device interface of the computer so that the computer reads the program and executes the methods implemented as a program.
  • It may include a code coded in a computer language such as machine language.
  • These codes may include functional codes related to functions defining necessary functions for executing the methods, and include control codes related to execution procedures necessary for the processor of the computer to execute the functions according to a predetermined procedure. can do.
  • these codes may further include memory reference related codes for which location (address address) of the computer's internal or external memory should be referenced for additional information or media required for the computer's processor to execute the functions. there is.
  • the code uses the computer's communication module to determine how to communicate with any other remote computer or server. It may further include communication-related codes for whether to communicate, what kind of information or media to transmit/receive during communication, and the like.
  • the storage medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and is readable by a device.
  • examples of the storage medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc., but are not limited thereto. That is, the program may be stored in various recording media on various servers accessible by the computer or various recording media on the user's computer.
  • the medium may be distributed to computer systems connected through a network, and computer readable codes may be stored in a distributed manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치가 제공된다. 상기 방법은, 입력 데이터에 대해 기록 데이터 및 패턴 데이터를 이용하여 제1 필터링을 수행하는 단계, 기 구축된 지도 학습 모델을 이용하여 상기 제1 필터링된 입력 데이터의 클래스를 분류하는 단계, 상기 분류된 클래스에 기초하여 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 이용하여 제2 필터링을 수행하는 단계 및 상기 제2 필터링된 결과 데이터에 기초하여 상기 지도 학습 모델을 업데이트하는 단계를 포함한다.

Description

다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치
본 발명은 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치에 관한 것이다.
지도 학습(Supervised Learning)은 정답이 있는 데이터를 훈련 데이터(Training Data)로 활용하여 하나의 학습 모델을 구축하기 위한 기계 학습(Machine Learning)의 한 방법이다. 이렇게 구축된 학습 모델은 입력 데이터가 입력되면 해당 데이터의 특성을 분석하여 결과 데이터로 해당 데이터의 클래스를 출력할 수 있다.
그러나, 지도 학습의 경우 확률 기반의 예측이기 때문에, 명확이 구분할 수 있는 입력 데이터에 대해서도 잘못된 예측이 이루어질 수 있다는 문제점이 있다.
본 발명이 해결하고자 하는 과제는 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치를 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또 다른 과제들이 존재할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 다중 필터링을 이용한 개인정보 탐지 강화 방법은, 입력 데이터에 대해 기록 데이터 및 패턴 데이터를 이용하여 제1 필터링을 수행하는 단계, 기 구축된 지도 학습 모델을 이용하여 상기 제1 필터링된 입력 데이터의 클래스를 분류하는 단계, 상기 분류된 클래스에 기초하여 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 이용하여 제2 필터링을 수행하는 단계 및 상기 제2 필터링된 결과 데이터에 기초하여 상기 지도 학습 모델을 업데이트하는 단계를 포함한다.
또한, 상기 제1 필터링 수행 단계는, 상기 입력 데이터를 상기 지도 학습 모델의 예측 결과에 기초하여 기 수집된 상기 기록 데이터와 비교하여, 상기 입력 데이터가 상기 기록 데이터에 해당하는지의 여부를 판단하고, 상기 기록 데이터에 해당하지 않는 데이터에 대해 정규 표현식 패턴 검사를 수행하여, 데이터 형태에 관하여 기 저장된 패턴 데이터 중 상기 입력 데이터의 형태에 해당하는 패턴 데이터가 존재하는지를 판단할 수 있다.
또한, 상기 방법은, 상기 패턴 데이터가 존재하는 입력 데이터에 대해, 상기 패턴 데이터에 해당하는 클래스를 상기 패턴 데이터가 존재하는 입력 데이터의 클래스로 결정하는 단계를 더 포함할 수 있다.
또한, 상기 클래스 분류 단계는, 상기 패턴 데이터가 존재하지 않는 입력 데이터를 상기 지도 학습 모델에 적용하여 상기 패턴 데이터가 존재하지 않는 입력 데이터의 클래스를 분류할 수 있다.
또한, 상기 후처리 필터 적용 단계는, 상기 분류된 클래스에 기초하여, 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 수행하여 상기 제1 필터링된 입력 데이터에 대해 분류된 클래스가 정확한지 여부를 판단하는 단계를 포함할 수 있다.
또한, 상기 클래스 정확 여부 판단 단계는, 상기 분류된 클래스에 대한 데이터 통계 값을 기준으로 하여, 상기 제1 필터링된 입력 데이터의 특징 값이 기 설정된 범위를 벗어나는 경우, 상기 분류된 클래스가 정확하지 않은 것으로 판단하고, 상기 제1 필터링된 입력 데이터 및 상기 지도 학습 모델이 학습한 복수의 클래스 각각의 데이터 간 유사도를 측정하고, 상기 복수의 클래스 중 상기 유사도 값이 가장 큰 클래스를 상기 제1 필터링된 입력 데이터의 클래스로 선택하여 상기 분류된 클래스를 보정할 수 있다.
또한, 상기 기 설정된 범위는, 데이터 특성에 기초하여 설정되며, 상기 데이터 특성은 데이터의 길이 분포, 데이터의 문자 개수 분포 및 학습 스코어 분포를 포함할 수 있다.
또한, 상기 지도 학습 모델 업데이트 단계는, 상기 보정된 클래스 및 상기 입력 데이터를 상기 지도 학습 모델의 학습 데이터로 추가하여 상기 지도 학습 모델을 업데이트할 수 있다.
또한, 상기 방법은, 상기 제2 필터링된 결과 데이터에 기초하여 기 구축된 기록 기반의 모델, 기 구축된 패턴 기반의 모델, 기 구축된 통계 기반의 모델 및 기 구축된 비지도 학습 모델을 업데이트하는 단계를 더 포함할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 다중 필터링을 이용한 개인정보 탐지 강화 장치는, 통신부, 다중 필터링을 이용한 개인정보 탐지를 강화하기 위한 적어도 하나의 프로세스를 저장하고 있는 메모리 및 상기 프로세스에 따라 동작하는 프로세서를 포함하고, 상기 프로세서는, 상기 프로세스를 기반으로, 입력 데이터에 대해 기록 데이터 및 패턴 데이터를 이용하여 제1 필터링을 수행하고, 기 구축된 지도 학습 모델을 이용하여 상기 제1 필터링된 입력 데이터의 클래스를 분류하고, 상기 분류된 클래스에 기초하여 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 이용하여 제2 필터링을 수행하고, 상기 제2 필터링된 결과 데이터에 기초하여 상기 지도 학습 모델을 업데이트할 수 있다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상술한 본 발명에 의하면, 다중 필터를 추가하여 지도 학습의 잘못된 예측을 보완할 수 있다.
구체적으로, 기록 기반의 검색 필터를 통해 이전에 사용자에 의해 선택된 값 및 명확한 패턴을 가지는 데이터에 대해서는 잘못된 결과를 출력하지 않을 수 있다.
또한, 지도 학습을 통해 확실하지 않은 클래스로 분류된 데이터에 대해서도 비지도 알고리즘 기반 필터를 통해 보다 정확도 높은 클래스로 보정할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 개인정보 탐지 강화 장치를 설명하기 위한 도면이다.
도 2는 본 발명에 따른 개인정보 탐지 강화 방법의 순서도이다.
도 3은 본 발명에 따른 개인정보 탐지 및 탐지 결과에 기초한 지도 학습 모델 업데이트의 전체적인 프로세스를 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.
본 명세서에서 '장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 장치는 컴퓨터 및 이동 단말기 형태가 될 수 있다. 상기 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버 형태가 될 수 있다. 또한, 컴퓨터에는 시퀀싱을 수행하는 시퀀싱 장치가 해당될 수 있다. 상기 이동 단말기는 휴대폰, 스마트 폰(smart phone), PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 노트북 PC, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
본 명세서에서 '지도 학습 모델'은 인공 지능을 기반으로 하는 학습 모델로서, 다양한 인공지능 알고리즘을 기반으로 학습될 수 있다. 예를 들어, CNN, DNN, RNN, KNN, 서포트 벡터 머신(SVM) 등과 같이 학습을 위한 알고리즘은 모두 적용 가능하다.
도 1은 본 발명에 따른 개인정보 탐지 강화 장치를 설명하기 위한 도면이다.
도 2는 본 발명에 따른 개인정보 탐지 강화 방법의 순서도이다.
도 3은 본 발명에 따른 개인정보 탐지 및 탐지 결과에 기초한 지도 학습 모델 업데이트의 전체적인 프로세스를 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 개인정보 탐지 강화 장치(10)(이하, 장치)는 통신부(12), 메모리(14) 및 프로세서(16)를 포함할 수 있다. 다만, 장치(10)는 도 1에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수 있다.
통신부(12)은 외부 장치로부터 입력 데이터를 수신할 수 있다. 여기서, 외부 장치 개인이 사용하는 이동 단말기일 수 있고, 업체(회사)가 관리하는 서버 장치일 수 있지만, 이에 제한되는 것은 아니다.
여기서, 입력 데이터는 지도 학습 모델에 적용되어 어떤 개인정보가 포함되었는지를 예측하기 위해 활용되는 데이터로서, 개인정보는 이름, 주민번호, 주소, 전화번호 등을 포함할 수 있다.
본 발명의 장치(10)의 통신부(12)는 통신망을 통해서 외부 장치로부터 입력 데이터를 수신할 수 있다.
여기서, 통신망은 다양한 형태의 통신망이 이용될 수 있으며, 예컨대, WLAN(Wireless LAN), 와이파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), HSDPA(High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb), FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다.
한편, 통신망은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.
메모리(14)에는 다중 필터링을 이용한 개인정보 탐지를 강화하기 위한 적어도 하나의 프로세스가 저장된다. 또한, 메모리(14)에는 기 구축된 지도 학습 모델이 저장된다. 여기서 지도 학습 모델은, 입력 데이터에 포함된 개인정보에 대한 클래스를 예측할 수 있다. 본 발명은 지도 학습 모델이 확률 기반의 예측을 수행하기 때문에 잘못된 예측 결과를 낼 수 있으므로, 다중 필터를 활용하여 상기 지도 학습 모델의 잘못된 예측을 보완할 수 있다.
프로세서(16)는 장치(10)를 제어하기 위한 전반적인 기능과, 지도 학습 모델의 예측과 연관된 각종 동작과, 상기 지도 학습 모델의 잘못된 예측의 보완과 연관된 각종 동작을 수행할 수 있다. 예를 들어, 프로세서(16)는 메모리(14)에 저장된 프로그램 또는 프로세스들을 실행함으로써 장치(10)를 제어하기 위한 전반적인 기능과, 지도 학습 모델의 예측과 연관된 각종 동작과, 상기 지도 학습 모델의 잘못된 예측의 보완과 연관된 각종 동작을 수행할 수 있다. 프로세서(16)는 장치(10) 내에 구비된 CPU(Central Processing Unit), GPU(Graphic Processing Unit), DSP(Digital Signal Processor), NPU(Neural Processing Unit) 또는 AP(Application Processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.
도 1을 참조하면, 프로세서(16)는 제1 필터 모듈(161), 지도 학습 모듈(162) 및 제2 필터 모듈(163)을 포함할 수 있다. 다만, 프로세서(16)는 도 1에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수 있다.
제1 필터 모듈 (161)은 입력 데이터를 지도 학습 모델에 적용하기 전에, 기록 기반 및 패턴 기반의 전처리 필터를 적용하여 해당 입력 데이터가 이전에 예측됐었던 데이터라면 지도 학습 모델에 적용하지 않고, 이전에 예측됐었던 결과를 해당 입력 데이터에 대한 예측 결과로 활용할 수 있다.
지도 학습 모듈(162)은 제1 필터링된 입력 데이터(즉, 이전에 예측된 적 없었던 데이터)를 지도 학습 모델에 적용하여 예측을 수행할 수 있다.
지도 학습 모듈(162)은 하나 이상의 코어로 구성될 수 있으며, 컴퓨팅 장치의 중앙 처리 장치(CPU: central processing unit), 범용 그래픽 처리 장치 (GPGPU: general purpose graphics processing unit), 텐서 처리 장치(TPU: tensor processing unit) 등의 데이터 분석, 딥러닝을 위한 프로세서를 포함할 수 있다. 지도 학습 모듈(162)은 메모리에 저장된 컴퓨터 프로그램을 판독하여 본 발명의 일 실시예에 따른 다중 필터링을 이용한 개인정보 탐지를 강화를 수행할 수 있다. 본 발명의 일실시예에 따라 지도 학습 모듈(162)은 신경망의 학습을 위한 연산을 수행할 수 있다. 지도 학습 모듈(162)은 딥러닝(DL: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다. 지도 학습 모듈(162)의 CPU, GPGPU, 및 TPU 중 적어도 하나가 네트워크 함수의 학습을 처리할 수 있다. 예를 들어, CPU 와 GPGPU가 함께 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에서 복수의 컴퓨팅 장치의 프로세서를 함께 사용하여 네트워크 함수의 학습, 네트워크 함수를 이용한 데이터 분류를 처리할 수 있다. 또한, 본 발명의 일 실시예에 따른 컴퓨팅 장치에서 수행되는 컴퓨터 프로그램은, CPU, GPGPU 또는 TPU 실행가능 프로그램일 수 있다.
제2 필터 모듈 (163)은 비지도 기반 알고리즘을 이용한 후처리 필터를 적용하여, 지도 학습 모델의 예측 결과가 정확한지를 판단하고 부정확한 예측 결과를 보정할 수 있다.
이렇게 보정된 예측 결과는 지도 학습 모델에 의해 학습되어 지도 학습 모델의 예측 정확도가 향상될 수 있다.
이하에서는 도 2 및 도 3을 참조하여, 본 발명의 프로세서(16)가 전처리 필터(제1 필터링)링 및 후처리 필터링(제2 필터링)을 통해 지도 학습 기법 보완하는 방법에 대해 상세히 설명하도록 한다. 여기서, 프로세서(16)의 동작은 장치(10)에서 수행 가능할 수 있다.
도 2를 참조하면, 프로세서(16)는 입력 데이터에 대해 기록 데이터 및 패턴 데이터를 이용하여 제1 필터링을 수행할 수 있다(S100).
프로세서(16)는 구축된 지도 학습 모델을 이용하여 상기 제1 필터링된 입력 데이터의 클래스를 분류할 수 있다(S200).
프로세서(16)는 상기 분류된 클래스에 기초하여 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 이용하여 제2 필터링을 수행할 수 있다(S300).
프로세서(16)는 상기 제2 필터링된 결과 데이터에 기초하여 상기 지도 학습 모델을 업데이트할 수 있다(S400).
상술한 바와 같이, 입력 데이터는 개인정보가 포함된 데이터일 수 있다. 본 발명은 지도 학습 모델을 통해 입력 데이터에 포함된 개인정보가 어떤 종류의 개인정보인지를 탐지하는데, 이때 지도 학습 모델의 예측이 부정확한 경우를 대비하여 제1 필터링 및 제2 필터링을 수행함으로써 입력 데이터에 포함된 개인정보의 종류를 정확하게 파악할 수 있도록 한다. 그리고, 이렇게 제1 필터링 및 제2 필터링을 통해 정확히 예측된 결과 데이터를 학습함으로써 상기 지도 학습 모델의 성능을 개선할 수 있다.
단계 S100에서, 프로세서(16)는 상기 입력 데이터를 기록 데이터 및 패턴 데이터와 비교하여 제1 필터링을 수행할 수 있다.
여기서, 기록 데이터는 지도 학습 모델의 이전 예측 결과에 기초하여 기 수집된 데이터일 수 있다. 보다 상세하게, 이전에 지도 학습 모델에 입력하여 예측이 수행됐던 입력 데이터 중에서 예측 결과가 정확했던 데이터만 기록 데이터로 수집될 수 있다. 기록 데이터는 입력 데이터 및 해당 입력 데이터의 클래스(예측 결과)가 맵핑되어 수집될 수 있다. 패턴 데이터는 정규 표현식 기반으로 데이터 형태에 관하여 기 저장된 데이터일 수 있다. 개인정보는 각각 상이한 형태를 가지고 있기 때문에, 각각의 형태가 패턴 데이터로서 미리 설정될 수 있다.
구체적으로, 프로세서(16)는 기 수집된 기록 데이터 중에서 입력 데이터와 동일한 데이터가 있는지를 확인하고, 동일한 데이터가 있다면, 해당 데이터의 클래스를 입력 데이터의 클래스로 결정할 수 있다. 예를 들어, 입력 데이터가 "홍길동"인 경우, 기록 데이터 중에서 "홍길동"인 데이터가 있고, 해당 데이터에 맵핑된 클래스가 "이름"이라면, 상기 입력 데이터 "홍길동"의 클래스는 "이름"으로 결정될 수 있다.
반면, 도 3에 도시된 바와 같이, 기 수집된 기록 데이터 중에서 입력 데이터와 동일한 데이터가 없는 경우, 프로세서(16)는 해당 입력 데이터를 패턴 데이터와 비교할 수 있다.
구체적으로, 기록 데이터에 해당하지 않는 데이터에 대해 정규 표현식 패턴 검사를 수행하여, 기 저장된 패턴 데이터 중 상기 입력 데이터의 형태에 해당하는 패턴 데이터가 존재하는지를 판단할 수 있다. 그리고, 입력 데이터의 형태에 해당하는 패턴 데이터가 존재한다면, 해당 데이터의 클래스를 입력 데이터의 클래스로 결정할 수 있다. 예를 들어, 입력 데이터가 "000000-0000000(주민등록번호의 형태)"인 경우, 정규 표현식 패턴 검사를 통해 패턴 데이터 중에서 "\d{6} \- [1-4]\d{6}"의 패턴이 존재한다면, 상기 입력 데이터 "000000-0000000"의 클래스는 "주민등록번호"로 결정될 수 있다.
반면, 도 3에 도시된 바와 같이, 기 저장된 패턴 데이터 중에서 입력 데이터의 형태와 동일한 패턴 데이터가 없는 경우, 프로세서(16)는 해당 입력 데이터를 지도 학습 모델에 입력할 수 있다.
단계 S200에서, 프로세서(16)는 패턴 데이터가 존재하지 않는 입력 데이터를 상기 지도 학습 모델에 적용하여 상기 패턴 데이터가 존재하지 않는 입력 데이터의 클래스를 분류할 수 있다.
즉, 단계 S200에서 클래스 분류가 수행되는 데이터는 단계 S100에서 제1 필터링된 데이터를 의미할 수 있다. 보다 상세하게, 제1 필터링된 데이터는 상기 기록 데이터와 상기 패턴 데이터에 포함되지 않는 데이터를 의미하며, 단계 S200에서 상기 기록 데이터와 상기 패턴 데이터에 포함되지 않는 데이터에 대해 클래스를 분류할 수 있다.
단계 S300에서, 프로세서(16)는 상기 분류된 클래스에 대한 데이터 통계 값을 기준으로 하여, 상기 제1 필터링된 입력 데이터의 특징 값이 기 설정된 범위를 벗어나는 경우, 상기 분류된 클래스가 정확하지 않은 것으로 판단할 수 있다.
여기서, 상기 기 설정된 범위는, 데이터 특성에 기초하여 설정될 수 있다. 여기서, 데이터 특성은 데이터의 길이 분포, 데이터의 문자 개수 분포 및 학습 스코어 분포를 포함할 수 있으며, 이에 제한되지 않고 데이터에 맞는 다양한 특성들은 모두 적용 가능하다.
실시예에 따라, 기 설정된 범위는 데이터의 길이 분포, 데이터의 문자 개수 분포 및 학습 스코어 분포 중 적어도 하나에 기초하여 설정될 수 있다. 개인정보마다 전체 길이, 포함된 한글, 영어, 숫자 및 특수문자 등의 개수, 학습 결과의 correct 및 incorrect 스코어가 다르며, 그 통계 값도 다를 수 있다. 각 개인정보 마다의 통계 값을 기준으로 범위를 설정하여 입력 데이터의 특징 값이 해당 범위 내에 포함되는지의 여부에 따라 분류된 클래스가 정확한지를 판단할 수 있다.
예를 들어, 분류된 클래스가 "이름"인 경우, 이름 데이터들이 문자 개수 분포, 문자 개수 분포 및 학습 스코어 분포에서 0~1 사이의 값 중에서 0.5에 분포하고, 기 설정된 범위가 ±0.1라면, 해당 입력 데이터의 특징 값이 0.4~0.6 사이의 값이어야 분류된 클래스가 정확한 것으로 판단될 수 있다.
상기 문자 개수 분포, 문자 개수 분포 및 학습 스코어 분포 중 적어도 하나의 분포에서 특징 값이 기 설정된 범위에 포함되지 않는다면, 해당 입력 데이터에 대해 분류된 클래스는 정확하지 않은 것으로 판단될 수 있다.
이렇게 분류된 클래스가 정확하지 않은 것으로 판단되면, 프로세서(16)는 입력 데이터에 대해 비지도 기반 알고리즘을 적용할 수 있다.
구체적으로, 프로세서(16)는 상기 제1 필터링된 입력 데이터 및 상기 지도 학습 모델이 학습한 복수의 클래스 각각의 데이터 간 유사도를 측정하고, 상기 복수의 클래스 중 상기 유사도 값이 가장 큰 클래스를 상기 제1 필터링된 입력 데이터의 클래스로 선택하여 상기 분류된 클래스를 보정할 수 있다.
지도 학습 모델에 의해 입력 데이터의 클래스가 "이름"으로 분류된 경우를 예로 들면, 프로세서(16)는 해당 입력 데이터에 대해 복수의 클래스(예를 들어, "주소", "주민등록번호", "휴대폰번호" 등) 각각의 데이터들과의 유사도를 측정했을 때, 해당 입력 데이터가 "휴대폰번호"의 데이터와의 유사도가 가장 높다면, 해당 입력 데이터에 대해 "이름"으로 분류되었던 클래스가 "휴대폰번호"로 보정될 수 있다.
단계 S400에서, 프로세서(16)는 상기 보정된 클래스 및 상기 입력 데이터를 상기 지도 학습 모델의 학습 데이터로 추가하여 상기 지도 학습 모델을 업데이트할 수 있다.
즉, 입력 데이터를 입력값으로 하고, 정답값은 지도 학습 모델의 잘못된 예측 결과가 아닌, 비지도 기반 알고리즘에 의해 보정된 클래스로 하여 학습함으로써, 상기 지도 학습 모델을 업데이트할 수 있다.
또한, 입력 데이터와 해당 데이터에 대해 보정된 클래스는 상기 기록 데이터, 패턴 데이터 및 비지도 기반 알고리즘 관련 데이터에도 추가될 수 있다. 이에 따라, 이후 기록 데이터 및 패턴 데이터를 이용한 전처리 필터링 및 비지도 기반 알고리즘을 이용한 후처리 필터링의 정확도까지 높일 수 있다.
실시예에 따라, 본 발명은 하나의 모든 프로세스(단계 S100 내지 단계 S300)가 끝난 후 지도 학습 모델의 업데이트(단계 S400)가 이루어질 때, 상기 제2 필터링된 결과 데이터에 기초하여 기 구축된 기록 기반의 모델, 기 구축된 패턴 기반의 모델, 기 구축된 통계 기반의 모델 및 기 구축된 비지도 학습 모델을 업데이트하는 단계를 더 포함할 수 있다.
즉, 지도 학습 모델뿐만 아니라, 나머지 4개의 모델에 대해서도 동일한 데이터를 가지고 업데이트가 수행될 수 있다.
기록 기반의 모델은 상기 프로세스(단계 S100 내지 단계 S300)의 결과값이 기존에 추가되지 않은 정보일 경우 해당 결과값을 기록 리스트에 추가함으로써 업데이트될 수 있다.
패턴 기반의 모델은 상기 프로세스(단계 S100 내지 단계 S300)의 결과값이 기존에 추가되지 않은 패턴일 경우 해당 결과값을 패턴 리스트에 추가함으로써 업데이트될 수 있다.
지도 학습 모델은 상술한 바와 같이 상기 프로세스(단계 S100 내지 단계 S300)의 결과값을 정답값으로 학습하여 업데이트될 수 있다.
통계 기반의 모델은 상기 프로세스(단계 S100 내지 단계 S300)의 결과값으로부터 통계에서 요구하는 특징(feature) 값을 추출하여 저장함으로써 업데이트될 수 있다.
비지도 학습 모델은 상기 프로세스(단계 S100 내지 단계 S300)의 결과값 자체를 입력값으로 하여 학습을 수행함으로써 업데이트될 수 있다.
도 2는 단계 S100 내지 단계 S300을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 2에 기재된 순서를 변경하여 실행하거나 단계 S100 내지 단계 S300을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 2는 시계열적인 순서로 한정되는 것은 아니다.
한편, 상술한 설명에서, 단계 S100 내지 단계 S300은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
이상에서 전술한 본 발명에 따른 다중 필터링을 이용한 개인정보 탐지 강화 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 컴퓨터 판독가능 기록 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (11)

  1. 장치에 의해 수행되는 방법에 있어서,
    입력 데이터에 대해 기록 데이터 및 패턴 데이터를 이용하여 제1 필터링을 수행하는 단계;
    기 구축된 지도 학습 모델을 이용하여 상기 제1 필터링된 입력 데이터의 클래스를 분류하는 단계;
    상기 분류된 클래스에 기초하여 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 이용하여 제2 필터링을 수행하는 단계; 및
    상기 제2 필터링된 결과 데이터에 기초하여 상기 지도 학습 모델을 업데이트하는 단계;를 포함하고, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  2. 제1 항에 있어서,
    상기 제1 필터링 수행 단계는,
    상기 입력 데이터를 상기 지도 학습 모델의 예측 결과에 기초하여 기 수집된 상기 기록 데이터와 비교하여, 상기 입력 데이터가 상기 기록 데이터에 해당하는지의 여부를 판단하고,
    상기 기록 데이터에 해당하지 않는 데이터에 대해 정규 표현식 패턴 검사를 수행하여, 데이터 형태에 관하여 기 저장된 패턴 데이터 중 상기 입력 데이터의 형태에 해당하는 패턴 데이터가 존재하는지를 판단하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  3. 제2 항에 있어서,
    상기 패턴 데이터가 존재하는 입력 데이터에 대해, 상기 패턴 데이터에 해당하는 클래스를 상기 패턴 데이터가 존재하는 입력 데이터의 클래스로 결정하는 단계;를 더 포함하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  4. 제2 항에 있어서,
    상기 클래스 분류 단계는,
    상기 패턴 데이터가 존재하지 않는 입력 데이터를 상기 지도 학습 모델에 적용하여 상기 패턴 데이터가 존재하지 않는 입력 데이터의 클래스를 분류하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  5. 제1 항에 있어서,
    상기 제2 필터핑 수행 단계는,
    상기 분류된 클래스에 기초하여, 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 수행하여 상기 제1 필터링된 입력 데이터에 대해 분류된 클래스가 정확한지 여부를 판단하는 단계;를 포함하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  6. 제5 항에 있어서,
    상기 클래스 정확 여부 판단 단계는,
    상기 분류된 클래스에 대한 데이터 통계 값을 기준으로 하여, 상기 제1 필터링된 입력 데이터의 특징 값이 기 설정된 범위를 벗어나는 경우, 상기 분류된 클래스가 정확하지 않은 것으로 판단하고,
    상기 제1 필터링된 입력 데이터 및 상기 지도 학습 모델이 학습한 복수의 클래스 각각의 데이터 간 유사도를 측정하고, 상기 복수의 클래스 중 상기 유사도 값이 가장 큰 클래스를 상기 제1 필터링된 입력 데이터의 클래스로 선택하여 상기 분류된 클래스를 보정하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  7. 제6 항에 있어서,
    상기 기 설정된 범위는, 데이터 특성에 기초하여 설정되며,
    상기 데이터 특성은, 데이터의 길이 분포, 데이터의 문자 개수 분포 및 학습 스코어 분포를 포함하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  8. 제6 항에 있어서,
    상기 지도 학습 모델 업데이트 단계는,
    상기 보정된 클래스 및 상기 입력 데이터를 상기 지도 학습 모델의 학습 데이터로 추가하여 상기 지도 학습 모델을 업데이트하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  9. 제1 항에 있어서,
    상기 제2 필터링된 결과 데이터에 기초하여 기 구축된 기록 기반의 모델, 기 구축된 패턴 기반의 모델, 기 구축된 통계 기반의 모델 및 기 구축된 비지도 학습 모델을 업데이트하는 단계;를 더 포함하는, 다중 필터링을 이용한 개인정보 탐지 강화 방법.
  10. 컴퓨터와 결합되어, 제1 항 내지 제9 항 중 어느 한 항의 방법을 실행하기 위해 컴퓨터 판독가능 기록 매체에 저장된 프로그램.
  11. 통신부;
    다중 필터링을 이용한 개인정보 탐지를 강화하기 위한 적어도 하나의 프로세스를 저장하고 있는 메모리; 및
    상기 프로세스에 따라 동작하는 프로세서;를 포함하고,
    상기 프로세서는, 상기 프로세스를 기반으로,
    입력 데이터에 대해 기록 데이터 및 패턴 데이터를 이용하여 제1 필터링을 수행하고,
    기 구축된 지도 학습 모델을 이용하여 상기 제1 필터링된 입력 데이터의 클래스를 분류하고,
    상기 분류된 클래스에 기초하여 상기 제1 필터링된 입력 데이터에 대해 비지도 기반 알고리즘을 이용하여 제2 필터링을 수행하고,
    상기 제2 필터링된 결과 데이터에 기초하여 상기 지도 학습 모델을 업데이트하는, 다중 필터링을 이용한 개인정보 탐지 강화 장치.
PCT/KR2021/019348 2021-12-06 2021-12-17 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치 WO2023106498A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023574580A JP2024527682A (ja) 2021-12-06 2021-12-17 多重フィルタリングを用いた個人情報探知強化方法及び装置
US18/180,910 US20230222348A1 (en) 2021-12-06 2023-03-09 Personal information detection reinforcement method using multiple filtering and personal information detection reinforcement apparatus using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0172572 2021-12-06
KR1020210172572A KR102619523B1 (ko) 2021-12-06 2021-12-06 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/180,910 Continuation US20230222348A1 (en) 2021-12-06 2023-03-09 Personal information detection reinforcement method using multiple filtering and personal information detection reinforcement apparatus using the same

Publications (1)

Publication Number Publication Date
WO2023106498A1 true WO2023106498A1 (ko) 2023-06-15

Family

ID=86730756

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/019348 WO2023106498A1 (ko) 2021-12-06 2021-12-17 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치

Country Status (4)

Country Link
US (1) US20230222348A1 (ko)
JP (1) JP2024527682A (ko)
KR (1) KR102619523B1 (ko)
WO (1) WO2023106498A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090034622A1 (en) * 2007-08-01 2009-02-05 Her Majesty The Queen In Right Of Canada Represented By The Minister Of Industry Learning Filters For Enhancing The Quality Of Block Coded Still And Video Images
WO2019165462A1 (en) * 2018-02-26 2019-08-29 Google Llc Unsupervised neural network training using learned optimizers
KR20200033694A (ko) * 2018-09-20 2020-03-30 에스케이텔레콤 주식회사 측위모델구성장치 및 단말측위장치, 그 장치의 동작 방법
KR20200085491A (ko) * 2019-01-07 2020-07-15 에스케이플래닛 주식회사 신경망 기반 센서 이상 감지를 위한 서비스 제공 시스템 및 방법, 그리고 컴퓨터 프로그램이 기록된 비휘발성 기록매체
WO2021159775A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089797B1 (ko) * 2017-08-22 2020-03-17 주식회사 나솔시스템즈 인공지능 기반의 홈페이지 개인정보유출차단시스템
KR102227906B1 (ko) 2017-12-29 2021-03-16 주식회사 아임클라우드 자동 학습 데이터 생성을 통한 모델 학습 시스템 및 방법
KR102067926B1 (ko) * 2019-04-10 2020-01-17 주식회사 데이타솔루션 전자문서에 포함된 개인정보 비식별화 장치 및 방법
KR20210108319A (ko) * 2020-02-25 2021-09-02 한국전자통신연구원 기계학습 기반 적응형 자동분류 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090034622A1 (en) * 2007-08-01 2009-02-05 Her Majesty The Queen In Right Of Canada Represented By The Minister Of Industry Learning Filters For Enhancing The Quality Of Block Coded Still And Video Images
WO2019165462A1 (en) * 2018-02-26 2019-08-29 Google Llc Unsupervised neural network training using learned optimizers
KR20200033694A (ko) * 2018-09-20 2020-03-30 에스케이텔레콤 주식회사 측위모델구성장치 및 단말측위장치, 그 장치의 동작 방법
KR20200085491A (ko) * 2019-01-07 2020-07-15 에스케이플래닛 주식회사 신경망 기반 센서 이상 감지를 위한 서비스 제공 시스템 및 방법, 그리고 컴퓨터 프로그램이 기록된 비휘발성 기록매체
WO2021159775A1 (zh) * 2020-02-11 2021-08-19 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质

Also Published As

Publication number Publication date
KR20230084661A (ko) 2023-06-13
JP2024527682A (ja) 2024-07-26
KR102619523B1 (ko) 2023-12-29
US20230222348A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
WO2020027540A1 (en) Apparatus and method for personalized natural language understanding
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2022059969A1 (ko) 심전도 데이터 분류를 위한 심층 신경망 사전 학습 방법
WO2022055099A1 (ko) 이상 탐지 방법 및 이를 위한 장치
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
WO2023229345A1 (en) System and method for detecting unhandled applications in contrastive siamese network training
WO2022255564A1 (ko) 생체신호 분석 방법
WO2021157863A1 (ko) 준 지도 학습을 위한 오토인코더 기반 그래프 설계
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2019039659A1 (ko) 감성 기반의 사용자 관리 방법 및 이를 수행하는 장치들
WO2023063486A1 (ko) 기계학습모델의 생성 방법 및 그 장치
WO2023106498A1 (ko) 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치
WO2022092445A1 (ko) 전자 장치 및 그 제어 방법
WO2012077909A2 (ko) 근전도 센서와 자이로 센서를 이용한 지화 인식 방법 및 장치
WO2021054512A1 (ko) 지식 베이스 보강을 위한 시스템 및 방법
WO2022139200A1 (ko) 연속되는 이미지 프레임에 대한 스켈레톤 분석에 기초한 동일객체 식별장치 및 식별방법
WO2023096034A1 (ko) 약물 상호 작용을 예측하는 전자장치 및 그 제어방법
WO2022197082A1 (en) Method and electronic device for predicting plurality of multi-modal drawings
WO2023219267A1 (en) System and method for accent-agnostic frame-level wake word detection
WO2024043563A1 (en) System and method for deep machine learning model using personal data in real time
WO2024005388A1 (en) Apparatus and method for speaking verification for voice assistant
WO2024091106A1 (en) Method and system for selecting an artificial intelligence (ai) model in neural architecture search (nas)
WO2023153686A1 (ko) 사용자 작성 에세이로부터 스코어링을 수행하는 전자 장치 및 이의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21967371

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023574580

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE