WO2021006755A1 - Способ и система классификации данных для выявления конфиденциальной информации - Google Patents
Способ и система классификации данных для выявления конфиденциальной информации Download PDFInfo
- Publication number
- WO2021006755A1 WO2021006755A1 PCT/RU2019/000481 RU2019000481W WO2021006755A1 WO 2021006755 A1 WO2021006755 A1 WO 2021006755A1 RU 2019000481 W RU2019000481 W RU 2019000481W WO 2021006755 A1 WO2021006755 A1 WO 2021006755A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- confidential information
- tags
- classification
- neural network
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Definitions
- the present technical solution in General, relates to the field of computational data processing, and in particular, to methods of classifying data to identify confidential information.
- the claimed technical solution proposes a new approach to identifying and classifying confidential information by creating machine learning models for processing large amounts of data.
- the technical problem or technical problem to be solved is the creation of a new method for classifying data with a high degree of accuracy and high speed of confidential information recognition.
- F-measures are calculated for each data type for each neural network.
- confidential information is represented at least in the form of text data and / or numerical data.
- a data classification system for identifying confidential information which contains at least one processor; at least one memory coupled to the processor, which contains machine-readable instructions that, when executed by at least one processor, enable the above method to be performed.
- FIG. 1 illustrates a block diagram of the implementation of the claimed method.
- FIG. 2 illustrates an example of data recognized by neural networks.
- FIG. 3 illustrates an example of a neural network architecture.
- FIG. 4 illustrates the result of testing the models.
- FIG. 5 illustrates a comparison of training models.
- FIG. 6 illustrates the metric of data recognition quality by the first model.
- FIG. 7 illustrates the metric of the data recognition quality of the second model.
- FIG. 8 illustrates a general view of the claimed system.
- the claimed method (100) for classifying data for revealing confidential information consists in performing a series of sequential steps carried out by the processor of the computing device.
- the initial step (101) is to obtain a dataset in tabular format. Data tables are divided into columns and cells, each of which contains information.
- the information can be bank card numbers, SNILS, OKPO, OGRN, TIN, date, passport number, phone number, last name, first name, patronymic, e-mail, address, position, site address, etc., but not limited to.
- the next step (102) carries out the processing of the received data using an ensemble of neural networks, during which, the data in each cell of the table is assigned a tag corresponding to a given type of confidential information, and for each neural network a classification matrix is formed, on the basis of which F is calculated -measure for each data type.
- Training of neural networks occurs on pre-labeled data. The verification of the training result is performed on test data that does not overlap with the training data. The method for training neural networks will be disclosed later in this application materials.
- the data is tagged with tags - short strings that are one-to-one with the types of confidential information.
- Tags are selected so that the user can intuitively understand what this tag means, for example, CARD - card number, NAME - name, etc.
- Tags are written in Latin, so that they have a common look in all encodings.
- the types of confidential information fall into one of the categories of legally regulated data, for example, personal data, bank secrets, trade secrets, etc.
- the classification matrix is a standard tool for evaluating statistical models, and it displays the probabilities of recognizing the actual value as predicted for each given predicted option.
- F-measures are calculated.
- the F-score or (FI -score) is a joint estimate of accuracy and completeness. This metric is calculated using the following formula:
- F-measure 2 * Precision * Completeness / (Precision + Completeness).
- the F-measure is calculated in each algorithm for each type of data.
- step (103) the obtained data are processed using algorithms for determining the check digits for detection in the cells of the data table having a check bit.
- the check bit check algorithm checks the data against check bits, which are usually calculated using the Luna algorithm.
- Luna's algorithm is an algorithm for calculating the check digit of some types of data. Not is a cryptographic tool, and is intended primarily to detect errors caused by unintentional corruption of data.
- the check digit is used in various numbers, such as: bank card numbers, SNILS, OKPO, OGRN, TIN, passport number, telephone number, etc. not limited to.
- the check digit is necessary in order to exclude the possibility of an unintentional error when entering information.
- the next step (104) classifies each cell in the table based on the tagged tables received from each neural network and the matrix of F-measures corresponding to the neural networks, and form a final tagged table based on the data having a check bit.
- Tabular data is classified one column at a time. Each piece of data is classified by several neural networks. Results are written to dataframes with classification tags. Based on the classification by neural networks and F-measures, the type of data for classification is selected.
- step (105) the summary table data is classified into privacy classes based on a comparison of the supplied summary table tags with the specified sensitive information tags.
- the neural network model can be convolutional, recurrent, etc.
- FIG. 2 shows the types of data recognized by the neural network.
- the types of recognizable data contain one of the main and common types of personal data.
- Models trained to classify the data above demonstrate the difference in recognizing numeric and test data types.
- FIG. 3 shows an example of the architecture of a neural network (200) used to implement the claimed method (100).
- the neural network is made of a set of interconnected modules that ensure its operation for the purpose of data processing in order to identify and classify confidential information.
- the module for checking files and training neural networks (210) provides loading and execution of all neural networks. Neural networks for the implementation of a particular classification are loaded from the library (220) using the module for training neural networks and checking using neural networks (211). Module (211) allows you to train a specific neural network and check with it an object of the pandas DataFrame class (a table file in the pandas library in Python, allows you to convert data from xls, xlsx, csv, json files into a table).
- pandas DataFrame class a table file in the pandas library in Python, allows you to convert data from xls, xlsx, csv, json files into a table).
- the Regular Expression Checker (212) allows you to validate a pandas DataFrame using regular expressions. Uses a list of regular expressions (221) for verification.
- the check bit check module (213) classifies the data in the pandas DataFrame by checking the check bits.
- the confidential information type classification module (214) classifies the scanned files into confidential information types by loading them from the confidential information type list (222).
- the module for generating training samples and test files (215) performs testing and verification of neural network models using information from the list of confidential information types (222) and from the training database (223).
- the module for generating statistics (216) generates statistics for checking files.
- the parameters of the neural network are selected.
- training samples are created.
- Training samples in .xlsx format are created from files in the .txt or .csv format contained in the module of the list of confidential information types (222) and representing a column with data of a strictly defined type of confidential information.
- a test file is created from the files contained in the confidential information type list module (222).
- the model is trained on the received training samples.
- a classification matrix is created, which shows how each data type is classified. And in the final step, the result is displayed to the user.
- FIG. 4 shows the result of testing the models.
- the diagram shows the probabilities of classifying different types of confidential information. It can be used to determine which data is recognized better by each model than others. The further the point corresponding to its data type is located from the center, the more accurately the data of this type is recognized.
- FIG. 5 shows a comparison of training models.
- the table shows the probabilities of correct classification of confidential information by various models.
- the table can be used to determine which model recognizes better and how much this or that type of confidential information. The higher the probability, the better the model recognizes the data. In order to determine how much one model recognizes better or worse certain data, it is necessary to calculate the difference between the values for the first and second models.
- FIG. 6 and 7 show the quality metrics of the first and second model.
- the matrices show the probabilities of recognizing real copies of confidential information as a type of confidential information. Matrices allow you to calculate the accuracy and completeness of the classification of each type of confidential information.
- the accuracy of a system within a class is the proportion of objects that actually belong to a given class relative to all objects that the system has assigned to this class (the ratio of the value on the diagonal to the sum of all column values).
- the completeness of the system is the proportion of objects found by the classifier that belong to the class relative to all objects of this class (the ratio of the value on the diagonal to the sum of all values of the row).
- FIG. 8 shows an example of a general view of a computing system (300) that implements the claimed method (100) or is part of a computer system, for example, a server, a personal computer, a part of a computing cluster that processes the necessary data to implement the claimed technical solution.
- the system (300) contains one or more processors (301) united by a common bus of information exchange, memory means, such as RAM (302) and ROM (303), input / output interfaces (304), input devices / output (1105), and a device for networking (306).
- the processor (301) (or multiple processors, multi-core processor, etc.) can be selected from a range of devices currently widely used, for example, such manufacturers as: Intel TM, AMD TM, Apple TM, Samsung Exynos TM, MediaTEK TM, Qualcomm Snapdragon TM, etc. Under the processor or one of the processors used in the system (300), it is also necessary to take into account the graphics processor, for example, NVIDIA GPU or Graphcore, the type of which is also suitable for full or partial execution of the method (100), and can also be used for training and applying machine models. training in various information systems.
- the graphics processor for example, NVIDIA GPU or Graphcore, the type of which is also suitable for full or partial execution of the method (100), and can also be used for training and applying machine models. training in various information systems.
- RAM (302) is a random access memory and is intended for storing machine-readable instructions executed by the processor (301) for performing necessary operations for logical data processing.
- RAM (302) typically contains executable instructions of the operating system and associated software components (applications, software modules, etc.). In this case, the available memory of the graphics card or the graphics processor can act as RAM (302).
- ROM (303) is one or more persistent storage devices, such as a hard disk drive (HDD), solid state data storage device (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R / RW, DVD-R / RW, BlueRay Disc, MD), etc.
- HDD hard disk drive
- SSD solid state data storage device
- EEPROM electrically erasable programmable read-only memory
- NAND flash memory
- optical storage media CD-R / RW, DVD-R / RW, BlueRay Disc, MD
- I / O interfaces are used to organize the operation of system components (300) and to organize the operation of external connected devices.
- the choice of the appropriate interfaces depends on the specific version of the computing device, which can be, but are not limited to: PCI, AGP, PS / 2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS / Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
- I / O means for example, a keyboard, display (monitor), touch display, touch pad, joystick, mouse manipulator, light pen, stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, light indicators, projector, camera, biometric identification (retina scanner, fingerprint scanner, voice recognition module), etc.
- the networking tool (306) provides data transmission via an internal or external computer network, for example, Intranet, Internet, LAN, and the like.
- One or more means (306) may be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and dr.
- Ethernet card GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and dr.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
Abstract
Настоящее техническое решение, в общем, относится к области вычислительной обработки данных, а в частности, к методам классификации данных для выявления конфиденциальной информации. Компьютерно-реализуемый способ классификации данных для выявления конфиденциальной информации, выполняемый с помощью по меньшей мере одного процессора и содержащий этапы, на которых: получают данные представленные в табличном формате; осуществляют обработку полученных данных с помощью ансамбля нейронных сетей, в ходе которой данным в каждой ячейке таблицы присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждой нейронной сети сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных; осуществляют обработку полученных данных с помощью алгоритмов определения контрольных разрядов на предмет выявления в ячейках таблицы данных, обладающих контрольным разрядом; на основе полученных от каждой нейронной сети таблиц с проставленными тегами и соответствующей нейронным сетям матрицы F-мер и формируют итоговую таблицу с проставленными тегами с учетом данных обладающих контрольным разрядом; выполняют классификацию данных итоговой таблицы по классам конфиденциальности на основе сравнения проставленных тегов итоговой таблицы с заданными тегами конфиденциальной информации.
Description
СПОСОБ И СИСТЕМА КЛАССИФИКАЦИИ ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ
КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ
ОБЛАСТЬ ТЕХНИКИ
[0001 ] Настоящее техническое решение, в общем, относится к области вычислительной обработки данных, а в частности, к методам классификации данных для выявления конфиденциальной информации.
УРОВЕНЬ ТЕХНИКИ
[0002] В настоящее время выявление конфиденциальной информации из большого массива данных и последующая ее классификация является приоритетной задачей для многих отраслей. Наиболее широкое применение данных технологий наблюдается в финансовом секторе, где среди больших объемов различных данных необходимо отдельно выявлять и классифицировать конфиденциальную информацию. Для этого используются различные инструменты и технологии позволяющие так или иначе выявлять конфиденциальную информацию из больших объемов общих данных. Ключевой особенностью в работе таких инструментов является преобразование данных в табличный формат и последующий их анализ с помощью алгоритмов машинного обучения.
[0003] Данные хранятся и обрабатываются в различных автоматизированных системах и файловых ресурсах, имеющих различные уровни конфиденциальности, способы доступа, атрибутивный состав. Проверка на наличие чувствительных данных осуществляется различными инструментами. В связи с этим появилась необходимость создать единое техническое решение, позволяющее с помощью нейронных сетей автоматически обрабатывать большое количество данных и выявлять конфиденциальную информацию. Значительный объем данных обычно структурирован и хранится в базах данных в табличном формате, поэтому данное техническое решение направлено на выявление конфиденциальной информации из массива табличных данных.
[0004] На сегодняшний момент из уровня техники известны решения, направленные на хранение и классификацию данных по заданным пользователем критериям. Известны сервисы защиты конфиденциальной информации Amazon Made и Google Cloud DLP. В их основе используются машинные алгоритмы обучения для обнаружения, классификации и защиты конфиденциальной информации. В данных сервисах для классификации информации используются регулярные выражения. Недостатки использования регулярных выражений заключаются в том, что для каждого вида конфиденциальной информации необходимо прописывать несколько регулярных выражений, которые не учитывают редкие
особенности данных или могут быть более общими, например, содержать в себе лишние данные.
СУЩНОСТЬ ТЕХНИЧЕСКОГО РЕШЕНИЯ
[0005] Заявленное техническое решение предлагает новый подход в области выявления и классификации конфиденциальной информации с помощью создания моделей машинного обучения для обработки большого объема данных.
[0006] Решаемой технической проблемой или технической задачей является создание нового способа классификации данных, обладающего высокой степенью точности и высокой скоростью распознавания конфиденциальной информации.
[0007] Основным техническим результатом, достигающимся при решении вышеуказанной технической проблемы, является повышение точности классификации конфиденциальной информации.
[0008] Дополнительным техническим результатом, достигающимся при решении вышеуказанной технической проблемы, является повышение скорости классификации конфиденциальной информации.
[0009] Заявленные результаты достигаются за счет компьютерно-реализуемого способа классификации данных для выявления конфиденциальной информации, выполняемого с помощью по меньшей мере одного процессора и содержащего этапы, на которых:
• получают данные представленные в табличном формате;
• осуществляют обработку полученных данных с помощью ансамбля нейронных сетей, в ходе которой данным в каждой ячейке таблицы присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждой нейронной сети сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных;
• осуществляют обработку полученных данных с помощью алгоритмов определения контрольных разрядов на предмет выявления в ячейках таблицы данных, обладающих контрольным разрядом;
• выполняют классификацию каждой ячейки в таблице на основе полученных от каждой нейронной сети таблиц с проставленными тегами и соответствующей нейронным сетям матрицы F-мер и формируют итоговую таблицу с проставленными тегами с учетом данных обладающих контрольным разрядом;
• выполняют классификацию данных итоговой таблицы по классам конфиденциальности на основе сравнения проставленных тегов итоговой таблицы с заданными тегами конфиденциальной информации.
[0010] В одном из частных вариантов осуществления способа для каждой нейронной сети вычисляются показатели F-меры для каждого типа данных.
[ООП] В другом частном варианте осуществления способа конфиденциальная информация представлена по меньшей мере в виде текстовых данных и/или числовых данных.
[0012] Также указанные технические результаты достигаются за счет осуществления системы классификации данных для выявления конфиденциальной информации, которая содержит по меньшей мере один процессор; по меньшей мере одну память, соединенную с процессором, которая содержит машиночитаемые инструкции, которые при их выполнении по меньшей мере одним процессором обеспечивают выполнение вышеуказанного способа.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0013] Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:
[0014] Фиг. 1 иллюстрирует блок-схему выполнения заявленного способа.
[0015] Фиг. 2 иллюстрирует пример данных распознаваемых нейронными сетями.
[0016] Фиг. 3 иллюстрирует пример архитектуры нейронной сети.
[0017] Фиг. 4 иллюстрирует результат тестирования моделей.
[0018] Фиг. 5 иллюстрирует сравнение обучающих моделей.
[0019] Фиг. 6 иллюстрирует метрику качества распознавания данных первой моделью.
[0020] Фиг. 7 иллюстрирует метрику качества распознавания данных второй моделью.
[0021] Фиг. 8 иллюстрирует общий вид заявленной системы.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
[0022] В данном техническом решении могут использоваться для ясности понимания работы такие термины как «оператор», «клиент», «сотрудник банка», которые в общем виде следует понимать, как «пользователь» системы.
[0023] Заявленный способ (100) классификации данных для выявления конфиденциальной информации, как представлено на Фиг. 1, заключается в выполнении ряда последовательных этапов, осуществляемых процессором вычислительного устройства.
[0024] Начальным шагом (101) является получение массива данных в табличном формате. Таблицы с данными поделены на столбцы и ячейки, каждая из которых содержит информацию. Информация может представлять собой номера банковских карт, СНИЛС, ОКПО, ОГРН, ИНН, дату, номер паспорта, номер телефона, фамилию, имя, отчество, электронную почту, адрес, должность, адрес сайта, и др., не ограничиваясь.
[0025] Следующим шагом (102) осуществляют обработку полученных данных с помощью ансамбля нейронных сетей, в ходе которой, данным в каждой ячейке таблицы присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждой нейронной сети сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных.
[0026] Обучение нейронных сетей происходит на заранее размеченных данных. Проверка результата обучения производится на тестовых данных, не пересекающихся с обучающими данными. Способ обучения нейронных сетей будет раскрыт далее в настоящих материалах заявки.
[0027] В проверенных таблицах данные помечаются тэгами - короткими строками, которые взаимно однозначно соответствуют видам конфиденциальной информации. Тэги подбираются таким образом, чтобы пользователь мог интуитивно понять, что этот тэг обозначает, например, CARD - номер карты, NAME - имя и т.д. Тэги пишутся на латинице, для того, чтобы они имели общий вид на всех кодировках. Виды конфиденциальной информации входят в одну из категорий законодательно регулируемых данных, например, персональные данные, банковская тайна, коммерческая тайна и т.д.
[0028] Матрица классификации - стандартный инструмент для оценки статистических моделей, в ней отображены вероятности распознавания действительного значения как прогнозируемого, для каждого заданного прогнозируемого варианта.
[0029] На основе классификации тестовых данных вычисляются F-меры. F-мера или (FI -score) представляет собой совместную оценку точности и полноты. Данная метрика вычисляется по следующей формуле:
F-мера = 2 * Точность * Полнота / (Точность + Полнота).
F-мера вычисляется в каждом алгоритме для каждого вида данных.
[0030] Далее на шаге (103) осуществляют обработку полученных данных с помощью алгоритмов определения контрольных разрядов на предмет выявления в ячейках таблицы данных, обладающих контрольным разрядом.
[0031] Алгоритм проверки контрольных разрядов проверяет данные на соответствие контрольным разрядам, которые обычно вычисляются с помощью алгоритма Луна. Алгоритм Луна— алгоритм вычисления контрольной цифры некоторых видов данных. Не
является криптографическим средством, а предназначен в первую очередь для выявления ошибок, вызванных непреднамеренным искажением данных.
[0032] Контрольный разряд используется в различных номерах, таких как: номера банковских карт, СНИЛС, ОКПО, ОГРН, ИНН, номер паспорта, номер телефона, и т.д. не ограничиваясь. Контрольный разряд необходим, для того, чтобы исключить вероятность неумышленной ошибки при вводе информации.
[0033] Следующим шагом (104) выполняют классификацию каждой ячейки в таблице на основе полученных от каждой нейронной сети таблиц с проставленными тегами и соответствующей нейронным сетям матрицы F-мер и формируют итоговую таблицу с проставленными тегами с учетом данных обладающих контрольным разрядом.
[0034] Табличные данные классифицируются по одному столбцу за раз. Каждый фрагмент данных классифицируется несколькими нейронными сетями. Результаты записываются в датафреймы с тэгами классификации. На основе классификации нейронными сетями и F-мер выбирается вид данных для классификации.
[0035] На шаге (105) выполняют классификацию данных итоговой таблицы по классам конфиденциальности на основе сравнения поставленных тегов итоговой таблицы с заданными тегами конфиденциальной информации.
[0036] Для построения модели обучения был создан алгоритм, имеющий в своей основе нейронную сеть, по архитектуре аналогичный алгоритму NER (Named-entity recognition - алгоритм распознавания именованных сущностей). Данный алгоритм предназначен для поиска данных в текстах и учитывает синтаксические особенности, что позволяет качественнее классифицировать ячейки, в которых больше одного слова.
[0037] Модель нейронной сети может быть сверточной, рекуррентной и т.д. На Фиг. 2 представлены виды данных распознаваемые нейронной сетью. Виды распознаваемых данных содержат один из основных и распространенных видов персональных данных. Модели, обученные классифицировать данных указанные выше, демонстрируют разницу в распознавании числовых и тестовых типов данных.
[0038] При обучении использовалось две модели. Первая модель учитывает синтаксические особенности - последовательность слов (последовательность символов, разделяемых пробелом) и расценивает каждый экземпляр данных как упорядоченный массив. Вторая модель не учитывает синтаксические особенности и расценивает каждый экземпляр данных как единый неделимый элемент. Сравнение моделей производилось на процедурно генерируемой таблице, содержащей все используемые в модели виды данных и состоящей из 1000 экземпляров каждого вида данных.
[0039] На Фиг. 3 представлен пример архитектуры нейронной сети (200), применяемой для реализации заявленного способа (100). Нейронная сеть выполняется из совокупности взаимосвязанных модулей, обеспечивающих ее работу для целей обработки данных на предмет выявления и классификации конфиденциальной информации.
[0040] Модуль проверки файлов и процесса обучения нейронных сетей (210) обеспечивает загрузку и исполнение всех нейронных сетей. Нейронные сети для осуществления той или иной классификации подгружаются из библиотеки (220) с помощью модуля обучения нейронных сетей и проверки с помощью нейронных сетей (211). Модуль (211) позволяет обучать определенную нейронную сеть и проверять с ее помощью объект класса pandas DataFrame (табличный файл в библиотеке pandas на языке Python, позволяет преобразовывать в таблицу данные из файлов формата xls, xlsx, csv, json).
[0041] Модуль проверки на регулярные выражения (212) позволяет проверять pandas DataFrame с помощью регулярных выражений. Для проверки использует список регулярных выражений (221).
[0042] Модуль проверки на контрольные разряды (213) осуществляет классификацию данных в pandas DataFrame с помощью проверки контрольных разрядов.
[0043] Модуль классификации типов конфиденциальной информации (214) классифицирует проверенные файлы по типам конфиденциальной информации, загружая их из списка типов конфиденциальной информации (222).
[0044] Модуль формирования обучающих выборок и тестовых файлов (215) производит тестирование и проверку моделей нейронных сетей, используя информацию из списка типов конфиденциальной информации (222) и из базы обучающих данных (223).
[0045] Модуль формирования статистики (216) формирует статистику проверки файлов.
[0046] Далее будет представлен принцип обучения нейронных сетей для целей осуществления заявленного способа.
[0047] На первом этапе обучения производят выбор параметров нейронной сети. Далее осуществляется создание тренирующих выборок. Из файлов в формате .txt или .csv, содержащихся в модуле списка типов конфиденциальной информации (222) и представляющие из себя столбец с данными строго определенного вида конфиденциальной информации, создаются тренирующие выборки в формате .xlsx. Далее из файлов, содержащихся в модуле списка типов конфиденциальной информации (222) создается тестовый файл. На следующем этапе осуществляется обучение модели на полученных обучающих выборках. Далее производится создание матрицы классификации, которая
показывает, как классифицируется каждый вид данных. И на заключительном шаге результат выводится пользователю.
[0048] На Фиг. 4 показан результат тестирования моделей. На диаграмме отображены вероятности классификации различных видов конфиденциальной информации. По ней можно определить, какие данные распознаются каждой моделью лучше, чем другие. Чем дальше точка, соответствующая своему типу данных расположена от центра, тем точнее распознаются данные этого вида.
[0049] На Фиг. 5 отображено сравнение обучающих моделей. В таблице показаны вероятности верной классификации конфиденциальной информации различными моделями. По таблице можно определить, какая модель распознает лучше и на сколько тот или иной вид конфиденциальной информации. Чем больше вероятность - тем лучше модель распознает данные. Для того, чтобы определить на сколько одна модель распознает лучше или хуже определенные данные, необходимо вычислить разницу между значениями для первой и второй модели.
[0050] На Фиг. 6 и 7 представлены метрики качества первой и второй модели. На матрицах показаны вероятности распознавания реальных экземпляров конфиденциальной информации как вид конфиденциальной информации. Матрицы позволяют вычислить точность и полноту классификации каждого вида конфиденциальной информации. Точность системы в пределах класса— это доля объектов, действительно принадлежащих данному классу относительно всех объектов, которые система отнесла к этому классу (отношение значения на диагонали к сумме всех значений столбца). Полнота системы— это доля найденных классификатором объектов, принадлежащих классу относительно всех объектов этого класса (отношение значения на диагонали к сумме всех значений строки).
[0051] На Фиг. 8 представлен пример общего вида вычислительной системы (300), которая обеспечивает реализацию заявленного способа (100) или является частью компьютерной системы, например, сервером, персональным компьютером, частью вычислительного кластера, обрабатывающим необходимые данные для осуществления заявленного технического решения.
[0052] В общем случае, система (300) содержит объединенные общей шиной информационного обмена один или несколько процессоров (301), средства памяти, такие как ОЗУ (302) и ПЗУ (303), интерфейсы ввода/вывода (304), устройства ввода/вывода (1105), и устройство для сетевого взаимодействия (306).
[0053] Процессор (301) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™,
MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (300) также необходимо учитывать графический процессор, например, GPU NVIDIA или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа (100), а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах.
[0054] ОЗУ (302) представляет собой оперативную память и предназначено для хранения исполняемых процессором (301) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (302), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (302) может выступать доступный объем памяти графической карты или графического процессора.
[0055] ПЗУ (303) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др.
[0056] Для организации работы компонентов системы (300) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (304). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.
[0057] Для обеспечения взаимодействия пользователя с вычислительной системой (300) применяются различные средства (305) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.
[0058] Средство сетевого взаимодействия (306) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (306) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.
[0059] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.
Claims
1. Компьютерно-реализуемый способ классификации данных для выявления конфиденциальной информации, выполняемый с помощью по меньшей мере одного процессора и содержащий этапы, на которых:
• получают данные представленные в табличном формате;
• осуществляют обработку полученных данных с помощью ансамбля нейронных сетей, в ходе которой данным в каждой ячейке таблицы присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждой нейронной сети сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных;
• осуществляют обработку полученных данных с помощью алгоритмов определения контрольных разрядов на предмет выявления в ячейках таблицы данных, обладающих контрольным разрядом;
• выполняют классификацию каждой ячейки в таблице на основе полученных от каждой нейронной сети таблиц с проставленными тегами и соответствующей нейронным сетям матрицы F-мер и формируют итоговую таблицу с проставленными тегами с учетом данных обладающих контрольным разрядом;
• выполняют классификацию данных итоговой таблицы по классам конфиденциальности на основе сравнения проставленных тегов итоговой таблицы с заданными тегами конфиденциальной информации.
2. Способ по п. 1, характеризующийся тем, что для каждой нейронной сети вычисляются показатели F - меры для каждого типа данных.
3. Способ по п. 1, характеризующийся тем, что конфиденциальная информация представлена по меньшей мере в виде текстовых данных и/или числовых данных.
4. Система классификации данных для выявления конфиденциальной информации, содержащая
- по меньшей мере один процессор;
- по меньшей мере одну память, соединенную с процессором, которая содержит машиночитаемые инструкции, которые при их выполнении по меньшей мере одним процессором обеспечивают выполнение способа по любому из п.п. 1-4.
10
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019121020 | 2019-07-05 | ||
RU2019121020A RU2759786C1 (ru) | 2019-07-05 | 2019-07-05 | Способ и система классификации данных для выявления конфиденциальной информации |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021006755A1 true WO2021006755A1 (ru) | 2021-01-14 |
Family
ID=74114915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/RU2019/000481 WO2021006755A1 (ru) | 2019-07-05 | 2019-07-05 | Способ и система классификации данных для выявления конфиденциальной информации |
Country Status (3)
Country | Link |
---|---|
EA (1) | EA038259B1 (ru) |
RU (1) | RU2759786C1 (ru) |
WO (1) | WO2021006755A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918577A (zh) * | 2021-12-15 | 2022-01-11 | 北京新唐思创教育科技有限公司 | 数据表识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294768A1 (en) * | 2006-01-31 | 2007-12-20 | Deutsche Telekom Ag | Method and system for detecting malicious behavioral patterns in a computer, using machine learning |
US7480640B1 (en) * | 2003-12-16 | 2009-01-20 | Quantum Leap Research, Inc. | Automated method and system for generating models from data |
US20100037324A1 (en) * | 2008-08-07 | 2010-02-11 | Grant Calum Anders Mckay | Computer file control through file tagging |
US20100262571A1 (en) * | 2008-03-05 | 2010-10-14 | Schmidtler Mauritius A R | Systems and methods for organizing data sets |
US20170116519A1 (en) * | 2015-10-27 | 2017-04-27 | CONTROLDOCS.COM, Inc. | Apparatus and Method of Implementing Enhanced Batch-Mode Active Learning for Technology-Assisted Review of Documents |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006138502A2 (en) * | 2005-06-16 | 2006-12-28 | The Board Of Trustees Operating Michigan State University | Methods for data classification |
US8752181B2 (en) * | 2006-11-09 | 2014-06-10 | Touchnet Information Systems, Inc. | System and method for providing identity theft security |
FR2956541B1 (fr) * | 2010-02-18 | 2012-03-23 | Centre Nat Rech Scient | Procede cryptographique de communication d'une information confidentielle. |
US10169715B2 (en) * | 2014-06-30 | 2019-01-01 | Amazon Technologies, Inc. | Feature processing tradeoff management |
RU2647640C2 (ru) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота |
US12033040B2 (en) * | 2017-08-14 | 2024-07-09 | Dathena Science Ptd. Ltd. | Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection |
-
2019
- 2019-07-05 RU RU2019121020A patent/RU2759786C1/ru active
- 2019-07-05 WO PCT/RU2019/000481 patent/WO2021006755A1/ru active Application Filing
- 2019-07-31 EA EA201991625A patent/EA038259B1/ru unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7480640B1 (en) * | 2003-12-16 | 2009-01-20 | Quantum Leap Research, Inc. | Automated method and system for generating models from data |
US20070294768A1 (en) * | 2006-01-31 | 2007-12-20 | Deutsche Telekom Ag | Method and system for detecting malicious behavioral patterns in a computer, using machine learning |
US20100262571A1 (en) * | 2008-03-05 | 2010-10-14 | Schmidtler Mauritius A R | Systems and methods for organizing data sets |
US20100037324A1 (en) * | 2008-08-07 | 2010-02-11 | Grant Calum Anders Mckay | Computer file control through file tagging |
US20170116519A1 (en) * | 2015-10-27 | 2017-04-27 | CONTROLDOCS.COM, Inc. | Apparatus and Method of Implementing Enhanced Batch-Mode Active Learning for Technology-Assisted Review of Documents |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918577A (zh) * | 2021-12-15 | 2022-01-11 | 北京新唐思创教育科技有限公司 | 数据表识别方法、装置、电子设备及存储介质 |
CN113918577B (zh) * | 2021-12-15 | 2022-03-11 | 北京新唐思创教育科技有限公司 | 数据表识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
RU2759786C1 (ru) | 2021-11-17 |
EA038259B1 (ru) | 2021-07-30 |
EA201991625A1 (ru) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11914583B2 (en) | Utilizing regular expression embeddings for named entity recognition systems | |
CN113886885A (zh) | 数据脱敏方法、数据脱敏装置、设备及存储介质 | |
US11960597B2 (en) | Method and system for static analysis of executable files | |
US11403550B2 (en) | Classifier | |
US11620319B2 (en) | Search platform for unstructured interaction summaries | |
US20220229854A1 (en) | Constructing ground truth when classifying data | |
Garcia-Gathright et al. | Assessing and addressing algorithmic bias-but before we get there | |
RU2759786C1 (ru) | Способ и система классификации данных для выявления конфиденциальной информации | |
WO2023172155A1 (ru) | Способ выявления уязвимостей в программном коде | |
Akça et al. | Predicting acceptance of the bank loan offers by using support vector machines | |
RU2755606C2 (ru) | Способ и система классификации данных для выявления конфиденциальной информации в тексте | |
Adhikari et al. | Classifying software vulnerabilities by using the bugs framework | |
RU2774046C1 (ru) | Способ и система определения наличия критических корпоративных данных в тестовой базе данных | |
RU2834318C1 (ru) | Способ классификации текстовой информации электронного вида на предмет наличия конфиденциальных данных | |
CN112487394A (zh) | 图形推理验证码识别方法、系统、设备及介质 | |
RU2745369C1 (ru) | Способ и система оценки вероятности возникновения критических дефектов по кибербезопасности на приемо-сдаточных испытаниях релизов продуктов | |
RU2821220C1 (ru) | Способ и система устранения уязвимостей в программном коде | |
US8176407B2 (en) | Comparing values of a bounded domain | |
RU2824524C1 (ru) | Способ и система для генерации синтетических данных | |
WO2021075995A1 (ru) | Способ формирования поисковой выдачи в рекламном виджите | |
WO2023014238A1 (ru) | Определение наличия критических корпоративных данных в тестовой базе данных | |
RU2804747C1 (ru) | Способ и система обезличивания конфиденциальных данных | |
RU2802549C1 (ru) | Способ и система обезличивания конфиденциальных данных | |
RU2745371C1 (ru) | Способ и система прогнозирования рисков кибербезопасности при разработке программных продуктов | |
KR102437098B1 (ko) | 인공 지능 기반의 오류 데이터 판정 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19936795 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19936795 Country of ref document: EP Kind code of ref document: A1 |