WO2021075998A1

WO2021075998A1 - Система классификации данных для выявления конфиденциальной информации в тексте

Info

Publication number: WO2021075998A1
Application number: PCT/RU2019/000746
Authority: WO
Inventors: Алексей Алексеевич ТЕРЕНИН; Маргарита Александровна КОТОВА
Original assignee: Публичное Акционерное Общество "Сбербанк России"
Priority date: 2019-10-16
Filing date: 2019-10-18
Publication date: 2021-04-22
Also published as: EA201992491A1; RU2755606C2; EA039466B1; RU2019132817A3; RU2019132817A

Abstract

Настоящее техническое решение, в общем, относится к области вычислительной обработки данных, а в частности, к методам классификации данных для выявления конфиденциальной информации. Компьютерно-реализуемый способ классификации данных для выявления конфиденциальной информации, выполняемый с помощью по меньшей мере одного процессора и содержащий этапы, на которых: получают данные представленные в текстовом формате; осуществляют обработку полученных данных с помощью алгоритмов машинного обучения, в ходе которой каждому слову в тексте присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждого алгоритма машинного обучения сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных; выполняют классификацию каждого слова в тексте на основе полученных от каждого алгоритма машинного обучения текстов с проставленными тегами и соответствующей алгоритмам машинного обучения матрицы F-мер и формируют итоговый вариант текста с проставленными тегами; выполняют классификацию текста с проставленными у каждого слова тегами по классам конфиденциальности на основе сравнения совокупности имеющихся тегов в тексте с заданными тегами конфиденциальной информации.

Description

СИСТЕМА КЛАССИФИКАЦИИ ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ КОНФИДЕНЦИАЛЬНОЙ ИНФОРМАЦИИ В ТЕКСТЕ

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее техническое решение, в общем, относится к области вычислительной обработки данных, а в частности, к методам классификации данных для выявления конфиденциальной информации.

УРОВЕНЬ ТЕХНИКИ

[0002] В настоящее время выявление конфиденциальной информации из большого массива данных и последующая ее классификация является приоритетной задачей для многих отраслей. Наиболее широкое применение данных технологий наблюдается в финансовом секторе, где среди больших объемов различных данных необходимо отдельно выявлять и классифицировать конфиденциальную информацию. Для этого используются различные инструменты и технологии позволяющие так или иначе выявлять конфиденциальную информацию из больших объемов общих данных. Ключевой особенностью в работе таких инструментов является анализ данных с помощью алгоритмов машинного обучения.

[0003] Данные хранятся и обрабатываются в различных автоматизированных системах и файловых ресурсах, имеющих различные уровни конфиденциальности, способы доступа, атрибутивный состав. Проверка на наличие чувствительных данных осуществляется различными инструментами. В связи с этим появилась необходимость создать единое техническое решение, позволяющее с помощью нейронных сетей автоматически обрабатывать большое количество данных и выявлять конфиденциальную информацию. Для этого необходимо обучить искусственный интеллект распознавать содержимое документов, в которых может содержаться конфиденциальная информация. На сегодняшний момент из уровня техники известны решения, направленные на хранение и классификацию данных по заданным пользователем критериям.

[0004] Сервис Amazon Made - сервис, который проводит мониторинг данных, использующий несколько методов автоматической классификации контента, чтобы идентифицировать и расставить приоритеты для конфиденциальных данных и точно определить ценность данных для бизнеса. Сервис распознаёт такую информацию, как персональная информация или интеллектуальная собственность. Одним из методов классификации является классификация по регулярному выражению. Классификация объектов с помощью регулярных выражений основана на конкретных данных или шаблонах данных, которые ищет Amazon Macie при проверке содержимого объектов данных. Amazon Macie предлагает набор управляемых регулярных выражений, каждый из которых имеет определенный уровень риска от 1 до 10. Также Amazon Macie классифицирует объекты с помощью метода опорных векторов.

[0005] Недостатками данного решения являются: отсутствие возможности изменять существующие или добавлять новые регулярные выражения, возможность только включить или отключить поиск любых существующих регулярных выражений, сервис идентифицирует только те объекты, которые подходят под правила. Недостатки использования регулярных выражений заключаются в том, что для каждого вида конфиденциальной информации необходимо прописывать несколько регулярных выражений, которые не учитывают редкие особенности данных или могут быть более общими, например, содержать в себе лишние данные.

[0006] Известно решение Google Cloud DLP обеспечивающее быструю, масштабируемую классификацию и редактирование для чувствительных данных, таких как номера кредитных карт, имена, номера социального страхования, выбранные международные идентификаторы, номера телефонов и учетные данные GCP. Облако DLP классифицирует эти данные, используя более 90 предопределенных детекторов, чтобы идентифицировать шаблоны, форматы и контрольные суммы.

[0007] Недостаток данного решения заключается в использовании только регулярных выражений, для каждого вида конфиденциальной информации необходимо прописывать несколько регулярных выражений, которые не учитывают редкие особенности данных или могут быть более общими, например, содержать в себе лишние данные.

СУЩНОСТЬ ТЕХНИЧЕСКОГО РЕШЕНИЯ

[0008] Заявленное техническое решение предлагает новый подход в области выявления и классификации конфиденциальной информации с помощью создания моделей машинного обучения для обработки большого объема данных.

[0009] Решаемой технической проблемой или технической задачей является создание нового способа классификации данных, обладающего высокой степенью точности и высокой скоростью распознавания конфиденциальной информации.

[0010] Основным техническим результатом, достигающимся при решении вышеуказанной технической проблемы, является повышение точности классификации конфиденциальной информации. [ООП] Дополнительным техническим результатом, достигающимся при решении вышеуказанной технической проблемы, является повышение скорости классификации конфиденциальной информации.

[0012] Заявленные результаты достигаются за счет компьютерно-реализуемого способа классификации данных для выявления конфиденциальной информации, выполняемого с помощью по меньшей мере одного процессора и содержащего этапы, на которых:

• получают данные представленные в текстовом формате;

• осуществляют обработку полученных данных с помощью алгоритмов машинного обучения, в ходе которой каждому слову в тексте присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждого алгоритма машинного обучения сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных;

• выполняют классификацию каждого слова в тексте на основе полученных от каждого алгоритма машинного обучения текстов с проставленными тегами и соответствующей алгоритмам машинного обучения матрицы F-мер и формируют итоговый вариант текста с проставленными тегами;

• выполняют классификацию текста с проставленными у каждого слова тегами по классам конфиденциальности на основе сравнения совокупности имеющихся тегов в тексте с заданными тегами конфиденциальной информации.

[0013] В одном из частных вариантов осуществления способа для каждого алгоритма машинного обучения вычисляются показатели F-меры для каждого типа данных.

[0014] В другом частном варианте осуществления способа конфиденциальная информация представлена по меньшей мере в виде текстовых данных и/или числовых данных.

[0015] Также указанные технические результаты достигаются за счет осуществления системы классификации данных для выявления конфиденциальной информации, которая содержит по меньшей мере один процессор; по меньшей мере одну память, соединенную с процессором, которая содержит машиночитаемые инструкции, которые при их выполнении по меньшей мере одним процессором обеспечивают выполнение вышеуказанного способа. ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0016] Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:

[0017] Фиг. 1 иллюстрирует блок-схему выполнения заявленного способа.

[0018] Фиг. 2 иллюстрирует пример извлекаемых именованных сущностей.

[0019] Фиг. 3 иллюстрирует пример архитектуры CRF с Bi-LSTM.

[0020] Фиг. 4 иллюстрирует пример размеченных данных для обучения моделей.

[0021] Фиг. 5 иллюстрирует результаты обучения моделей.

[0022] Фиг. 6 иллюстрирует результаты обучения моделей.

[0023] Фиг. 7 иллюстрирует пример результатов проверки на тестовой выборке.

[0024] Фиг. 8 иллюстрирует общий вид заявленной системы.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

[0025] В данном техническом решении могут использоваться для ясности понимания работы термины и сокращения, которые будут расшифрованы далее в настоящих материалах заявки.

[0026] Модель в машинном обучении - совокупность методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.

[0027] AI (Artificial Intelligence) - искусственный интеллект.

[0028] Токен - элемент последовательности из букв или слов, или знак препинания. [0029] Тег - значение, присваиваемое токену.

[0030] Задача теггирования последовательности (sequence labeling problem) - присвоение каждому элементу последовательности (токену) соответствующего тега.

[0031] Именованная сущность - это слово или словосочетание, обозначающее предмет или явление определенной категории.

[0032] Named entity recognition, NER - извлечение именованных сущностей - выделение из текста объектов, совокупности объектов и присвоение этим объектам категории, определяющей значение этих объектов (например, ФИО, названия организаций, локации).

[0033] RNN - сокращение от Recurrent neural network, рекуррентные нейронные сети. [0034] LSTM - сокращение от Long ShortTerm Memory, долгая краткосрочная память - архитектура рекуррентной нейронной сети. [0035] Bi-LSTM - сокращение от Bidirectional Long ShortTerm Memory,

Двунаправленная Долгая краткосрочная память - архитектура рекуррентной нейронной сети.

[0036] NLP - сокращение от Natural Language Processing, обработка естественного языка.

[0037] CRF - сокращение от Conditional Random Field, условные случайные поля. [0038] Word embeddings - векторное представление слов - сопоставление подаваемых на вход модели объектов векторам.

[0039] Заявленный способ (100) классификации данных для выявления конфиденциальной информации, как представлено на Фиг. 1, заключается в выполнении ряда последовательных этапов, осуществляемых процессором вычислительного устройства.

[0040] Начальным шагом (101) является получение массива данных в текстовом формате. Текстовые данные содержат информацию, которая может представлять собой номера банковских карт, СНИЛС, ОКПО, ОГРН, ИНН, дату, номер паспорта, номер телефона, фамилию, имя, отчество, электронную почту, адрес, должность, адрес сайта, и др., не ограничиваясь.

[0041] Следующим шагом (102) осуществляют обработку полученных данных с помощью алгоритмов машинного обучения, в ходе которой, каждому слову в тексте присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждой нейронной сети сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных.

[0042] Для того, чтобы модели могли обрабатывать данные, подаваемые им на вход, необходимо текст представить в форме, понятной, нейронным сетям. Для этого необходимо сопоставить все подаваемые на вход объекты векторам. В заявленном способе, для этого используется комбинация векторного представления слов и символов. Комбинация методов вводится для улучшения качества работы модели. Буквы каждого слова в предложении подаются в Bi-LSTM сеть, для того чтобы выявить характеристики слов на символьном уровне. Отдельно создаётся векторное представление слов (token embedding). Затем векторное представление слов и символов конкатенируются, а затем подаются в модель Bi-LSTM+CRF. Стандартным компонентом нейронной сети для решения задач обработки естественного языка являются пред обученные векторные представления слов.

[0043] Обучение нейронных сетей происходит на заранее размеченных данных. Каждому токену в последовательности ставится в соответствие тег (короткая строка, которая взаимно однозначно соответствуют видам конфиденциальной информации) из предварительно определенного набора тегов. Теги подбираются таким образом, чтобы пользователь мог интуитивно понять, что этот тег обозначает, например, CARD - номер карты, NAME - имя и т.д. Теги пишутся на латинице, для того, чтобы они имели общий вид на всех кодировках. Виды конфиденциальной информации входят в одну из категорий законодательно регулируемых данных, например, персональные данные, банковская тайна, коммерческая тайна и т.д.

[0044] Для задачи NER есть несколько общих типов сущностей, которые по сути являются тегами. Для определения конфиденциальности документа необходимо умение извлекать следующие сущности: ФИО, дата, должность, почтовый индекс и т.д., не ограничиваясь. Пример извлекаемых именованных сущностей приведен на Фиг. 2.

[0045] Исходный текст токенизируется и тегируется. Для каждого токена есть отдельный тег с разметкой. Теги отделяются от токенов пробелами. Предложения разделены пустыми строками. Набор данных представляет собой текстовый файл или набор текстовых файлов. Набор данных должен быть разбит на три раздела: тренировочные, тестовые и валидационные. Тренировочные используются для обучения сети, а именно для регулировки весов с градиентным спуском. Валидация используется для мониторинга прогресса обучения и более ранней остановки.

[0046] Способ обучения нейронных сетей будет раскрыт далее в настоящих материалах заявки.

[0047] Матрица классификации - стандартный инструмент для оценки статистических моделей, в ней отображены вероятности распознавания действительного значения как прогнозируемого, для каждого заданного прогнозируемого варианта.

[0048] На основе классификации тестовых данных вычисляются F-меры. F-мера или (FI -score) представляет собой совместную оценку точности и полноты. Данная метрика вычисляется по следующей формуле:

F-мера = 2 * Точность * Полнота / (Точность + Полнота).

F-мера вычисляется в каждом алгоритме для каждого вида данных.

[0049] Следующим шагом (103) выполняют классификацию каждого слова в тексте на основе полученных от каждой нейронной сети текстов с проставленными тегами и соответствующей нейронным сетям матрицы F-мер и формируют итоговый вариант текста с проставленными тегами.

[0050] Набор тегов заранее предопределен. Данный набор формируется для обозначение всех категорий данных, которые необходимо проверить на отнесение к конфиденциальным, согласно законодательным, регуляторным, внутренним или иным нормам. Предобработка (векторизация) данных направлена на ускорение и облегчения дальнейшей обработки, а комбинации нескольких нейронных сетей - для повышения точности простановки тегов. Проставляется тот тег, на который с наибольшей вероятностью указывает не менее одной модели. Также модели должны проводить контекстный последовательный анализ, так как адреса, ФИО и некоторые другие типы данных, в общем случае состоят из нескольких слов. Для подготовки текста к классификации, он токенизируется и тегируется. Для каждого токена есть отдельный тег с разметкой. Теги отделяются от токенов пробелами. Предложения разделены пустыми строками. Итоговый набор данных представляет собой тегированный текстовый файл или набор текстовых файлов.

[0051] Для извлечения именованных сущностей в данном решении используется Yargy-napcep. Парсер для разметки - это готовый механизм, который способен извлекать имена, даты, локации, организации и т.д. Для улучшения работы парсера используется существующая библиотека, получившая имя «Natasha». Часть готовых правил парсинга уже доступны в библиотеке «Natasha». Для текущего решения, правила для извлечения сущностей описываются с помощью контекстно-свободных грамматик и словарей, построенных на основе требований, заданных нормативными документами. Например, если существует несколько уровней критичности информации, то перечисляется, какие сущности должны относится к каждому из уровней.

[0052] В результате производится разбивка по предложениям, каждому предложению присваивается соответствующий номер. Сопоставляются все имеющиеся символы со словами в предложениях. Теги приводятся к категориальному типу.

[0053] Первый слой модели (Embedding слой) превращает последовательности чисел (слова сопоставили числам) в плотные векторы фиксированного размера. Далее используется оболочка TimeDistributed, чтобы применить слой Embedding к каждой последовательности символов и получить векторное представление слов. Далее векторные представления слов и символов конкатенируется.

[0054] Полученные векторные представления подаются в основной слой модели (Bidirectional). Данный слой рассчитывает вероятности тегов для каждого слова в предложении. Далее эти вероятности подаются в слой CRF, который рассчитывает распределение вероятностей перехода от одного тега к другому.

[0055] На шаге (104) выполняют классификацию текста с проставленными у каждого слова тегами по классам конфиденциальности на основе сравнения совокупности имеющихся тегов в тексте с заданными тегами конфиденциальной информации. [0056] Подготовленные на шаге (103) данные, используются для анализа и присвоения уровня классификации всего текста. Для этого используются подготовленные таблицы сочетания тегов, определяющих суммарный уровень конфиденциальности всего текста. Уровень конфиденциальности зависит от сочетания тегов, а не только от их наличия.

[0057] Пример: просто адрес во всем тексте не представляет критичности, а адрес с упоминанием обращающихся денежных средств уже должен классифицироваться с повышенной строгостью. Также, имя классифицирует целую группу людей и не может считаться критичным. Но имя с номером телефона уже персональные данные, которые должны классифицироваться на соответствующем уровне критичности. Если в документе содержится только ФИО, это один уровень, но если, кроме ФИО, имеется, номер телефона и дата рождения, то уровень конфиденциальности документа намного выше.

[0058] Для корректной классификации важно отслеживать контекст тегируемого слова: то есть оценивать сущности, находящиеся слева и справа. Теги получают приставки: «В-» если это первое вхождение тега данного типа, и «I-», если продолжение. Пример: “апрель [B-Date] 2019 [I-Date] года [I-Date]» или «117 [В-Money] миллионов [I- Мопеу]».

[0059] Рекуррентные нейронные сети (RNN) используются для решения различных задач, включая проблемы обработки естественного языка из-за их способности использовать предыдущую информацию из последовательности для расчета текущего выхода.

[0060] Чтобы правильно обработать текущее слово в тексте (присвоить тег), необходимо, чтобы сеть основывалась на понимании предыдущего контекста. Значит, она должна помнить, какой был текст слева от текущего слова. Традиционные нейронные сети не обладают этим свойством, их нельзя обучить долговременным зависимостям. Рекуррентные нейронные сети помогают решить данную проблему. Они содержат обратные связи, благодаря которым могут передавать информацию от одного шага сети к другому.

[0061] Однако несмотря на возможность обучения долговременным зависимостям, на практике модели RNN не работают должным образом и страдают из-за проблемы исчезающего градиента. Данная проблема возникает по причине того, что сигналы об обратно распространяемых ошибках быстро становятся очень маленькими (или наоборот, чрезмерно большими). На практике они уменьшаются экспоненциально с количеством слоев в сети. По этой причине была разработана специальная архитектура RNN под названием долгая краткосрочная память (Long ShortTerm Memory - LSTM), чтобы справиться с исчезающим градиентом. Один повторяющийся модуль LSTM-сети состоит из четырёх слоёв. LSTM заменяет скрытые блоки в архитектуре RNN на блоки, называемые блоками памяти, которые содержат четыре компонента: три вида фильтров (входной фильтр, фильтр забывания, выходной фильтр и ячейку памяти (memory cell). [0062] Правильное распознавание именованного объекта в предложении зависит от контекста. Предшествующие и последующие слова имеют значение для предсказания тега. Двунаправленные рекуррентные нейронные сети были разработаны для кодирования каждого элемента в последовательность с учетом левого и правого контекстов, что делает их одним из лучших выборов для задачи NER. Двунаправленная модель расчета состоит из двух этапов: прямой слой вычисляет представление левого контекста, обратный слой вычисляет представление правого контекста. Выходы этих шагов объединяются для получения полного представления элемента входной последовательности.

[0063] Условные случайные поля (Conditional Random Field, CRF) - это ненаправленная вероятностная графическая модель для структурированного предсказания условных вероятностей событий, соответствующих вершинам некоторого графа, при условии наблюдаемых данных. Архитектура CRF с Bi-LSTM применяемая для реализации способа (100) представлена на Фиг. 3.

[0064] В комбинированной модели векторные представления слов (способ получения векторного представления описан в практической части) подаются в двунаправленную нейросеть Bi-LSTM. Эта сеть рассчитывает вероятности тегов для каждого слова в предложении. Пусть для входной последовательности слов (предложения) Х=(х₀, х±, .., х_п) Р - матрица вероятностей, которую выдаёт сеть Bi-LSTM. Эта матрица размером n*k, где к - число различных тегов, а п - длина входящей последовательности. Р - это вероятность, что у i-oro слова в предложении тег j. Для последовательности ответов у = {у₀, У у _N } score вычисляется по следующей формуле:

[0066] где Ay. _{у ,+1} - обозначает вероятность, которая представляет собой оценку перехода от тега i к тегу j, то есть того, что на позиции j=i+l будет именно тег y_i+1 при условии, что предыдущий тег y_t.

[0067] Для повышения точности предсказания слой CRP обучен обеспечивать соблюдение ограничений в зависимости от порядка тегов. Например, в схеме ЮВ (I - Внутри, О - Другое, В — Начало) тег I никогда не появляется в начале предложения, или О I В О - недопустимая последовательность тегов. Полный набор параметров для этой модели состоит из параметров Bi-LSTM слоёв (весовые матрицы, смещения, матрица векторных представлений слов) и матрица перехода CRF слоя. Все эти параметры настраиваются во время тренировки алгоритма обратного распространения ошибки со стохастическим градиентным спуском.

[0068] Далее будет представлен принцип обучения нейронных сетей и оценка качества моделей для целей осуществления заявленного способа.

[0069] На Фиг. 4 представлен пример размеченных данных для обучения моделей. [0070] Для обучения моделей необходимо подготовить размеченный датасет с текстом и тегами (Фиг. 4). Производится разбивка по предложениям, каждому предложению присваивается соответствующий номер.

Пример: в подготавливаемом тексте 47959 предложений, содержащих 35179 различных слов. Получается 847657 строк в датасете.

[0071] На первом этапе обучения производится разбивка по предложениям, каждому предложению присваивается соответствующий номер. На следующем этапе приводят токены (каждое значение столбца Word на Фиг. 4) к векторному виду. Для этого вводятся словари для слов, для символов и для тегов. Слова в предложениях сопоставляются с последовательностью чисел, а затем применяется к числовым последовательностям функцию pad_sequensec(), чтобы привести последовательности к одному размеру. Далее сопоставляются все имеющиеся символы со словами в предложениях, а теги приводятся к категориальному типу.

[0072] На следующем этапе разделяется выборка на тренировочную, валидационную и тестовую. Используется пропорции 80% к 10% к 10%.

Пример: тренировочная 38846 предложений, валидационная 4317 предложений, тестовая 4796 предложений.

[0073] Следующим этапом обучения идет построение модели. Первым слоем является Embedding слой, задача которого: перевести последовательности чисел (которым сопоставили слова размеченного текста) в плотные векторы фиксированного размера. Таким образом получаем векторное представление слов.

[0074] Далее используется оболочка TimeDistributed, чтобы применить слой Embedding к каждой последовательности символов. После приведенной обработки получается векторное представление символов. Далее производится конкатенация векторных представлений слов и символов.

[0075] На следующем этапе задействуется основной слой модели - Bidirectional. Полученные на предыдущем этапе векторные представления подаются в слой Bidirectional. Данный слой рассчитывает вероятности тегов для каждого слова в предложении. Далее эти вероятности подаются в слой CRF, который рассчитывает распределение вероятностей перехода от одного тега к другому. Все параметры модели (весовые матрицы, смещения, матрица векторных представлений слов и матрица перехода CRF слоя) настраиваются во время тренировки алгоритма обратного распространения ошибки со стохастическим градиентным спуском.

[0076] Далее проводится тренировка/обучение модели.

[0077] На Фиг. 5, 6 представлены результаты обучения Bi-LSTM+CRF модели. Здесь показывается рост точности обучения (accuracy) и рост точности на валидационных данных (validation accuracy) с ростом числа эпох, а также показано как уменьшались потери.

[0078] На Фиг. 7 представлены результаты проверки на тестовой выборке. Сопоставляется текст, который был размечен человеком с результатами разметки, полученными на выходе модели. Качество работы модели определяется тем, насколько близко модель предугадала значение тега, или иными словами насколько меньше отклонений у результата работы модели от пред размеченных значений тегов. Для оценки качества работы той или иной модели применяются общепринятые методы и метрики оценки качества моделей.

[0079] На Фиг. 8 представлен пример общего вида вычислительной системы (300), которая обеспечивает реализацию заявленного способа (100) или является частью компьютерной системы, например, сервером, персональным компьютером, частью вычислительного кластера, обрабатывающим необходимые данные для осуществления заявленного технического решения.

[0080] В общем случае, система (300) содержит объединенные общей шиной информационного обмена один или несколько процессоров (301), средства памяти, такие как ОЗУ (302) и ПЗУ (303), интерфейсы ввода/вывода (304), устройства ввода/вывода (1105), и устройство для сетевого взаимодействия (306).

[0081] Процессор (301) (или несколько процессоров, многоядерный процессор и т.п.) может выбираться из ассортимента устройств, широко применяемых в настоящее время, например, таких производителей, как: Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. Под процессором или одним из используемых процессоров в системе (300) также необходимо учитывать графический процессор, например, GPU NVIDIA или Graphcore, тип которых также является пригодным для полного или частичного выполнения способа (100), а также может применяться для обучения и применения моделей машинного обучения в различных информационных системах. [0082] ОЗУ (302) представляет собой оперативную память и предназначено для хранения исполняемых процессором (301) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (302), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.). При этом, в качестве ОЗУ (302) может выступать доступный объем памяти графической карты или графического процессора.

[0083] ПЗУ (303) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др.

[0084] Для организации работы компонентов системы (300) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (304). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п. [0085] Для обеспечения взаимодействия пользователя с вычислительной системой (300) применяются различные средства (305) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.

[0086] Средство сетевого взаимодействия (306) обеспечивает передачу данных посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (306) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др. [0087] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.

Claims

ФОРМУЛА

1. Компьютерно-реализуемый способ классификации данных для выявления конфиденциальной информации, выполняемый с помощью по меньшей мере одного процессора и содержащий этапы, на которых:

• осуществляют обработку полученных данных с помощью алгоритмов машинного обучения, в ходе которой, каждому слову в тексте присваивается тег, соответствующий заданному типу конфиденциальной информации, причем для каждого алгоритма машинного обучения сформирована матрица классификации, на основании которой вычисляется F-мера для каждого типа данных;

2. Способ по п. 1, характеризующийся тем, что для каждого алгоритма машинного обучения вычисляются показатели F - меры для каждого типа данных.

3. Способ по п. 1, характеризующийся тем, что конфиденциальная информация представлена по меньшей мере в виде текстовых данных и/или числовых данных.

4. Система классификации данных для выявления конфиденциальной информации, содержащая

— по меньшей мере один процессор;

- по меньшей мере одну память, соединенную с процессором, которая содержит машиночитаемые инструкции, которые при их выполнении по меньшей мере одним процессором обеспечивают выполнение способа по любому из п.п. 1-4.

13

ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26)