WO2023003488A1

WO2023003488A1 - Проверка документа на соответствие требованиям о персональных данных

Info

Publication number: WO2023003488A1
Application number: PCT/RU2021/000325
Authority: WO
Inventors: Олег Олегович МИХАЛЬСКИЙ; Максим Дмитриевич ЛАГУТИН; Максим Олегович ГРАБОВ
Original assignee: Общество С Ограниченной Ответственностью "Б152"
Priority date: 2021-07-22
Filing date: 2021-07-30
Publication date: 2023-01-26

Abstract

Настоящее изобретение в целом относится к вычислительным системам, а точнее к системам и способам проверки текста документа. Настоящее изобретение служит для проверки документа на его соответствие установленным требованиям обработки персональных данных с возможностью последующего внесения изменений в текст документа с целью устранения найденных ошибок (недостатков). Техническим результатом является обеспечение возможности проверки текста в документе с целью выявления ошибки, связанной с нарушением или не соответствием с заданными требованием. Проверка документа включает проверку текста документа при помощи нейронных сетей, которые обучены для поиска в тексте документа ошибок, связанных с нарушением определенных требований о персональных данных. При этом предварительно документ будет преобразован в определенный вид для его передачи в нейронную сеть.

Description

ПРОВЕРКА ДОКУМЕНТА НА СООТВЕТСТВИЕ ТРЕБОВАНИЯМ О ПЕРСОНАЛЬНЫХ ДАННЫХ

Область техники

Настоящее изобретение в общем относится к вычислительным средствам для обработки электронных документов, а более конкретно, к системам и способам проверки текста в электронных документах на наличие ошибок, связанных с нарушением требований законодательства о персональных данных, при помощи нейронных сетей.

Предшествующий уровень техники

В настоящее время действия, связанные с управлением и контролем собираемой и обрабатываемой информацией пользователей, регулируется и на законодательном уровне различных государств, в частности Российской Федерации (РФ), США, Канады и стран Евросоюза. Например, в РФ - федеральным законом N2152-F3 «О персональных данных», в странах Евросоюза — это актом о защите персональных данных (англ. General Data Protection Regulation, GDPR), и в Канаде - актом «Canadian Personal Information Protection and Electronic Documents Act (PIPEDA)». Законы о персональных данных накладывают ряд стандартов и требований на веб- ресурсы (сайты), которые производят обработку, в том числе сбор и использование, личных данных пользователей, а также данных о пользователях. Примерами таких требований являются требования по обеспечению конфиденциальности, информировании пользователя о сборе его личных данных, получение явного согласия (разрешения) пользователя на дальнейшее использование его личных данных и другие.

В тоже время выполнения требований законодательства в области персональных данных и организация надлежащей защиты персональных данных находятся на крайне низком уровне. Одной из причин роста числа нарушений и связанных с ними утечек персональных данных является невыполнение требований законодательства значительным числом как предприятий, в частности связанных с малым или средним бизнеса, так и частных лиц.

В настоящее время для выполнения требований о персональных данных создаются определённые электронные документы, которые описывают взаимодействие и регулирование в области использования и обработки персональных данных пользователей. Примерами таких документов являются пользовательское соглашение, политика обработки персональных данных и договор оферты.

В тоже время при подготовке подобных документов возможно образование в тексте ошибок, связанных с выполнением требований законодательства о персональных данных, или не корректное формулирование положений об обработке персональных данных. Другими словами, документ будет содержать текст, который не соответствует требованиям о персональных данных или даже нарушает их. На данный момент качество такого созданного документа может проверить только пользователь, специализирующийся на работе с персональными данными, т.е. имеющий специальные знания. В тоже время и ему потребуется время на проверку такого документа и приведения его в соответствие, в случае выявления нарушения, связанного с требованиями о персональных данных. Особенно если документ содержит большое количество страниц или если документов несколько.

Поэтому требуются подходы позволяющие провести проверку таких сложных и специализированных документов на различных сайтах и в случае выявления каких-либо ошибок, связанных с нарушением каких-либо требований о персональных данных, устранить их за счет корректировки текста документа. Раскрытие изобретения

Настоящее изобретение позволяет произвести проверку текста в электронном документе на наличие ошибок, связанных с нарушением требований о персональных данных, с использованием нейронных сетей. После чего настоящее изобретение позволяет произвести устранение обнаруженных ошибок путем внесения необходимых изменений в текст документа.

Один технический результат заключается в повышении эффективности обнаружения ошибок, связанных с требования о персональных данных, в тексте документа с помощью нейронной сети. Под нейронной сетью может пониматься набор моделей машинного обучения, позволяющих произвести анализ текста документа с вынесением решения о наличие или отсутствии ошибок, указывающих на нарушение упомянутых требований.

Другой технический результат заключается в повышении качества созданных документов, регулирующих взаимоотношения с пользователем в соответствии с требованиями о персональных данных, за счет обнаружения ошибок в тексте документа посредством средства, включающего нейронную сеть, и последующем устранении обнаруженных ошибок путем внесения в часть текста необходимых изменений.

В одном из вариантов реализации предлагаемое изобретение представлено в виде системы проверки документов, состоящая из нескольких частей. Одним из элементов указанной системы является средство сканирование сайтов, предназначенное для обнаружения и получения с сайтов файлов, которые соответствуют документам о персональных данных. Еще одним элементом указанной системы является по меньшей мере одно средство анализа документов, предназначенное для анализа полученного документа, во время которого преобразуется текст документа в требуемый вид и формируется векторное представление по крайней мере одной части текста документа, и вынесения решения о наличие ошибки, связанной с нарушением требований о персональных данных. Средства системы могут быть реализованы как совместно на одной компьютерной системе, например, сервере, так и быть распределены между разными компьютерными системами, например, каждое средство на отдельном сервере. При реализации на разных серверах серверы объединены в единую сеть. Разделение средств между серверами позволяет оптимизировать нагрузку.

Средство анализ документов по крайней мере включает в себя средство подготовки документов, средство векторизации текста документа и средство определение в тексте ошибки, включающий нейронную сеть. Также средство анализа документов включает хранилище, которое содержит требуемую информацию, в частности обучающую выборку документов (образцы документов) для обучения или переобучения нейронной сети средства определения в тексте ошибки, и образцы частей текста, которые содержат текст удовлетворяющий требования о персональных данных и позволяющие заменить по крайней мере часть текста в документах, в которых была обнаружена ошибка, связанная с нарушением требований о персональных данных.

В одном из вариантов реализации изобретения для взаимодействия между средствами системы и с сайтами, на которых хранятся документы, используется API.

В одном из вариантов реализации изобретения входящей информацией является сообщение, содержащее ссылку на сайт или непосредственно на документ, требующий проверки. Далее документ скачивается и преобразуется по крайней мере из форматов «docx» или «pdf» в обычный текст. Стоит отметить, что для конвертации «pdf» используется, например, библиотека Apache Tika. Средство анализа документов последовательно передает документ между средствами и на выходе из нейронной сети получает ответ какие ошибки, связанные с нарушениями, удалось обнаружить. Выявленные ошибки предоставляют на сайт или же вносятся изменения в текст документа для устранения найденных ошибок. Для внесения в текст изменений может быть произведен предварительный анализ по определения непосредственного место размещения в тексте найденной ошибки. После устранения найденных ошибок документ возвращается на сайт.

Варианты реализации настоящего изобретения описывают механизмы проверки текста документа, регулирующего использование и обработку персональных данных с пользователем, при его взаимодействии с сайтом. Проверка осуществляется в соответствии с требованиями о персональных данных.

В качестве одного варианта исполнения предлагается способ проверки документов на соответствие требованиям о персональных данных, реализуемый по крайней мере с помощью одного сервера, и включающий: проводят сканирование сайта, во время которого выявляют документ, относящийся к обработке персональных данных; проводят преобразование текста выявленного документа в требуемый вид, при этом преобразование проводят согласно типу документа; проводят преобразование текста, полученного на шаге ранее в векторное представление, где векторное представление содержит по меньшей мере один вектор, сформированный на основании текста документа; передают каждый сформированный вектор в качестве исходных данных набору обученных моделей машинного обучения, где обученный набор содержит по крайней мере одну нейронную сеть, выходной слой которой предсказывает наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; получают в качестве выходных данных от набора обученных моделей машинного обучения информацию о наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; в случае получении информации о наличие в тексте документа ошибки вносят изменения в текст документа, которое устраняет найденную ошибку и передают документ обратно на сайт.

В другом варианте исполнения способа при преобразовании текста документа используется по крайней мере один из приемов: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп - слова.

В еще одном варианте исполнения способа формируют векторное представление полученного текста используя векторно-семантические модели на основании искусственных нейронных сетей.

В другом варианте исполнения способа набор обученных моделей машинного обучения, содержит количество нейронный сетей равное количеству выявляемых ошибок, где последовательно или параллельно передают исходные данные каждой нейронной сети.

В еще одном варианте исполнения способа после преобразования текста проводят оценку размера текста документа на основании которой определяют необходимость разделения текста на части, где частью текста является параграф, абзац или страница.

В другом варианте исполнения способа на выходе из нейронной сети информация дополнительно содержит сведения о части текста, в которой найдена ошибка, и о нарушении, которому соответствует выявленная ошибка.

В качестве другого варианта исполнения предлагается сервер для проверки документов на соответствие требованиям о персональных данных, включающий в себя процессор, в котором конфигурация процессора настроена таким образом, чтобы сервер мог осуществлять указанные ранее способ. Краткое описание чертежей

Прилагаемые чертежи включены в данное описание и составляют его часть, иллюстрируют один или несколько вариантов осуществления предметов заявленной технологии вместе с подробным описанием и служат для пояснения принципов и вариантов осуществления заявленной технологии.

На Фиг. 1 представлена система проверки текста документа на соответствие требованиям законодательства о персональных данных на сайтах.

На Фиг. 2 представлен способ проверки текста документа на наличие ошибок, связанных с нарушением требований законодательства о персональных данных.

На Фиг. 3 представлен способ контроля актуальных сведений в тексте документа, связанном с обработкой персональных данных

На Фиг. 4 представлен пример компьютерной системы, на которой может быть реализовано заявленное изобретение.

На Фиг. 5А - 5Г представлены примеры результатов работы средства преобразования.

На Фиг. 6 представлен пример результата проверки наличия в тексте документа ошибок, указывающих на нарушение требований о персональных данных.

Варианты осуществления изобретения

Данное подробное описание предназначено только для описания наглядных примеров данной технологии. Это описание не предназначается для определения объема и установления границ данной технологии. В некоторых случаях могут быть изложены полезные примеры изменений в целях упрощения понимания данной технологии, а не для определения объема или установления границ данной технологии. Эти изменения не представляют собой исчерпывающий перечень, и, как будет понятно специалистам в данной области техники, также возможно внесение других изменений. Кроме того, невыполнение вышеуказанного (т.е. там, где примеры изменений не были изложены), не следует толковать как невозможность внесения изменений и/или как то, что описанное является единственным способом реализации такого конкретного аспекта данной технологии. Как будет понятно специалисту в данной области техники, вероятнее всего это не является рассматриваемым случаем. Кроме того, необходимо понимать, что данное подробное описание предоставляет собой в некоторых случаях простую реализацию данной технологии и в таких случаях описания предоставляются в качестве вспомогательного средства для упрощения понимания. Как будет понятно специалистам в данной области техники, различные способы реализации данной технологии могут быть более сложными.

Слова, употребленные в единственном числе, обозначают один или более объектов, если не указано другое.

При описании настоящего изобретения используются, по меньшей мере, следующие термины:

Сайт - информационная система, представляющая собой веб-ресурс, размещенные на хостинге провайдера, и содержащий различные элементы. При этом информационная система может принадлежать как организации (юридическому лицу), так и другому пользователю (физическому лицу).

Электронный (или машиночитаемый) документ (далее - документ) - любой компьютерный файл, содержащий графическую и/или текстовую информацию. Такой файл может иметь графический формат данных (JPEG, PNG, DjVu, TIFF и др.) или формат электронных документов (PDF, DOC, DOCX и др.). В предпочтительном варианте такой документ представляет собой юридический документ, направленный на регулирование в области обработки персональных данных. В тоже время это может быть любой другой документ, например, документ, который создается путем заполнения полей текстовыми символами (например, словами, цифрами) или изображениями.

Текст - означает один символ или строку символов. Примеры текста могут содержать буквы, символы или цифры на одном или нескольких языках.

Текстовое поле - означает поле данных в документе, которое содержит буквенно-цифровые символы.

Персональные данные - любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу (субъекту персональных данных), в том числе его фамилия, имя, отчество, год, месяц, дата и место рождения, адрес, семейное, социальное, имущественное положение, образование, профессия, доходы, e-mail, номер телефона, псевдоним, банковские данные, геолокация, данные навигации, Cookies и другая информация.

Обработка персональных данных - действия (операции) с персональными данными, включая сбор, систематизацию, накопление, хранение, уточнение (обновление, изменение), использование, распространение (в том числе передачу), обезличивание, блокирование, уничтожение персональных данных.

Использование персональных данных - действия (операции) с персональными данными, совершаемые оператором (пользователем) в целях принятия решений или совершения иных действий, порождающих юридические последствия в отношении субъекта персональных данных или других лиц либо иным образом затрагивающих права и свободы субъекта персональных данных или других лиц.

Нарушитель безопасности персональных данных - физическое лицо (пользователь), случайно или преднамеренно совершающее действия, следствием которых является нарушение безопасности персональных данных при их обработке техническими средствами в информационных системах персональных данных.

Настоящее изобретение служит для проверки документа на его соответствие установленным требованиям об обработке персональных данных с возможностью последующего внесения изменений в текст документа с целью устранения найденных ошибок (недостатков). Проверка документа включает проверку текста документа при помощи нейронной сети, которая обучена для поиска в тексте документа ошибок, связанных с нарушением определенных требований о персональных данных. Такие требования могут быть заданы на основании различных законодательных актов, например, ФЗ-152 или GDPR. При этом требования могут быть установлены, например, собственником (пользователем) информации (персональных данных) или определенными законодательными актами или другими правовыми документами, действующими на определенной территории, на основании которых были сформированы указанные выше документы. Под территорией понимается государственный субъект, например, Россия, США, страны Европы.

В предпочтительном варианте реализации рассматриваются документы, которые направлены на регулирование обработки персональных данных, получаемых и используемых на сайтах. Также такими документами могут являться документы, которые охватывают обработку конфиденциальных данных или любых других данных, представляющих ценность. В рамках реализации заявленного изобретения некоторым документам может быть заранее задана категория, характеризующая их принадлежность к определенным типам документов. Категория документа может быть задана, например, специалистом по персональным данным, пользователем или компьютерной системой.

Стоит отметить, что в зависимости от размещения сервера, на котором работает сайт, или территории, на которое работает сайт, или языка, который используется на сайте, сайт может содержать различные виды документов. Эти документы могут регулировать различные требования законодательства об обработки персональных данных.

Примерами проверяемых документов являются следующие документы: пользовательское соглашение на обработку, хранение или использование персональных данных, политика обработки персональных данных, оферта.

Для выполнения своего предназначения представленное изобретение осуществляет ряд шагов, которые по крайней мере включают часть из следующих: получают задание на проверку документов на сайте, где задание содержит ссылку, указывающую на месторасположение сайта в компьютерной сети или самих документов; производят поиск документов на сайте, удовлетворяющих требованиям для последующей его проверки; передают по крайней мере один найденный документ средству анализа документов; производят анализ документа, во время которого выполняет одно из следующих действий: преобразуют текст документа в предпочтительный вид и/или разделяют на части (например, абзацы); преобразованный текст и/или каждую часть текста представляют в вектором виде, который передают на вход предварительно обученной нейронной сети; получают на выходе из нейронной сети информацию о найденных ошибках, связанных с нарушением требований о персональных данных; предоставляют результаты проверки документа пользователю (оператору) или обратно на сайт, например, в виде прикрепленного файла, содержащего информацию об ошибках. Стоит отметить, что ошибка, связанная с нарушением в тексте документа заданных требований о персональных данных, может указывать на:

• отсутствие в тексте документа необходимой информации,

• содержание неоднозначной трактовки в тексте документа,

• содержание лишней информации в тексте документа. Заявленное изобретение дополнительно позволяет вносить изменения (корректировать) в текст проверенного документа с целью устранения найденных нарушений (ошибок). В этом случае производится замена части текста документа, в которой найдена ошибка, связанная с нарушением требований о персональных данных, на корректную форму текста в документе. Для этого используются заранее подготовленные образцы текста, устраняющие указанные ошибки, из хранилища. Хранилище содержит образцы частей текста для корректировки указанных документов, при этом образцы частей теста могут изменяться или пополняться на периодической основе. Например, когда было изменено законодательства в области регулирования обработки персональных данных. После внесения необходимых изменений по корректировки текста документ передается обратно на сайт с указанием на внесенные изменения.

Стоит отметить термин «нарушение» и термин «ошибка» в рамках данного описания являются эквивалентными, если не указано иное.

В еще одном варианте реализации настоящее изобретение позволяет проводить автоматический контроль для проверенных документов на сайтах, в частности, заданных сайтах. При контроле производится периодическая проверка на наличие изменения в документе. При изменении документа производится повторная проверка текста документа на наличие ошибок, связанных с установленными требованиями. Периодичность проверки регулируется и зависит по крайней мере от таких критериев как: установленного время периодической проверки; наступления внешнего события, связанного с получением задачи проверки от пользователя; наступления внешнего события, связанного с внесенными изменениями в установленные требования о персональных данных. Также необходимость внесения изменений в установленные требования о персональных данных может быть связана с изменениями в законодательстве, связанном с обработкой персональных данных. Также контроль сайта может включать отслеживание новых документов для дальнейшей проверки.

В одном из вариантов реализации заявленное изобретение в виде способа реализуется при помощи сервера (ов), например, «облачного» сервера. Под «облачным» сервером понимается комплекс серверов для обработки данных, при этом могут быть географически расположены на большом расстоянии друг от друга и объединены сетью, при этом предоставляют удаленный доступ для взаимодействия с ними с любого устройства: ПК, смартфона, планшета. Облачный сервер - это технология размещения данных с сетевым доступом к вычислительным ресурсам.

В другом варианте реализации заявленного изобретения может быть использовано другое вычислительное устройство. Вычислительное устройство может являться устройством обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. К примерам вычислительного устройства относятся, помимо прочего, планшетные компьютеры, смартфоны, портативные компьютеры или настольные компьютеры. Пример вычислительного устройства, которое может использоваться для реализации способов настоящего изобретения, более подробно рассматривается ниже, со ссылкой на Фиг. 4.

Стоит отметить, что для обнаружения в тексте документа ошибок, связанных с нарушением требований о персональных данных, используется методы машинного обучения, а именно, нейронная сеть. Нейронная сеть предварительно была обучена для анализа соответствующих видов документов и текста в них. На вход нейронной сети поступают части текста или сразу весь текст, которые предварительно преобразованы в необходимый вид. После анализа на выходе из нейронной сети предоставляется информация о найденных в тексте документа ошибках, связанных с нарушением требований об обработке персональных данных. Кроме того, в рамках настоящего изобретения также может быть произведено и обучение или переобучение нейронной сети. Обучение нейронной сети производится известными из уровня техники подходами, при этом используется в качестве обучающей выборки образцы документов определенной направленности. Другими словами, нейронная сеть может быть обучена для поиска ошибок в определенных видах документов. Переобучение нейронной сети позволит на регулярной основе адаптироваться настоящему изобретению к появляющимся новым требованиям к обработке персональных данных. Для переобучения также будет использоваться обучающая выборка документов. Стоит отметить, обучающая выборка документов содержится в хранилище данных. Таким образом, качество обнаружения ошибок в тексте документов не будет падать при появлении новых требований. Например, обучающая выборка документов включает документы, соответствующие российскому законодательству по обработки персональных данных и требованиям GDPR.

Так, нейронная сеть тренируется на обучающейся выборке документов, содержащих известные текст. Например, обучающая выборка данных может содержать примеры документов, содержащих одно или более частей (абзацев) текста, в качестве исходных данных для обучения. А также обучающая выборка содержит один или более идентификаторов типа частей текста, которые правильно соответствуют одному или более частям текста в качестве целевого результата. Часть текста может представляться собой, например, весь текст документа, абзац, параграф, одно или несколько предложений. Использование определенной части текста может зависеть от типа ошибки, которую требуется выявлять. Нейронная сеть может построить наблюдаемый результат для всех исходных данных для обучения. Наблюдаемый результат работы нейронной сети можно сравнить с ожидаемым результатом работы, включенным в обучающую выборку данных, и ошибка может распространяться назад, на предыдущие слои нейронной сети, параметры которой (веса и смещения нейронов) могут регулироваться определенным образом. В ходе обучения нейронной сети параметры нейронной сети могут быть отрегулированы для оптимизации точности предсказания. После обучения нейронная сеть используется для автоматического распознавания частей текста в исходном документе и определении наиболее вероятного результата, а именно, содержит ли анализируемая часть текста ошибку, связанную с нарушением требований об обработке персональных данных.

Использование описанных механизмов проверки информации в тексте документа может повысить качество результатов обнаружения за счет выполнения обнаружения ошибок в тексте документа с использованием обученной нейронной сети, которая сохраняет информацию о контексте всего документа. Следовательно, нейронная сеть, обученная принимать во внимание контекст всего документа, может быть способна более точно определять ошибки в других частях текста того же документа. Нейронная сеть, используемая в соответствии с реализациями настоящего изобретения, может применяться для идентификации документов любого типа и может обеспечивать эффективное обнаружение ошибок в тексте, таким образом повышая как точность обнаружения, так и скорость обработки вычислительного устройства, реализующего такое обнаружение.

Далее описываются варианты реализации изобретения в виде способов и систем, реализующих в том числе и указанные способы.

На Фиг. 1 представлена блок-схема примера системы проверки текста электронных документов на соответствие требованиям о персональных данных на сайтах компьютерной сети 100 (далее - система проверки документов 100).

Как показано на Фиг. 1, система проверки документов 100 включает такие средства как средство сканирование сайтов 110 и по меньшей мере одно средство анализ документов 120. В предпочтительном варианте реализации указанные средства 110 и 120 реализуются на отдельных вычислительных устройствах, в частности серверах, подключенных к сети 180. В этом случае между серверами установлены соединения для обмена данными, в частности для передачи документов. Сервер, на котором реализована средство 110, соединен с сетью 180, через которую выполнена возможность связываться с сайтами в сети. Сеть 180 может быть общественной сетью (например, Интернет), частной сетью (например, локальной сетью (LAN) или распределенной сетью (WAN)), а также их комбинацией. Взаимодействие между серверами и с сайтами может осуществляться с помощью использования API (). Дополнительно систем проверки документов 100 включает средство корректировки 170, которое может быть реализовано как на отдельном сервере, так и совместно со средствами 110 и 120, например, вместе со средством 120.

Средство сканирования сайтов 110 предназначено для поиска на сайтах документов, связанных с обработкой персональных данных, и последующей передачи их по крайней мере одному средству анализа документов 120. Средство сканирование сайтов 110 имеет возможность формировать очередь сайтов и их страниц для последующего поиска документов, размещенных на сайтах. После попадания сайта в очередь производится сканирование первой страницы сайта. Найденные ссылки на первой странице сайта также добавляются в очередь для сканирования. В одном варианте реализации, очередь содержит ссылки (адрес месторасположения) на сайты и его страницы.

Во время сканирования страниц сайтов производится поиск ссылок на документы, описывающие политики обработки персональных данных, или сами документы. Средство сканирования сайтов 110 проводит обработку html- кода каждой страницы с целью выявления ссылок на файлы, которые соответствуют искомым документам. При нахождении необходимого документа, он скачивается для передачи средству анализа документов 120. Скачивание документа проводится, например, согласно ссылке на страницу с документом.

Стоит отметить, что средство сканирования сайтов 110 может производить сканирование нескольких сайтов как одновременно, так и последовательно. Варианты сканирования сайтов зависят от технических возможностей средства 110.

Средству анализа документов 120 предназначено для определения наличия или отсутствия в тексте документа ошибки, связанной с нарушением требование об обработке персональных данных. Средство анализа документов 120 включает средство преобразования текста документа 130, средство векторизации данных 140, средство, содержащее по меньшей мере одну нейронную сеть 150 (далее - средство нейронной сети 150) и хранилище 160.

Средство преобразования текста документа 130 (далее - средство преобразования 130) предназначено для извлечения текста из документа и его преобразования в требуемый вид для последующего анализа. Так как документы имеют различный формат, например doc, pdf, jpg и другие, то средство преобразования 130 анализирует полученный документ, во время которого определяет тип документа и производит действия по его преобразованию. Например, если формат документа не соответствует текстовому формату, а является изображением, то для распознавания текста документа средство преобразования 130 может использовать любой подходящий метод оптического распознавания символов (OCR).

Далее средство преобразования 130 преобразует распознанный текст, т.е. производит упрощение текста. Для упрощения текста средство преобразования 130 использует по меньшей мере один из приемов: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп - слов. В тоже время, в других вариантах реализации изобретения упрощение текста средством преобразования 130 может и не производить. В этом случае, анализ текста в дальнейшем может занять больше времени, но при этом останется больше признаков в тексте.

Токенизация - разделение текста на токены. Токенами могут быть абзацы, предложения, словосочетания, отдельные буквы, последовательность букв или сочетание букв, но обычно токенами становятся отдельные слова.

Нормализация - приведение текста к единому формату. Текст можно привести к одному регистру, цифры писать прописью 1 - один. Также возможно преобразование сокращения, например «мин.» - «минута».

Лемматизация - приведение слов к одной грамматической форме, другими словами получение леммы. Например, слова «Приказу», «приказом», «приказа» являются формами слова «приказ». Так преобразование слов может иметь вид: для существительного слова получают лемму приведением слова к именительному падежу, единственного числа; для глагола приводят к инфинитиву; прилагательные и числительные слова приводят к форме именительного падежа, мужского рода, единственного числа.

Стемминг - более простой аналог лемматизации, отбрасывает все кроме корня слова.

Стоп-слова - в обычном тексте много слов, которые можно удалить из текста не потеряв смысла. Обычно это артикли, междометия, союзы. Проверяя документ стоп-слова могут быть удалены из текста документа.

Оптимальные подбор приемов упрощения текста документа для каждой реализации изобретения производится опытным путем, при этом учитывается их влияние на точность предсказания о наличии ошибке, связанной с нарушением законодательства о персональных данных. Выбор того или иного приема при реализации изобретения может зависеть от языка текста, который представлен в документе. Так, например, для английского и русского языков будут использованы все приемы упрощения текста, а для японского и китайского только часть из них. В одном из вариантов реализации средство преобразования 130 после распознавания текста проводит оценку размера текста документа на основании которой определяет необходимость разделения текста на части, например, параграфы, абзацы или страницы. Это позволяет в дальнейшем не снижать уровень предсказания ошибки. Так, документы могут содержать от 1 до 30 страниц. Чем больше документ, тем дольше и сложнее провести его анализ. При этом возможны случае, когда ошибкой, связанной с нарушением обработки персональных данных, является отсутствие одного или нескольких предложений. Анализируя большой текст значение отдельного предложения может быть размыто. Поэтому средство преобразования 130 разделяет текст документа на части в зависимости от размера документа и предоставляет средству векторизации данных 140 для каждой части в отдельности.

В предпочтительном варианте средство преобразования 130 разделяет текст документа на абзацы, так как такое разделение позволяет наиболее оптимально в дальнейшем вносить изменения в текст документа для устранения найденной ошибки.

Пример работы средства преобразования 130 представлен на Фиг. 5А - 5Г. Так, На Фиг. 5А было произведено чтения файла police.txt. На Фиг.5Б представлен результат получения токенов слов, например, с помощью библиотеки NLTK (от англ. Natural Language Toolkit). На Фиг. 5В показан результат лемматизации при помощи использования морфологического анализатора «pymysteam3». На Фиг. 5Г представлен результат преобразования стоп-слов и дальнейшая очистка.

Средство векторизации данных 140 предназначено для преобразования полученного текста (частей текста) от средства преобразования 130 в векторное предоставление, т.е. формируют для всего текста или каждой его части вектор.

В одном из вариантов реализации средство векторизации данных 140 применяет подход «мешок слов» (от англ «bag of words»). Данный подход основан на том, что все слова из полученного текста добавляются в «мешок», который используется как словарь, который реализуется в виде базы данных. Если слово встречается в тексте несколько раз, то слово добавляет только один раз. В результате, для каждого слова получаем порядковый номер в мешке.

Для векторизации текста создается список такой же длины как мешок слов и заполняется нулями и единицами. Если первое слово из словаря есть в тексте, то первым значением в векторе будет единица. Если слова нет, то ноль. Так преобразуются все слова в словаре. В одном из вариантов для создания мешка слов средство векторизации данных 140 использует один из методов: CountVectorizer фреймворка Skleam, pytorch и fasttext.

В другом варианте реализации средство векторизации данных 140 применяет подход, основанный на n-граммах (словосочетаниях длинной п слов). Рассмотрим следующий пример:

Возьмем токены, которые получили от средства преобразования 130 и представлены на Фиг.5Б:

['Политика', 'отношении', 'обработки', 'защиты', 'персональных', 'данных', 'Общества', 'ограниченной', 'ответственностью', '«Международная', 'Страховая', 'Группа»', '(ООО', '«МСГ»)', 'Утверждена', 'приказом', 'Генерального', 'директора']

Предположим, что длина n-грамм равна 2 (двум) словам, то получается: ['Политика', 'отношении'], ['отношении', 'обработки'], ['обработки', 'защиты'] и т.д. Далее подход работает также как подход используемый «мешок слов», только вместо слов используются словосочетания.

Длина n-граммы подбирается опытным путем для обеспечения требуемой точности предсказания. В других вариантах реализации длина п- граммы может составлять и от 3 до 10 слов или более, при удовлетворении требования точности предсказания нарушения в тексте документа. В еще одном варианте реализации средство векторизации данных 140 для векторного представления слов из текста применяет векторно- семантические модели на основании искусственных нейронных сетей, например, как технология под названием «Word2Vec» или технология под названием «fasttext». При этом данные модели была предварительная обучены на примерах документов.

В еще одном варианте реализации средство векторизации данных 140 формирует вектор для частей текста, например, параграфа, абзаца или двух и более абзацев. Для такого представления средство 140 использует в своей работе методы, использующие нейронную сеть со скрытыми слоями, подобные методу «Doc2Vec».

В других вариантах реализации изобретения средство векторизации данных 140 для векторного представления текста документа может использовать несколько вариантов реализации, представленных ранее. Например, для формирования частей текста используется один подход, а для формирования векторов для слов и словосочетаний другой подход. Так может быть получен вектор для каждого отдельного слова при использовании подхода основанного на Word2Vec. Вектор для предложения, абзаца или всего текста может быть получен при использовании подхода основанного на Doc2Vec.

После преобразования в векторный вид полученного текста документа средство векторизации данных 140 передает данные средству нейронной сети

150.

Средство нейронной сети 150 предназначено для выявления в полученном тексте документа ошибок, связанных с нарушением требований о персональных данных. Средство нейронной сети 150 использует набор моделей машинного обучения, который содержит по крайней мере одну нейронною сеть. На вход указанной нейронной сети предоставляют данные в виде по крайней мере одного векторного предоставления (вектора) текста анализируемого документа. Количество векторов зависит от соответствующего преобразования текста с помощью средства векторизации данных 140.

В зависимости от реализации изобретения средство нейронной сети 150 может содержать как одну нейронную сеть, которая будет универсальной моделью для выявления всех видов ошибок (нарушений), так и для каждого вида ошибки (нарушения) будет иметь отдельную нейронную сеть для ее обнаружения. Когда средство нейронной сети 150 содержит несколько нейронных сетей, то входные данные (вектора) передаются от одной нейронной сети к другой или параллельно каждой.

Примерами нарушений требований, для которых могут быть использованы отдельные нейронные сети, являются следующие нарушения:

• отсутствие наименование лица (компании), который производит обработку персональных данных;

• отсутствие контактов оператора, собирающего персональные данные, например, соглашение не содержит адреса компании, которая собирает данные;

• не указана цель сбора персональных данных;

• не указаны данные, которые подлежат сбору, т.е. отсутствует список собираемых данных;

• не указан срок хранения персональных данных;

• не указаны третьи лица, которым могут быть переданы персональные данные;

• не указан способ отзыва персональных данных.

Еще одними примерами нарушений в документе требований, которые установлены европейским законодательством (GDPR), являются:

• отсутствие наименования контроллера;

• отсутствие контактов контроллера; • не указана цель обработки данных;

• не указана законное основание обработки данных.

В одном из вариантов реализации в качестве нейронной сети применяется рекуррентные нейронные сети (от англ recurrent neural network), в частности нейронные сети с долговременной и кратковременной памятью (от англ. Long short-term memory, LSTM) и управляемый рекуррентный блок (от англ. Gated Recurrent Units, GRU).

На выходе средство нейронной сети 150 предоставляет результат анализа полученных векторов. В случае выявления по крайней мере одной ошибке результат содержит информацию о соответствующей ошибки и о части текста документа, в которой найдена ошибка. Информирование об ошибке в тексте может быть представлено в виде флага, принимающей значение 0 или 1. Если значение флага 0 (ноль), то выявлена ошибка, указывающая на определенное нарушение законодательства о персональных данных. Если 1 (один), то ошибке нет, нарушение не выявлено. Такой подход используется при анализе частей текста, когда необходимо понять в какой части текста была найдена ошибка.

В одном из вариантов реализации при выявлении ошибки средство нейронной сети 150 определяет какая именно ошибка была выявлена. Для этого используется коды ошибок. В таблица представлены примеры кодов ошибок, которые могут возникать при анализе текста документа при помощи нейронной сети.

Таблица

В дальнейшем средство нейронной сети 150 сохраняет результаты анализа документа в хранилище 160, в частности информацию о найденных ошибках, и/или передает информацию об ошибках на сайт, с которого был получен документ, через средство сканирования сайтов 110.

Хранилище 160 может представлять собой постоянную память, которая в состоянии сохранять электронные документы, а также структуры данных для выполнения проверки текста документов в соответствии с реализациями настоящего изобретения. В частности, хранилище 160 содержит также образцы документов 163, предназначенных для проведения обучения по меньшей мере одной нейронной сети средства нейронной сети 150, образцы (шаблоны) частей текста 167, которые позволяют устранить ошибки, связанные с нарушением требований о персональных данных. Хранилище 160 может взаимодействовать с любым указанным выше средством для осуществления их предназначения.

Хранилище 160 может располагаться как на одном, так и нескольких запоминающих устройствах, таких как основное запоминающее устройство, магнитные или оптические запоминающие устройства на основе дисков, лент или твердотельных накопителей, NAS, SAN и т.д. Несмотря на то, что хранилище изображено на Фиг. 1 совместно со средством анализа документов 120 и размещены на одном сервере, в одной из реализаций изобретения хранилище 120 может быть размещено отдельно. В некоторых вариантах реализации хранилище 160 может представлять собой подключенный к сети 180 файловый сервер, в то время как в других вариантах реализации изобретения хранилище 160 может представлять собой какой-либо другой тип энергонезависимого запоминающего устройства, например, объектно-ориентированную базу данных, реляционную базу данных и т.д., которая может находиться на сервере, подключенного к сеть 180.

В одном из вариантов реализации средство анализа документов 120, например, с помощью средства нейронной сети 150, информирует средство корректировки 170 о найденных ошибках. Информирование заключается либо в предоставлении непосредственно информации о найденных ошибках, либо передачи информации о месторасположении ее в хранилище 160.

Средство корректировки 170 предназначено для внесения изменения в текст документа для устранения по крайней мере одной найденной ошибки, связанной с нарушением требований об обработке персональных данных, в проверяемом документе. Для этого средство корректировки 170 производит замену части текста документа, в которой была найдена ошибка, при помощи образцов частей текста 167, хранящихся в хранилище 160. Средство корректировки 170 согласно найденной ошибке производит поиск в хранилище необходимого образца части текста 167 и производит замену текста, содержащего ошибку, на соответствующий образец 167.

Стоит отметить, что средство корректировки 170 дополнительно может учитывать при выборе соответствующего образца 170 вид документа (например, соглашение, политики) и характер ошибки. В этом случае, образцы 167 также будут соответствовать разным видам документов и ошибок. В том случае, если образец не будет выявлен, средство корректировки 170 может связаться со внешними источниками информации, таким как официальные сайты или базы данных документов законодательных органов, где содержаться необходимая информация о соответствии требованиям о персональных данных. После чего средство 170 получит необходимый образец 167 и проведет замену.

Далее средство корректировки 170 передаст измененный документ (документ 2 на Фиг. 1) на сайт, с которого был получен, через средство анализа документов 120 и/или средство сканирования сайтов 110.

В некоторых вариантах реализации система проверки документов 100 дополнительно имеет возможность контролировать ранее проверенные документы на их актуальность.

На Фиг. 2 представлена блок-схема, иллюстрирующая способ проверки документа на наличие ошибок, связанных с нарушением требований законодательства о персональных данных. Указанный способ реализуется по меньшей мере с помощью системы проверки документов 100.

В некоторых вариантах реализации изобретения способ проверки документа включает в себя по меньшей мере способ сканирования сайта и способ обнаружения в тексте документа ошибки, связанной с нарушением требований о персональных данных.

В одном из вариантов реализации изобретения с помощью системы проверки документов 100, в частности при помощи средства сканирования сайтов 110, получают задачу проверки по меньшей мере одного документа на определенном сайте. Задача содержит по меньшей мере ссылку на сайт, на котором необходимо проверить документы. Дополнительно задача может содержать и ссылки непосредственно на документы, размещенные на сайте. В том случае, когда была получена только ссылка на сайт, проводят сканирование каждой страницы сайта начиная с главной страницы для поиска документов, регулирующих взаимодействие с пользователем в области обработки персональных данных.

На этапе 210 для обнаружения ошибок при помощи средства анализа документов 120 получают по крайней мере один найденный документ от средства сканирования сайта 110.

На этапе 220 при помощи средства преобразования текста документа 130 проводят предварительную оценку полученного документа. Предварительная оценка включает определение формата документа (например, docx, pdf) и размера документа, на основании которого далее принимается решение о его разделении на части, например, абзацы. При определении формата документа, относящегося к не текстовым форматам, производят преобразование документа из определенного формата в текстовый формат.

На этапе 230 при помощи средства преобразования текста документа 130 преобразуют текст документа в определенный вид с целью упрощения текста для анализа. Преобразование текста документа включает по меньшей мере один из таких приемов как: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп - слов. В других вариантах реализации изобретения данный шаг может быть пропущен. В этом случае будет передаваться весь текст в «сыром» виде. В некоторых случаях, это позволит получить больше признаков.

На этапе 240 при помощи средства векторизации текста документа 140 формируют векторное представление каждой части текста документа. При этом стоит отметить, что под частью документа также может пониматься и документ целиком. На этапе 250 при помощи средства определения в тексте ошибки 150 анализируют текст документа при помощи набора моделей машинного обучения, например, нейронной сети. Анализ включает подачу сформированных векторов частей текста на вход нейронной сети и получении на выходи из нейронной сети информации о наличие или отсутствии в каждой части текста документа ошибки, связанной с нарушением требований о персональных данных.

Дополнительно если на этапе 260 была определена по крайней мере одна ошибка, то переходят к этапу 270, при этом дополнительно кроме информации об обнаружении ошибки, информация может содержать и сведения о типе ошибки. В противном случае, если ошибка не была выявлена, переходят к шагу 295, на котором предоставляют отчет о корректности текста документа обратно на сайт.

В одном из вариантов реализации изобретения на этапе 260 после определения наличия или отсутствия ошибки, связанной с нарушением требований о персональных данных, производят формирование отчета, который направляется обратно на сайт, с которого был получен документ, и способ обнаружения в тексте документа ошибки заканчивается. Дополнительно может быть проинформирован пользователь при помощи коммуникативного устройства, например, видеомонитора. Также отчет содержит информацию о том, что ошибок в тексте документа не было выявлено, или же информацию о выявленных ошибках и частях текста, в которых они были обнаружены.

На этапе 270 определяют возможность внесения изменений в текст документа, где была определена ошибка. Для этого с помощью средства корректировки 170 производится поиск образцов частей текста 167 в хранилище 160 согласно информации о выявленной ошибке. На этапе 280 при обнаружении необходимого образца 167 вносят изменения в текст документа, который затем передают обратно на сайт на этапе 290 в виде документа 2 (на Фиг. 1).

На Фиг. 3 представлен способ контроля актуальных сведений в тексте документа, связанные с обработкой персональных данных.

Данный способ позволяет проводить регулярное сканирование документов на сайтах для определения наличия изменений в документах, в частности в ранее проверенных документах на наличие ошибок, связанных с нарушением требований о персональных данных. Способ может быть реализован при помощи средства сканирования сайтов 110, которое реализуется в свою очередь при помощи сервера. Способ включает по крайней мере указанные этапы ниже.

На этапе 310 определяют по меньшей мере один сайт и/или по меньшей мере один документ, требующий контроля актуальности сведений в нем. Для этого могут быть получены ссылки, указывающие на месторасположение сайта в сети или документа на сайте. Из полученных ссылок формирует очередь периодической проверки, согласно которой производят мониторинг документов. Периодичность проверки может быть задана или определена критериями проверки.

На этапе 320 проводят периодическую проверку на наличие изменения в документе из сформированной очереди согласно критериям проверки. Проверка изменений включает проверку изменений в метаданных документа (например, дату и время сохранения документа). Критерии проверки могут заключаться в установлении времени периодичности проверки, которое может устанавливаться как при помощи получения информации от пользователя (оператора), так и будет завесить от появления новых требований к обработке о персональных данных. В зависимости от срабатывания критерия проверки могут анализироваться различные метаданные документа. В случае определение изменения в документе, связанном с критерием проверки, переходят к этапу 340.

Например, если была проверка метаданных документа, которая инициирована временем периодической проверки, заданным пользователем, то наличие изменения в дате сохранения документа на сайте отличной от даты предыдущей проверки является основанием для проведения проверки на наличие ошибок в тексте документа. В еще одном примере, если была проверка метаданных документа, которая инициирована получением новых требований к обработке персональных данных, то отсутствие изменения в дате последнего изменения в документе на сайте является основанием для проведения проверки на наличие ошибок в тексте документа.

На этапе 340 передают документ на проверку ошибок, связанных с нарушением требований о персональных данных, средству анализа документов 120 при определении наличия изменения в документе или если дата последней проверки изменений раньше, чем дата получения новых требований к обработки персональных данных.

На этапе 350 проводят повторную проверку на наличия ошибки в документе согласно способу проверки документа на наличие ошибок, связанных с нарушением требований законодательства о персональных данных, представленному при описании Фиг. 2.

На Фиг. 4 представлен пример вычислительной системы 400, на которой может быть реализовано заявленное изобретение. Вычислительная система 400 может выполнять один или более способов, описанных в настоящем документе, в соответствии с одним или более вариантами реализации настоящего изобретения. В одном из примеров вычислительная система 400 может соответствовать вычислительному устройству, способному выполнять система проверки документов 100, представленную на Фиг. 1. В другом примере вычислительная система может соответствовать вычислительному устройству, способному выполнять одно из средств: средство сканирования сайтов 110 и средства анализа документов 120, представленные на Фиг. 1. Эта вычислительная система может быть подключена (например, по сети) к другим вычислительным системам в локальной сети или сети Интернет. Данная вычислительная система может выступать в качестве сервера в сетевой среде клиент-сервер. Эта вычислительная система может представлять собой персональный компьютер (ПК), планшетный компьютер, телевизионную приставку (STB), карманный персональный компьютер (PDA), мобильный телефон или любое устройство, способное выполнять набор команд (последовательно или иным способом), который определяется действиями этого устройства. Кроме того, несмотря на то что показана система только с одним компьютером, термин «компьютер» также включает любой набор компьютеров, которые по отдельности или совместно выполняют набор команд (или несколько наборов команд) для реализации любого из описанных здесь способов или нескольких таких способов.

Пример вычислительной системы 400 включает устройство обработки 405, основное запоминающее устройство 405 (например, постоянное запоминающее устройство (ПЗУ), флэш-память, динамическое ОЗУ (DRAM), например, синхронное DRAM (SDRAM)), статическое запоминающее устройство 405 (например, флэш-память, статическое оперативное запоминающее устройство (ОЗУ)) и устройство хранения данных 440, которые взаимодействуют друг с другом по шине 420.

Устройство обработки 405 представляет собой одно или более устройств обработки общего назначения, таких как микропроцессор, центральный процессор или т.п. В частности, устройство обработки 405 может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор со сверхдлинным командным словом (VLIW) или процессор, в котором реализованы другие наборы команд, или процессоры, в которых реализована комбинация наборов команд. Устройство обработки 405 также может представлять собой одно или более устройств обработки специального назначения, таких как специализированная интегральная схема (ASIC), программируемая пользователем вентильная матрица (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Устройство обработки 405 настраивается для выполнения инструкций в целях выполнения рассматриваемых в этом документе операций и шагов.

Вычислительная система 400 может дополнительно включать устройство сетевого интерфейса 450. Вычислительная система 400 может также включать видеомонитор 425 (например, жидкокристаллический дисплей (LCD) или электроннолучевую трубку (ЭЛТ)), устройство буквенно- цифрового ввода 430 (например, клавиатуру), устройство управления курсором 435 (например, мышь) и сигнальное устройство 445 (например, громкоговоритель). В одном из иллюстративных примеров видео дисплей 425, устройство буквенно-цифрового ввода 430 и устройство управления курсором 435 могут быть объединены в один компонент или устройство (например, сенсорный жидкокристаллический дисплей).

Запоминающее устройство 440 может включать машиночитаемый носитель 455, в котором хранятся команды 460 (например, средство анализа документов 120 или средство сканирования сайтов 110), реализующие одну или более методологий или функций, описанных в данном документе. Команды 460 могут также находиться полностью или по меньшей мере частично в основном запоминающем устройстве 410 и (или) в устройстве обработки 405 во время выполнения вычислительной системой 400, основным запоминающим устройством 410 и устройством обработки 405, также содержащими машиночитаемый носитель информации. Команды 460 могут дополнительно передаваться или приниматься по сети 180.

Несмотря на то что машиночитаемый носитель данных 455 показан в иллюстративных примерах как единичный носитель, термин «машиночитаемый носитель данных» следует понимать и как единичный носитель, и как несколько таких носителей (например, централизованная или распределенная база данных и (или) связанные кэши и серверы), на которых хранится один или более наборов команд. Термин «машиночитаемый носитель данных» также может включать любой носитель, который может хранить, кодировать или содержать набор команд для выполнения машиной и который обеспечивает выполнение машиной любого одного или более подхода настоящего изобретения. Соответственно, термин «машиночитаемый носитель данных» необходимо понимать как включающий, среди прочего, устройства твердотельной памяти, оптические и магнитные носители.

Варианты реализации настоящего изобретения могут быть представлены в виде по меньшей мере одного вычислительного программного продукта или программы, которая может содержать машиночитаемый носитель данных с сохраненными на нем инструкциями, которые могут использоваться для программирования вычислительной системы (или других электронных устройств) в целях выполнения процесса в соответствии с сущностью изобретения. Машиночитаемый носитель данных включает механизмы хранения или передачи информации в машиночитаемой форме (например, компьютером). Например, машиночитаемый (считываемый компьютером) носитель данных содержит машиночитаемый (например, компьютером) носитель данных (например, постоянное запоминающее устройство (ПЗУ), оперативное запоминающее устройство (ОЗУ), накопитель на магнитных дисках, накопитель на оптическом носителе, устройства флэш- памяти и т.д.) и т.п.

Несмотря на то, что операции способов показаны и описаны в настоящем документе в определенном порядке, порядок выполнения операций каждого способа может быть изменен таким образом, чтобы некоторые операции могли выполняться в обратном порядке или чтобы некоторые операции могли выполняться (по крайней мере частично) одновременно с другими операциями. В некоторых вариантах реализации изобретения команды или подоперации различных операций могут выполняться с перерывами и (или) попеременно.

В приведенном выше описании изложены многочисленные детали. Однако специалистам в данной области техники должно быть очевидно, что варианты реализации изобретения могут быть реализованы на практике и без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схем, а не подробно, чтобы не усложнять описание настоящего изобретения.

Claims

Формула

1. Способ проверки документов на соответствие требованиям о персональных данных, реализуемый по крайней мере с помощью одного сервера, и включающий: a) проводят сканирование сайта, во время которого выявляют документ, относящийся к обработке персональных данных;

B) проводят преобразование текста выявленного документа в требуемый вид, при этом преобразование проводят согласно типу документа; c) проводят преобразование текста, полученного на шаге Ь) в векторное представление, где векторное представление содержит по меньшей мере один вектор, сформированный на основании текста документа; d) передают каждый сформированный вектор в качестве исходных данных набору обученных моделей машинного обучения, где обученный набор содержит по крайней мере одну нейронную сеть, выходной слой которой предсказывает наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; e) получают в качестве выходных данных от набора обученных моделей машинного обучения информацию о наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; f) в случае получении информации о наличие в тексте документа ошибки вносят изменения в текст документа, которое устраняет найденную ошибку и передают документ обратно на сайт.

2. Способ по п. 1, отличающийся тем, что на шаге Ь) при преобразовании текста документа используется по крайней мере один из приемов: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп

- слова.

3. Способ по п. 2, отличающийся тем, что использование приема преобразования зависит от языка текста, который представлен в документе.

4. Способ по п. 1, отличающийся тем, что на шаге Ь) после преобразования текста проводят оценку размера текста документа на основании которой определяют необходимость разделения текста на части, где частью текста является параграф, абзац или страница.

5. Способ по п. 1, отличающийся тем, что на шаге с) формируют векторное представление полученного текста на основании n-грамм, где на шаге Ь) при преобразовании текста документа предварительно формируют п- граммы из словосочетаний или последовательности букв.

6. Способ по п. 1, отличающийся тем, что на шаге с) формируют векторное представление полученного текста используя векторно-семантические модели на основании искусственных нейронных сетей.

7. Способ по п. 1, отличающийся тем, что набор обученных моделей машинного обучения, содержит количество нейронный сетей равное количеству выявляемых ошибок, где последовательно или параллельно передают исходные данные каждой нейронной сети.

8. Способ по п. 1, отличающийся тем, что ошибки указывают по крайней мере на следующие нарушения:

• не указан срок хранения персональных данных; • не указаны третьи лица, которым могут быть переданы персональные данные.

9. Способ по п. 1, отличающийся тем, что обученная нейронная сеть является рекуррентной нейронной сетью на основании AWD-LSTM языковой модели.

10. Способ по п. 1, отличающийся тем, что на выходе из нейронной сети информация дополнительно содержит сведения о части текста, в которой найдена ошибка, и о нарушении, которому соответствует выявленная ошибка.

11. Способ по п. 1, отличающийся тем, что вносимые изменения в текст документа включают поиск в хранилище образца части текста, который устраняет обнаруженную ошибку, с последующей заменой части текста на образец части текста.

12. Сервер для проверки документов на соответствие требованиям о персональных данных, включающий в себя процессор, в котором конфигурация процессора настроена таким образом, чтобы сервер мог осуществлять способ по п. 1.