WO2023003488A1 - Проверка документа на соответствие требованиям о персональных данных - Google Patents

Проверка документа на соответствие требованиям о персональных данных Download PDF

Info

Publication number
WO2023003488A1
WO2023003488A1 PCT/RU2021/000325 RU2021000325W WO2023003488A1 WO 2023003488 A1 WO2023003488 A1 WO 2023003488A1 RU 2021000325 W RU2021000325 W RU 2021000325W WO 2023003488 A1 WO2023003488 A1 WO 2023003488A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
document
personal data
error
neural network
Prior art date
Application number
PCT/RU2021/000325
Other languages
English (en)
French (fr)
Inventor
Олег Олегович МИХАЛЬСКИЙ
Максим Дмитриевич ЛАГУТИН
Максим Олегович ГРАБОВ
Original Assignee
Общество С Ограниченной Ответственностью "Б152"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2021121700A external-priority patent/RU2021121700A/ru
Application filed by Общество С Ограниченной Ответственностью "Б152" filed Critical Общество С Ограниченной Ответственностью "Б152"
Publication of WO2023003488A1 publication Critical patent/WO2023003488A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Definitions

  • the present invention generally relates to computing tools for processing electronic documents, and more specifically, to systems and methods for checking text in electronic documents for errors associated with violation of the requirements of legislation on personal data, using neural networks.
  • the present invention makes it possible to check the text in an electronic document for errors associated with violation of the requirements for personal data using neural networks. After that, the present invention makes it possible to eliminate the detected errors by making the necessary changes to the text of the document.
  • a neural network can be understood as a set of machine learning models that allow analyzing the text of a document and making a decision about the presence or absence of errors indicating a violation of the above requirements.
  • Another technical result is to improve the quality of the created documents that regulate the relationship with the user in accordance with the requirements for personal data by detecting errors in the text of the document by means of a tool that includes a neural network, and then eliminating the detected errors by making the necessary changes to part of the text.
  • the invention is presented in the form of a document verification system, consisting of several parts.
  • a site scanning tool designed to detect and receive files from sites that correspond to personal data documents.
  • Another element of this system is at least one document analysis tool designed to analyze the received document, during which the text of the document is converted into the required form and a vector representation of at least one part of the text is formed. document, and making a decision on the presence of an error associated with a violation of the requirements for personal data.
  • the system tools can be implemented both jointly on one computer system, for example, a server, or distributed between different computer systems, for example, each tool on a separate server. When implemented on different servers, the servers are combined into a single network. The division of funds between servers allows you to optimize the load.
  • the document analysis tool at least includes a document preparation tool, a document text vectorization tool, and an error detection tool in the text, including a neural network.
  • the document analysis tool includes a storage that contains the required information, in particular, a training sample of documents (document samples) for training or retraining the neural network of the tool for determining errors in the text, and samples of text parts that contain text that meets the requirements for personal data and allows replacing at least part of the text in the documents in which an error related to violation of personal data requirements was found.
  • an API is used to interact between the system tools and with the sites where documents are stored.
  • the input information is a message containing a link to a site or directly to a document that requires verification.
  • the document is downloaded and converted from at least "docx” or "pdf" formats to plain text.
  • the Apache Tika library is used to convert "pdf”.
  • the document analysis tool sequentially transfers the document between the tools and at the output of the neural network receives a response which errors associated with violations were detected. Revealed errors are submitted to the site or changes are made to the text of the document to eliminate the errors found. To make changes to the text, a preliminary analysis can be carried out to determine the direct location in the text of the error found. After eliminating the found errors, the document is returned to the site.
  • Embodiments of the present invention describe mechanisms for checking the text of a document that regulates the use and processing of personal data with a user when interacting with the site. Verification is carried out in accordance with the requirements for personal data.
  • a method for checking documents for compliance with personal data requirements implemented using at least one server, and including: scanning a site, during which a document related to the processing of personal data is detected; carrying out the transformation of the text of the identified document into the required form, while the transformation is carried out according to the type of document; converting the text obtained in the step above into a vector representation, where the vector representation contains at least one vector generated based on the text of the document; passing each generated vector as input data to a set of trained machine learning models, where the trained set contains at least one neural network, the output layer of which predicts the presence of an error in the text of the document associated with a violation of the requirements for personal data; receive as output data from a set of trained machine learning models information about the presence in the text of the document of an error associated with a violation of the requirements for personal data; in case of receiving information about the presence of errors in the text of the document, changes are made to the text document, which fixes the found error and transfers the document back to the site.
  • At least one of the methods when converting the text of a document, at least one of the methods is used: tokenization, normalization, lemmatization, stemming, and stop-word filtering.
  • a vector representation of the received text is formed using vector-semantic models based on artificial neural networks.
  • a set of trained machine learning models contains a number of neural networks equal to the number of detected errors, where the initial data of each neural network is transmitted sequentially or in parallel.
  • the text size of the document is estimated, on the basis of which the need to divide the text into parts is determined, where part of the text is a paragraph, paragraph or page.
  • the information additionally contains information about the part of the text in which the error was found and about the violation to which the detected error corresponds.
  • a server for checking documents for compliance with personal data requirements, including a processor in which the processor configuration is configured so that the server can implement the previously mentioned method.
  • FIG. 1 shows a system for checking the text of a document for compliance with the requirements of legislation on personal data on websites.
  • FIG. 2 shows a method for checking the text of a document for errors related to violation of the requirements of legislation on personal data.
  • FIG. 3 shows a way to control up-to-date information in the text of a document related to the processing of personal data
  • FIG. 4 shows an example of a computer system on which the claimed invention may be implemented.
  • FIG. 5A - 5D show examples of the results of the conversion tool.
  • FIG. 6 shows an example of the result of checking for errors in the text of the document indicating a violation of the requirements for personal data.
  • Site - an information system, which is a web resource hosted by a provider and containing various elements.
  • the information system may belong to both an organization (legal entity) and another user (individual).
  • An electronic (or machine-readable) document is any computer file containing graphic and/or textual information.
  • a file can have a graphic data format (JPEG, PNG, DjVu, TIFF, etc.) or an electronic document format (PDF, DOC, DOCX, etc.).
  • PDF electronic document format
  • DOC DOCX
  • a document is a legal document aimed at regulating the processing of personal data.
  • it can be any another document, such as a document that is created by filling fields with text characters (such as words, numbers) or images.
  • Text - means a single character or string of characters.
  • Sample text can contain letters, symbols, or numbers in one or more languages.
  • Text field - means a data field in a document that contains alphanumeric characters.
  • Personal data any information relating to an individual identified or determined on the basis of such information (subject of personal data), including his last name, first name, patronymic, year, month, date and place of birth, address, family, social, property status , education, profession, income, e-mail, phone number, pseudonym, banking data, geolocation, navigation data, Cookies and other information.
  • Processing of personal data - actions (operations) with personal data including collection, systematization, accumulation, storage, clarification (updating, changing), use, distribution (including transfer), depersonalization, blocking, destruction of personal data.
  • Violator of the security of personal data an individual (user) who accidentally or intentionally performs actions that result in a violation of the security of personal data when they are processed by technical means in personal data information systems.
  • the present invention serves to check the document for its compliance with the established requirements for the processing of personal data with the possibility of subsequent changes to the text of the document in order to eliminate the errors (shortcomings) found.
  • Document verification includes checking the document text using a neural network that is trained to search for errors in the document text related to the violation of certain personal data requirements.
  • Such requirements can be set on the basis of various legislative acts, for example, FZ-152 or GDPR.
  • the requirements can be established, for example, by the owner (user) of information (personal data) or by certain legislative acts or other legal documents in force in a certain territory, on the basis of which the above documents were formed.
  • the territory is understood as a state entity, for example, Russia, the USA, European countries.
  • documents are considered that are aimed at regulating the processing of personal data received and used on the sites.
  • documents may be documents that cover the processing of confidential data or any other data of value.
  • some documents may be pre-assigned a category that characterizes their belonging to certain types of documents. The category of the document may be specified, for example, by a personal data professional, a user, or a computer system.
  • the site may contain different types of documents. These documents may regulate various requirements of the legislation on the processing of personal data.
  • Examples of documents to be checked are the following documents: user agreement for the processing, storage or use of personal data, personal data processing policy, offer.
  • the present invention performs a series of steps that at least include part of the following: receive a task to check documents on a site, where the task contains a link indicating the location of the site in a computer network or the documents themselves; search for documents on the site that meet the requirements for its subsequent verification; transmitting at least one found document to a document parser; perform analysis of the document, during which it performs one of the following actions: convert the text of the document into the preferred form and/or divide into parts (for example, paragraphs); the converted text and/or each part of the text is presented in a vector form, which is passed to the input of a pre-trained neural network; receive at the output of the neural network information about the errors found related to the violation of the requirements for personal data; provide the results of checking the document to the user (operator) or back to the site, for example, in the form of an attached file containing information about errors. It is worth noting that an error related to a violation of the specified requirements for personal data in the text of the document may indicate:
  • the claimed invention additionally allows you to make changes (correct) to the text of the verified document in order to eliminate the violations (errors) found.
  • the part of the text of the document in which an error was found related to the violation of the requirements for personal data is replaced with the correct form of the text in the document.
  • pre-prepared text samples are used that eliminate these errors from the repository.
  • the repository contains samples of parts of the text for updating the specified documents, while the samples of parts of the test may be changed or replenished on a periodic basis. For example, when the legislation in the field of regulation of the processing of personal data was changed. After making the necessary changes to correct the text, the document is sent back to the site with an indication of the changes made.
  • the present invention allows automatic control for checked documents at sites, in particular, given sites.
  • a periodic check is made for the presence of changes in the document.
  • the text of the document is re-checked for errors related to the established requirements.
  • the frequency of the check is regulated and depends at least on such criteria as: the established time of the periodic check; the occurrence of an external event associated with the receipt of the scan task from the user; the occurrence of an external event related to the changes made to the established requirements for personal data.
  • the need to make changes to the established requirements for personal data may be associated with changes in legislation related to processing of personal data.
  • site control may include tracking new documents for further verification.
  • the claimed invention is implemented as a method using a server(s), such as a "cloud” server.
  • a “cloud” server is a set of servers for data processing, which can be geographically located at a great distance from each other and connected by a network, while providing remote access to interact with them from any device: PC, smartphone, tablet.
  • a cloud server is a data hosting technology with network access to computing resources.
  • the computing device may be a data processing device equipped with a general purpose processor, memory, and at least one communication interface.
  • Examples of a computing device include, but are not limited to, tablet computers, smartphones, laptop computers, or desktop computers.
  • An example of a computing device that can be used to implement the methods of the present invention is discussed in more detail below with reference to FIG. four.
  • machine learning methods namely, a neural network
  • the neural network was previously trained to analyze the relevant types of documents and the text in them.
  • the input of the neural network receives parts of the text or the entire text at once, which are previously converted into the required form.
  • the output from the neural network provides information about the errors found in the text of the document related to the violation of the requirements for the processing of personal data.
  • training or retraining of the neural network can also be performed.
  • the training of the neural network is carried out by approaches known from the prior art, while samples of documents of a certain direction are used as a training sample.
  • a neural network can be trained to find errors in certain kinds of documents. Retraining the neural network will allow the present invention to adapt on a regular basis to emerging new requirements for the processing of personal data.
  • a training sample of documents will also be used for retraining. It should be noted that the training set of documents is contained in the data warehouse. Thus, the quality of error detection in the text of documents will not fall when new requirements appear.
  • the training sample of documents includes documents that comply with Russian legislation on the processing of personal data and GDPR requirements.
  • the neural network is trained on a learning sample of documents containing known text.
  • the training set may contain sample documents containing one or more parts (paragraphs) of text as input for training.
  • the training sample contains one or more text part type identifiers that correctly match one or more text parts as the target result.
  • a piece of text can be, for example, the entire text of a document, a paragraph, a paragraph, one or more sentences. The use of a specific part of the text may depend on the type of error that you want to detect.
  • the neural network can build an observable result for all inputs for training.
  • the observed result of the neural network can be compared with the expected result of the work included in the training data sample, and the error can propagate back to the previous layers of the neural network, parameters which (weights and biases of neurons) can be regulated in a certain way.
  • neural network parameters can be adjusted to optimize prediction accuracy. After training, the neural network is used to automatically recognize parts of the text in the source document and determine the most likely result, namely, whether the analyzed part of the text contains an error associated with a violation of the requirements for the processing of personal data.
  • Using the described mechanisms for checking information in the document text can improve the quality of detection results by performing error detection in the document text using a trained neural network that stores information about the context of the entire document. Therefore, a neural network trained to take into account the context of the entire document may be able to more accurately detect errors in other parts of the text of the same document.
  • the neural network used in accordance with embodiments of the present invention can be used to identify documents of any type and can provide efficient detection of errors in text, thereby improving both the accuracy of the detection and the processing speed of the computing device implementing such detection.
  • FIG. 1 shows a block diagram of an example of a system for checking the text of electronic documents for compliance with the requirements for personal data on the sites of a computer network 100 (hereinafter referred to as the document verification system 100).
  • document verification system 100 includes tools such as a site crawler 110 and at least one document analysis tool 120.
  • these tools 110 and 120 are implemented on separate computing devices, in particular servers connected to the network 180. In this case, connections are established between the servers for data exchange, in particular for transferring documents.
  • the server on which the tool 110 is implemented is connected to a network 180 through which it is possible to communicate with sites on the network.
  • Network 180 may be a public network (eg, the Internet), a private network (eg, a local area network (LAN) or a wide area network (WAN)), or a combination thereof. Interaction between servers and with sites can be carried out using the API ().
  • document verification system 100 includes a corrector 170, which can be implemented both on a separate server and in conjunction with tools 110 and 120, for example, together with tool 120.
  • the site scanning tool 110 is designed to search the sites for documents related to the processing of personal data, and then transfer them to at least one document analysis tool 120.
  • the site scanning tool 110 has the ability to form a queue of sites and their pages for subsequent search for documents posted on sites . After the site enters the queue, the first page of the site is scanned. Found links on the first page of the site are also added to the crawl queue. In one implementation, the queue contains links (location address) to sites and pages.
  • the site crawler 110 processes the html code of each page in order to identify links to files that correspond to the documents being searched. When finding the necessary document, it is downloaded for transmission to the document analysis tool 120. The document is downloaded, for example, according to the link to the page with the document.
  • site crawler 110 can scan multiple sites either simultaneously or sequentially. Site scanning options depend on the technical capabilities of the tool 110.
  • the document analysis tool 120 is designed to determine the presence or absence of an error in the text of the document related to the violation of the requirement for the processing of personal data.
  • the document parsing tool 120 includes a document text conversion tool 130, a data vectorization tool 140, a tool containing at least one neural network 150 (hereinafter referred to as the neural network tool 150), and a storage 160.
  • the document text conversion tool 130 (hereinafter referred to as the conversion tool 130) is designed to extract text from a document and convert it into the required form for further analysis. Since the documents have different formats, such as doc, pdf, jpg and others, the conversion tool 130 analyzes the received document, during which it determines the type of document and performs actions to convert it. For example, if the document format is not a text format but an image, then the conversion engine 130 may use any suitable optical character recognition (OCR) method to recognize the text in the document.
  • OCR optical character recognition
  • the conversion engine 130 converts the recognized text, i.e. simplifies the text.
  • transform engine 130 uses at least one of tokenization, normalization, lemmatization, stemming, and stopword filtering.
  • the simplification of the text by the transformation tool 130 may not be performed. In this case, analysis of the text in the future may take more time, but this will leave more features in the text.
  • Tokenization is the division of text into tokens. Tokens can be paragraphs, sentences, phrases, single letters, a sequence of letters, or a combination of letters, but usually single words become tokens.
  • Normalization bringing the text to a single format.
  • the text can be reduced to one case, the numbers should be written in words 1 - one.
  • Abbreviation conversion is also possible, such as "min.” - "minute”.
  • Lemmatization is the reduction of words to one grammatical form, in other words, obtaining a lemma.
  • the words “Order”, “order”, “order” are forms of the word “order”. So the transformation of words can look like this: for a noun, words get a lemma by reducing the word to the nominative case, singular; for the verb lead to the infinitive; adjectives and numerals lead to the nominative case, masculine, singular.
  • Stop words there are many words in regular text that can be removed from the text without losing their meaning. Usually these are articles, interjections, conjunctions. By checking the document, stop words can be removed from the text of the document.
  • the optimal selection of methods for simplifying the text of a document for each implementation of the invention is carried out empirically, while taking into account their influence on the accuracy of predicting the presence of an error associated with a violation of personal data legislation.
  • the choice of one or another technique in the implementation of the invention may depend on the language of the text that is presented in the document. So, for example, for English and Russian languages, all methods of text simplification will be used, and for Japanese and Chinese, only a part of them.
  • the conversion engine 130 evaluates the text size of the document after the text recognition, based on which it determines whether the text should be divided into parts, such as paragraphs, paragraphs, or pages. This allows you not to reduce the level of error prediction in the future. So, documents can contain from 1 to 30 pages.
  • the converter 130 divides the text of the document into parts depending on the size of the document and provides the data vectorizer 140 for each part separately.
  • the conversion tool 130 divides the text of the document into paragraphs, since such a division allows the most optimal future changes in the text of the document to eliminate the error found.
  • FIG. 5A - 5D An example of the operation of the conversion tool 130 is shown in FIG. 5A - 5D. So, in Fig. 5A, the police.txt file was read.
  • Figure 5B shows the result of obtaining word tokens, for example, using the NLTK library (from the Natural Language Toolkit).
  • FIG. 5B shows the result of lemmatization using the "pymysteam3" morphology analyzer.
  • FIG. 5D shows the result of stopword conversion and further cleaning.
  • the data vectorizer 140 is designed to convert the received text (parts of text) from the converter 130 into a vector rendering, i.e. form a vector for the entire text or each part of it.
  • the data vectorizer 140 uses a "bag of words” approach. This approach is based on the fact that all words from the received text are added to the "bag”, which is used as a dictionary, which is implemented as a database. If the word occurs several times in the text, then the word is added only once. As a result, for each word we get a serial number in the bag.
  • data vectorizer 140 uses one of Skleam's CountVectorizer, pytorch, and fasttext methods to create a bag of words.
  • data vectorizer 140 uses an n-gram (n-word phrase) approach.
  • the length of the n-gram is selected empirically to ensure the required prediction accuracy.
  • the length of the p-gram can be from 3 to 10 words or more, while meeting the requirement for accuracy in predicting violations in the text of the document.
  • the data vectorizer 140 uses vector semantic models based on artificial neural networks to vectorize words from text, such as a technology called "Word2Vec" or a technology called "fasttext”. At the same time, these models were preliminary trained on examples of documents.
  • data vectorizer 140 generates a vector for portions of text, such as a paragraph, paragraph, or two or more paragraphs.
  • the tool 140 uses in its work methods using a neural network with hidden layers, similar to the "Doc2Vec" method.
  • the data vectorizer 140 for vectorizing the text of a document may use several of the implementations presented previously. For example, one approach is used to form parts of the text, and another approach is used to form vectors for words and phrases. This way a vector for each individual word can be obtained using the Word2Vec based approach. A vector for a sentence, paragraph or entire text can be obtained using the Doc2Vec based approach.
  • the data vectorization engine 140 After converting the received text of the document into a vector form, the data vectorization engine 140 transmits the data to the neural network engine
  • the neural network tool 150 is designed to identify errors in the received text of the document related to the violation of the requirements for personal data.
  • Neural network engine 150 uses a set of machine learning models that contains at least one neural network.
  • the input of the specified neural network is provided with data in the form of at least one vector representation (vector) of text analyzed document.
  • the number of vectors depends on the respective text transformation by the data vectorizer 140.
  • the neural network tool 150 may contain both one neural network, which will be a universal model for detecting all types of errors (violations), and for each type of error (violation) will have a separate neural network for its detection.
  • the neural network engine 150 contains multiple neural networks, the inputs (vectors) are passed from one neural network to another or in parallel to each.
  • recurrent neural networks from the English recurrent neural network
  • neural networks with long-term and short-term memory from the English. Long short-term memory, LSTM
  • a controlled recurrent block from the English. Gated Recurrent Units, GRU.
  • the neural network engine 150 provides the result of the analysis of the obtained vectors. If at least one error is detected, the result contains information about the corresponding error and about the part of the document text in which the error was found. Informing about an error in the text can be represented as a flag that takes the value 0 or 1. If the value of the flag is 0 (zero), then an error has been detected indicating a certain violation of personal data legislation. If 1 (one), then there is no error, no violation was detected. This approach is used when analyzing parts of the text, when it is necessary to understand in which part of the text an error was found.
  • the neural network engine 150 determines which error has been detected. For this, error codes are used.
  • the table contains examples of error codes that may occur when analyzing the text of a document using a neural network.
  • the neural network tool 150 stores the results of the analysis of the document in the storage 160, in particular information about the errors found, and / or transmits information about errors to the site from which the document was received through the site scanning tool 110.
  • Storage 160 may be a read-only memory capable of storing electronic documents as well as data structures for performing text verification of documents in accordance with embodiments of the present invention.
  • the repository 160 also contains sample documents 163 designed to train at least one neural network of the neural network 150, samples (templates) of parts of the text 167 that allow you to eliminate errors associated with violation of personal data requirements.
  • Storage 160 may interact with any of the above means to accomplish their purpose.
  • Storage 160 may be located on one or more storage devices, such as main storage, magnetic or optical storage devices based on disks, tapes or solid state drives, NAS, SAN, etc. Although the storage is shown in FIG. 1 together with document parser 120 and hosted on the same server, in one implementation of the invention, storage 120 may be hosted separately.
  • storage 160 may be a file server connected to network 180, while in other embodiments, storage 160 may be some other type of non-volatile storage device, such as an object-oriented database, a relational database. etc., which may reside on a server connected to the network 180.
  • the document analyzer 120 informs the correction engine 170 of the errors found, for example, using the neural network engine 150. Informing consists either in providing directly information about the errors found, or transferring information about its location in the storage 160.
  • the corrector 170 is designed to make changes to the text of the document to eliminate at least one found error related to the violation of the requirements for the processing of personal data in the document being checked. To do this, the corrector 170 replaces the part of the text of the document in which the error was found, using the sample parts of the text 167 stored in the store 160. The corrector 170, according to the error found, searches in storage of the required sample of a part of the text 167 and replaces the text containing the error with the corresponding sample 167.
  • corrector 170 may additionally take into account the type of document (eg, agreement, policies) and the nature of the error when selecting the appropriate template 170 .
  • patterns 167 will also correspond to different types of documents and errors.
  • corrector 170 can contact external sources of information, such as official websites or databases of legislative documents, which contain the necessary information about compliance with personal data requirements. The facility 170 will then obtain the required sample 167 and perform the replacement.
  • the corrector 170 will transmit the modified document (document 2 in Fig. 1) to the site from which it was obtained through the document parser 120 and/or the site crawler 110.
  • the document verification system 100 further has the ability to monitor previously verified documents for their relevance.
  • FIG. 2 is a flowchart illustrating a method for checking a document for errors related to violation of the requirements of the legislation on personal data. This method is implemented by at least the document verification system 100.
  • the method for checking a document includes at least a method for scanning a site and a method for detecting an error in the text of a document related to a violation of personal data requirements.
  • the task of checking at least one document for a specific site contains at least a link to the site where the documents are to be checked. Additionally, the task may contain links directly to documents posted on the site. In the event that only a link to the site was received, each page of the site is scanned starting from the main page to search for documents regulating interaction with the user in the field of personal data processing.
  • At step 210 at least one found document is received by the document analyzer 120 from the site crawler 110 to detect errors.
  • a preliminary evaluation of the received document is carried out.
  • the preliminary assessment includes determining the format of the document (eg docx, pdf) and the size of the document, on the basis of which a decision is made to further divide it into parts, for example, paragraphs.
  • the format of a document related to non-text formats the document is converted from a specific format to a text format.
  • the document text converter 130 converts the text of the document into a specific form in order to simplify the text for analysis.
  • Document text transformation includes at least one of the following techniques: tokenization, normalization, lemmatization, stemming, and stopword filtering. In other embodiments of the invention, this step may be skipped. In this case, all text will be transmitted in a "raw" form. In some cases, this will allow you to get more signs.
  • the document text vectorizer 140 generates a vector representation of each portion of the document text. It should be noted that a part of a document can also mean the entire document.
  • the text of the document is analyzed using a tool for determining the error in the text 150 using a set of machine learning models, for example, a neural network. The analysis includes the submission of the generated vectors of text parts to the input of the neural network and the receipt of information from the neural network about the presence or absence of an error in each part of the text of the document associated with a violation of the requirements for personal data.
  • step 260 if at least one error was determined at step 260, then go to step 270, while additionally, in addition to information about the detection of an error, the information may contain information about the type of error. Otherwise, if no error was found, proceed to step 295, which provides a report on the correctness of the text of the document back to the site.
  • a report is generated that is sent back to the site from which the document was received, and the method for detecting an error in the text of the document ends. Additionally, the user can be informed by means of a communication device, such as a video monitor.
  • the report also contains information that no errors were found in the text of the document, or information about the errors found and parts of the text in which they were found.
  • step 270 the possibility of making changes to the text of the document where the error was determined is determined.
  • using the correction tool 170 searches for samples of parts of the text 167 in the store 160 according to information about the detected error.
  • step 280 when the required sample 167 is found, changes are made to the text of the document, which is then transmitted back to the site at step 290 in the form of document 2 (in Fig. 1).
  • FIG. 3 shows a way to control the actual information in the text of the document related to the processing of personal data.
  • This method allows you to regularly scan documents on sites to determine if there are any changes in documents, in particular in previously checked documents for errors related to violation of personal data requirements.
  • the method can be implemented using the site scanning tool 110, which in turn is implemented using a server.
  • the method includes at least the steps below.
  • At step 310 at least one site and/or at least one document is determined that requires monitoring the relevance of information in it.
  • links can be obtained that point to the location of a site on the network or a document on the site. From the received links, it forms a queue of periodic checks, according to which documents are monitored. The frequency of the check can be set or determined by the check criteria.
  • a periodic check is made for the presence of a change in the document from the generated queue according to the check criteria.
  • Change checking involves checking for changes to the document's metadata (such as the date and time the document was saved).
  • the verification criteria may consist in setting the time for the frequency of verification, which can be set both by obtaining information from the user (operator), and will depend on the emergence of new requirements for the processing of personal data.
  • different document metadata can be parsed.
  • the presence of a change in the date the document was saved on the site that is different from the date of the previous check is the basis for checking for errors in the text of the document.
  • the absence of a change in the date of the last change in the document on the site is the basis for checking for errors in the text of the document.
  • the document is submitted for error checking related to violation of personal data requirements to the document analysis engine 120 when determining whether there is a change in the document or if the date of the last change check is earlier than the date of receipt of new requirements for the processing of personal data.
  • the document is rechecked for errors according to the method of checking a document for errors related to violation of the requirements of the legislation on personal data, presented in the description of FIG. 2.
  • FIG. 4 shows an example of a computing system 400 on which the claimed invention may be implemented.
  • Computing system 400 may perform one or more of the methods described herein in accordance with one or more embodiments of the present invention.
  • computing system 400 may correspond to a computing device capable of performing the document verification system 100 shown in FIG. 1.
  • the computing system may correspond to a computing device capable of performing one of the means: a scanning tool sites 110 and document parser 120 shown in FIG. 1.
  • This computing system can be connected (for example, via a network) to other computing systems in a local area network or the Internet.
  • This computing system can act as a server in a client-server network environment.
  • This computing system may be a personal computer (PC), tablet computer, set-top box (STB), personal digital assistant (PDA), mobile phone, or any device capable of executing a set of commands (sequentially or otherwise) that is determined by the actions of this device.
  • PC personal computer
  • PDA personal digital assistant
  • STB set-top box
  • PDA personal digital assistant
  • mobile phone or any device capable of executing a set of commands (sequentially or otherwise) that is determined by the actions of this device.
  • computer also includes any set of computers that individually or collectively execute a set of instructions (or multiple sets of instructions) to implement any or more of the methods described herein.
  • An exemplary computing system 400 includes a processing device 405, main storage 405 (e.g., read only memory (ROM), flash memory, dynamic RAM (DRAM) such as synchronous DRAM (SDRAM)), static memory 405 (e.g., flash -memory, static random access memory (RAM), and storage device 440 that communicate with each other over a bus 420.
  • main storage 405 e.g., read only memory (ROM), flash memory, dynamic RAM (DRAM) such as synchronous DRAM (SDRAM)
  • static memory 405 e.g., flash -memory, static random access memory (RAM)
  • storage device 440 that communicate with each other over a bus 420.
  • the processing device 405 is one or more general purpose processing devices such as a microprocessor, a central processing unit, or the like.
  • processor 405 may be a full instruction set (CISC) microprocessor, a reduced instruction set (RISC) microprocessor, a very long instruction word (VLIW) microprocessor, or a processor that implements other instruction sets, or processors that implemented a combination of command sets.
  • processor 405 may also be one or more special purpose processing devices such as application specific integrated circuit (ASIC), field programmable gate array (FPGA), digital signal processor (DSP), network processor, etc.
  • ASIC application specific integrated circuit
  • FPGA field programmable gate array
  • DSP digital signal processor
  • network processor etc.
  • Processing device 405 is configured to execute instructions in order to perform the operations and steps discussed in this document.
  • Computing system 400 may further include a network interface device 450.
  • Computing system 400 may also include a video monitor 425 (e.g., a liquid crystal display (LCD) or cathode ray tube (CRT)), an alphanumeric input device 430 (e.g., a keyboard), a cursor control device 435 (for example, a mouse) and a signaling device 445 (for example, a speaker).
  • video monitor 425 e.g., a liquid crystal display (LCD) or cathode ray tube (CRT)
  • an alphanumeric input device 430 e.g., a keyboard
  • a cursor control device 435 for example, a mouse
  • signaling device 445 for example, a speaker
  • video display 425, alphanumeric input device 430, and cursor control device 435 may be combined into a single component or device (eg, a touch sensitive liquid crystal display).
  • Memory 440 may include a computer-readable medium 455 that stores instructions 460 (eg, document parser 120 or site crawler 110) that implement one or more of the methodologies or functions described herein. Instructions 460 may also reside wholly or at least partially in main storage 410 and/or processor 405 during execution by computer system 400, main storage 410, and processor 405 also comprising a computer-readable storage medium. Commands 460 may optionally be transmitted or received over network 180.
  • instructions 460 eg, document parser 120 or site crawler 110
  • Instructions 460 may also reside wholly or at least partially in main storage 410 and/or processor 405 during execution by computer system 400, main storage 410, and processor 405 also comprising a computer-readable storage medium. Commands 460 may optionally be transmitted or received over network 180.
  • the term "machine-readable storage medium” should be understood as a single a medium, and as several such media (eg, a centralized or distributed database and/or associated caches and servers) that store one or more instruction sets.
  • the term "computer-readable storage medium” can also include any medium that can store, encode, or contain a set of instructions for execution by a machine and that enables the machine to execute any one or more of the approaches of the present invention. Accordingly, the term “computer-readable storage medium” should be understood to include, inter alia, solid-state memory devices, optical and magnetic media.
  • Embodiments of the present invention may be in the form of at least one computing program product or program that may include a computer-readable storage medium with instructions stored thereon that can be used to program a computing system (or other electronic devices) to carry out a process in accordance with with the essence of the invention.
  • a computer-readable storage medium includes mechanisms for storing or transmitting information in a computer-readable form (eg, by a computer).
  • a computer-readable (computer-readable) storage medium comprises a computer-readable (e.g., computer-readable) storage medium (e.g., read only memory (ROM), random access memory (RAM), magnetic disk drive, optical media drive, flash memory devices, and etc.), etc.
  • commands or sub-operations of various operations may be performed intermittently and/or alternately.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

Настоящее изобретение в целом относится к вычислительным системам, а точнее к системам и способам проверки текста документа. Настоящее изобретение служит для проверки документа на его соответствие установленным требованиям обработки персональных данных с возможностью последующего внесения изменений в текст документа с целью устранения найденных ошибок (недостатков). Техническим результатом является обеспечение возможности проверки текста в документе с целью выявления ошибки, связанной с нарушением или не соответствием с заданными требованием. Проверка документа включает проверку текста документа при помощи нейронных сетей, которые обучены для поиска в тексте документа ошибок, связанных с нарушением определенных требований о персональных данных. При этом предварительно документ будет преобразован в определенный вид для его передачи в нейронную сеть.

Description

ПРОВЕРКА ДОКУМЕНТА НА СООТВЕТСТВИЕ ТРЕБОВАНИЯМ О ПЕРСОНАЛЬНЫХ ДАННЫХ
Область техники
Настоящее изобретение в общем относится к вычислительным средствам для обработки электронных документов, а более конкретно, к системам и способам проверки текста в электронных документах на наличие ошибок, связанных с нарушением требований законодательства о персональных данных, при помощи нейронных сетей.
Предшествующий уровень техники
В настоящее время действия, связанные с управлением и контролем собираемой и обрабатываемой информацией пользователей, регулируется и на законодательном уровне различных государств, в частности Российской Федерации (РФ), США, Канады и стран Евросоюза. Например, в РФ - федеральным законом N2152-F3 «О персональных данных», в странах Евросоюза — это актом о защите персональных данных (англ. General Data Protection Regulation, GDPR), и в Канаде - актом «Canadian Personal Information Protection and Electronic Documents Act (PIPEDA)». Законы о персональных данных накладывают ряд стандартов и требований на веб- ресурсы (сайты), которые производят обработку, в том числе сбор и использование, личных данных пользователей, а также данных о пользователях. Примерами таких требований являются требования по обеспечению конфиденциальности, информировании пользователя о сборе его личных данных, получение явного согласия (разрешения) пользователя на дальнейшее использование его личных данных и другие.
В тоже время выполнения требований законодательства в области персональных данных и организация надлежащей защиты персональных данных находятся на крайне низком уровне. Одной из причин роста числа нарушений и связанных с ними утечек персональных данных является невыполнение требований законодательства значительным числом как предприятий, в частности связанных с малым или средним бизнеса, так и частных лиц.
В настоящее время для выполнения требований о персональных данных создаются определённые электронные документы, которые описывают взаимодействие и регулирование в области использования и обработки персональных данных пользователей. Примерами таких документов являются пользовательское соглашение, политика обработки персональных данных и договор оферты.
В тоже время при подготовке подобных документов возможно образование в тексте ошибок, связанных с выполнением требований законодательства о персональных данных, или не корректное формулирование положений об обработке персональных данных. Другими словами, документ будет содержать текст, который не соответствует требованиям о персональных данных или даже нарушает их. На данный момент качество такого созданного документа может проверить только пользователь, специализирующийся на работе с персональными данными, т.е. имеющий специальные знания. В тоже время и ему потребуется время на проверку такого документа и приведения его в соответствие, в случае выявления нарушения, связанного с требованиями о персональных данных. Особенно если документ содержит большое количество страниц или если документов несколько.
Поэтому требуются подходы позволяющие провести проверку таких сложных и специализированных документов на различных сайтах и в случае выявления каких-либо ошибок, связанных с нарушением каких-либо требований о персональных данных, устранить их за счет корректировки текста документа. Раскрытие изобретения
Настоящее изобретение позволяет произвести проверку текста в электронном документе на наличие ошибок, связанных с нарушением требований о персональных данных, с использованием нейронных сетей. После чего настоящее изобретение позволяет произвести устранение обнаруженных ошибок путем внесения необходимых изменений в текст документа.
Один технический результат заключается в повышении эффективности обнаружения ошибок, связанных с требования о персональных данных, в тексте документа с помощью нейронной сети. Под нейронной сетью может пониматься набор моделей машинного обучения, позволяющих произвести анализ текста документа с вынесением решения о наличие или отсутствии ошибок, указывающих на нарушение упомянутых требований.
Другой технический результат заключается в повышении качества созданных документов, регулирующих взаимоотношения с пользователем в соответствии с требованиями о персональных данных, за счет обнаружения ошибок в тексте документа посредством средства, включающего нейронную сеть, и последующем устранении обнаруженных ошибок путем внесения в часть текста необходимых изменений.
В одном из вариантов реализации предлагаемое изобретение представлено в виде системы проверки документов, состоящая из нескольких частей. Одним из элементов указанной системы является средство сканирование сайтов, предназначенное для обнаружения и получения с сайтов файлов, которые соответствуют документам о персональных данных. Еще одним элементом указанной системы является по меньшей мере одно средство анализа документов, предназначенное для анализа полученного документа, во время которого преобразуется текст документа в требуемый вид и формируется векторное представление по крайней мере одной части текста документа, и вынесения решения о наличие ошибки, связанной с нарушением требований о персональных данных. Средства системы могут быть реализованы как совместно на одной компьютерной системе, например, сервере, так и быть распределены между разными компьютерными системами, например, каждое средство на отдельном сервере. При реализации на разных серверах серверы объединены в единую сеть. Разделение средств между серверами позволяет оптимизировать нагрузку.
Средство анализ документов по крайней мере включает в себя средство подготовки документов, средство векторизации текста документа и средство определение в тексте ошибки, включающий нейронную сеть. Также средство анализа документов включает хранилище, которое содержит требуемую информацию, в частности обучающую выборку документов (образцы документов) для обучения или переобучения нейронной сети средства определения в тексте ошибки, и образцы частей текста, которые содержат текст удовлетворяющий требования о персональных данных и позволяющие заменить по крайней мере часть текста в документах, в которых была обнаружена ошибка, связанная с нарушением требований о персональных данных.
В одном из вариантов реализации изобретения для взаимодействия между средствами системы и с сайтами, на которых хранятся документы, используется API.
В одном из вариантов реализации изобретения входящей информацией является сообщение, содержащее ссылку на сайт или непосредственно на документ, требующий проверки. Далее документ скачивается и преобразуется по крайней мере из форматов «docx» или «pdf» в обычный текст. Стоит отметить, что для конвертации «pdf» используется, например, библиотека Apache Tika. Средство анализа документов последовательно передает документ между средствами и на выходе из нейронной сети получает ответ какие ошибки, связанные с нарушениями, удалось обнаружить. Выявленные ошибки предоставляют на сайт или же вносятся изменения в текст документа для устранения найденных ошибок. Для внесения в текст изменений может быть произведен предварительный анализ по определения непосредственного место размещения в тексте найденной ошибки. После устранения найденных ошибок документ возвращается на сайт.
Варианты реализации настоящего изобретения описывают механизмы проверки текста документа, регулирующего использование и обработку персональных данных с пользователем, при его взаимодействии с сайтом. Проверка осуществляется в соответствии с требованиями о персональных данных.
В качестве одного варианта исполнения предлагается способ проверки документов на соответствие требованиям о персональных данных, реализуемый по крайней мере с помощью одного сервера, и включающий: проводят сканирование сайта, во время которого выявляют документ, относящийся к обработке персональных данных; проводят преобразование текста выявленного документа в требуемый вид, при этом преобразование проводят согласно типу документа; проводят преобразование текста, полученного на шаге ранее в векторное представление, где векторное представление содержит по меньшей мере один вектор, сформированный на основании текста документа; передают каждый сформированный вектор в качестве исходных данных набору обученных моделей машинного обучения, где обученный набор содержит по крайней мере одну нейронную сеть, выходной слой которой предсказывает наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; получают в качестве выходных данных от набора обученных моделей машинного обучения информацию о наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; в случае получении информации о наличие в тексте документа ошибки вносят изменения в текст документа, которое устраняет найденную ошибку и передают документ обратно на сайт.
В другом варианте исполнения способа при преобразовании текста документа используется по крайней мере один из приемов: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп - слова.
В еще одном варианте исполнения способа формируют векторное представление полученного текста используя векторно-семантические модели на основании искусственных нейронных сетей.
В другом варианте исполнения способа набор обученных моделей машинного обучения, содержит количество нейронный сетей равное количеству выявляемых ошибок, где последовательно или параллельно передают исходные данные каждой нейронной сети.
В еще одном варианте исполнения способа после преобразования текста проводят оценку размера текста документа на основании которой определяют необходимость разделения текста на части, где частью текста является параграф, абзац или страница.
В другом варианте исполнения способа на выходе из нейронной сети информация дополнительно содержит сведения о части текста, в которой найдена ошибка, и о нарушении, которому соответствует выявленная ошибка.
В качестве другого варианта исполнения предлагается сервер для проверки документов на соответствие требованиям о персональных данных, включающий в себя процессор, в котором конфигурация процессора настроена таким образом, чтобы сервер мог осуществлять указанные ранее способ. Краткое описание чертежей
Прилагаемые чертежи включены в данное описание и составляют его часть, иллюстрируют один или несколько вариантов осуществления предметов заявленной технологии вместе с подробным описанием и служат для пояснения принципов и вариантов осуществления заявленной технологии.
На Фиг. 1 представлена система проверки текста документа на соответствие требованиям законодательства о персональных данных на сайтах.
На Фиг. 2 представлен способ проверки текста документа на наличие ошибок, связанных с нарушением требований законодательства о персональных данных.
На Фиг. 3 представлен способ контроля актуальных сведений в тексте документа, связанном с обработкой персональных данных
На Фиг. 4 представлен пример компьютерной системы, на которой может быть реализовано заявленное изобретение.
На Фиг. 5А - 5Г представлены примеры результатов работы средства преобразования.
На Фиг. 6 представлен пример результата проверки наличия в тексте документа ошибок, указывающих на нарушение требований о персональных данных.
Варианты осуществления изобретения
Данное подробное описание предназначено только для описания наглядных примеров данной технологии. Это описание не предназначается для определения объема и установления границ данной технологии. В некоторых случаях могут быть изложены полезные примеры изменений в целях упрощения понимания данной технологии, а не для определения объема или установления границ данной технологии. Эти изменения не представляют собой исчерпывающий перечень, и, как будет понятно специалистам в данной области техники, также возможно внесение других изменений. Кроме того, невыполнение вышеуказанного (т.е. там, где примеры изменений не были изложены), не следует толковать как невозможность внесения изменений и/или как то, что описанное является единственным способом реализации такого конкретного аспекта данной технологии. Как будет понятно специалисту в данной области техники, вероятнее всего это не является рассматриваемым случаем. Кроме того, необходимо понимать, что данное подробное описание предоставляет собой в некоторых случаях простую реализацию данной технологии и в таких случаях описания предоставляются в качестве вспомогательного средства для упрощения понимания. Как будет понятно специалистам в данной области техники, различные способы реализации данной технологии могут быть более сложными.
Слова, употребленные в единственном числе, обозначают один или более объектов, если не указано другое.
При описании настоящего изобретения используются, по меньшей мере, следующие термины:
Сайт - информационная система, представляющая собой веб-ресурс, размещенные на хостинге провайдера, и содержащий различные элементы. При этом информационная система может принадлежать как организации (юридическому лицу), так и другому пользователю (физическому лицу).
Электронный (или машиночитаемый) документ (далее - документ) - любой компьютерный файл, содержащий графическую и/или текстовую информацию. Такой файл может иметь графический формат данных (JPEG, PNG, DjVu, TIFF и др.) или формат электронных документов (PDF, DOC, DOCX и др.). В предпочтительном варианте такой документ представляет собой юридический документ, направленный на регулирование в области обработки персональных данных. В тоже время это может быть любой другой документ, например, документ, который создается путем заполнения полей текстовыми символами (например, словами, цифрами) или изображениями.
Текст - означает один символ или строку символов. Примеры текста могут содержать буквы, символы или цифры на одном или нескольких языках.
Текстовое поле - означает поле данных в документе, которое содержит буквенно-цифровые символы.
Персональные данные - любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу (субъекту персональных данных), в том числе его фамилия, имя, отчество, год, месяц, дата и место рождения, адрес, семейное, социальное, имущественное положение, образование, профессия, доходы, e-mail, номер телефона, псевдоним, банковские данные, геолокация, данные навигации, Cookies и другая информация.
Обработка персональных данных - действия (операции) с персональными данными, включая сбор, систематизацию, накопление, хранение, уточнение (обновление, изменение), использование, распространение (в том числе передачу), обезличивание, блокирование, уничтожение персональных данных.
Использование персональных данных - действия (операции) с персональными данными, совершаемые оператором (пользователем) в целях принятия решений или совершения иных действий, порождающих юридические последствия в отношении субъекта персональных данных или других лиц либо иным образом затрагивающих права и свободы субъекта персональных данных или других лиц.
Нарушитель безопасности персональных данных - физическое лицо (пользователь), случайно или преднамеренно совершающее действия, следствием которых является нарушение безопасности персональных данных при их обработке техническими средствами в информационных системах персональных данных.
Настоящее изобретение служит для проверки документа на его соответствие установленным требованиям об обработке персональных данных с возможностью последующего внесения изменений в текст документа с целью устранения найденных ошибок (недостатков). Проверка документа включает проверку текста документа при помощи нейронной сети, которая обучена для поиска в тексте документа ошибок, связанных с нарушением определенных требований о персональных данных. Такие требования могут быть заданы на основании различных законодательных актов, например, ФЗ-152 или GDPR. При этом требования могут быть установлены, например, собственником (пользователем) информации (персональных данных) или определенными законодательными актами или другими правовыми документами, действующими на определенной территории, на основании которых были сформированы указанные выше документы. Под территорией понимается государственный субъект, например, Россия, США, страны Европы.
В предпочтительном варианте реализации рассматриваются документы, которые направлены на регулирование обработки персональных данных, получаемых и используемых на сайтах. Также такими документами могут являться документы, которые охватывают обработку конфиденциальных данных или любых других данных, представляющих ценность. В рамках реализации заявленного изобретения некоторым документам может быть заранее задана категория, характеризующая их принадлежность к определенным типам документов. Категория документа может быть задана, например, специалистом по персональным данным, пользователем или компьютерной системой.
Стоит отметить, что в зависимости от размещения сервера, на котором работает сайт, или территории, на которое работает сайт, или языка, который используется на сайте, сайт может содержать различные виды документов. Эти документы могут регулировать различные требования законодательства об обработки персональных данных.
Примерами проверяемых документов являются следующие документы: пользовательское соглашение на обработку, хранение или использование персональных данных, политика обработки персональных данных, оферта.
Для выполнения своего предназначения представленное изобретение осуществляет ряд шагов, которые по крайней мере включают часть из следующих: получают задание на проверку документов на сайте, где задание содержит ссылку, указывающую на месторасположение сайта в компьютерной сети или самих документов; производят поиск документов на сайте, удовлетворяющих требованиям для последующей его проверки; передают по крайней мере один найденный документ средству анализа документов; производят анализ документа, во время которого выполняет одно из следующих действий: преобразуют текст документа в предпочтительный вид и/или разделяют на части (например, абзацы); преобразованный текст и/или каждую часть текста представляют в вектором виде, который передают на вход предварительно обученной нейронной сети; получают на выходе из нейронной сети информацию о найденных ошибках, связанных с нарушением требований о персональных данных; предоставляют результаты проверки документа пользователю (оператору) или обратно на сайт, например, в виде прикрепленного файла, содержащего информацию об ошибках. Стоит отметить, что ошибка, связанная с нарушением в тексте документа заданных требований о персональных данных, может указывать на:
• отсутствие в тексте документа необходимой информации,
• содержание неоднозначной трактовки в тексте документа,
• содержание лишней информации в тексте документа. Заявленное изобретение дополнительно позволяет вносить изменения (корректировать) в текст проверенного документа с целью устранения найденных нарушений (ошибок). В этом случае производится замена части текста документа, в которой найдена ошибка, связанная с нарушением требований о персональных данных, на корректную форму текста в документе. Для этого используются заранее подготовленные образцы текста, устраняющие указанные ошибки, из хранилища. Хранилище содержит образцы частей текста для корректировки указанных документов, при этом образцы частей теста могут изменяться или пополняться на периодической основе. Например, когда было изменено законодательства в области регулирования обработки персональных данных. После внесения необходимых изменений по корректировки текста документ передается обратно на сайт с указанием на внесенные изменения.
Стоит отметить термин «нарушение» и термин «ошибка» в рамках данного описания являются эквивалентными, если не указано иное.
В еще одном варианте реализации настоящее изобретение позволяет проводить автоматический контроль для проверенных документов на сайтах, в частности, заданных сайтах. При контроле производится периодическая проверка на наличие изменения в документе. При изменении документа производится повторная проверка текста документа на наличие ошибок, связанных с установленными требованиями. Периодичность проверки регулируется и зависит по крайней мере от таких критериев как: установленного время периодической проверки; наступления внешнего события, связанного с получением задачи проверки от пользователя; наступления внешнего события, связанного с внесенными изменениями в установленные требования о персональных данных. Также необходимость внесения изменений в установленные требования о персональных данных может быть связана с изменениями в законодательстве, связанном с обработкой персональных данных. Также контроль сайта может включать отслеживание новых документов для дальнейшей проверки.
В одном из вариантов реализации заявленное изобретение в виде способа реализуется при помощи сервера (ов), например, «облачного» сервера. Под «облачным» сервером понимается комплекс серверов для обработки данных, при этом могут быть географически расположены на большом расстоянии друг от друга и объединены сетью, при этом предоставляют удаленный доступ для взаимодействия с ними с любого устройства: ПК, смартфона, планшета. Облачный сервер - это технология размещения данных с сетевым доступом к вычислительным ресурсам.
В другом варианте реализации заявленного изобретения может быть использовано другое вычислительное устройство. Вычислительное устройство может являться устройством обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. К примерам вычислительного устройства относятся, помимо прочего, планшетные компьютеры, смартфоны, портативные компьютеры или настольные компьютеры. Пример вычислительного устройства, которое может использоваться для реализации способов настоящего изобретения, более подробно рассматривается ниже, со ссылкой на Фиг. 4.
Стоит отметить, что для обнаружения в тексте документа ошибок, связанных с нарушением требований о персональных данных, используется методы машинного обучения, а именно, нейронная сеть. Нейронная сеть предварительно была обучена для анализа соответствующих видов документов и текста в них. На вход нейронной сети поступают части текста или сразу весь текст, которые предварительно преобразованы в необходимый вид. После анализа на выходе из нейронной сети предоставляется информация о найденных в тексте документа ошибках, связанных с нарушением требований об обработке персональных данных. Кроме того, в рамках настоящего изобретения также может быть произведено и обучение или переобучение нейронной сети. Обучение нейронной сети производится известными из уровня техники подходами, при этом используется в качестве обучающей выборки образцы документов определенной направленности. Другими словами, нейронная сеть может быть обучена для поиска ошибок в определенных видах документов. Переобучение нейронной сети позволит на регулярной основе адаптироваться настоящему изобретению к появляющимся новым требованиям к обработке персональных данных. Для переобучения также будет использоваться обучающая выборка документов. Стоит отметить, обучающая выборка документов содержится в хранилище данных. Таким образом, качество обнаружения ошибок в тексте документов не будет падать при появлении новых требований. Например, обучающая выборка документов включает документы, соответствующие российскому законодательству по обработки персональных данных и требованиям GDPR.
Так, нейронная сеть тренируется на обучающейся выборке документов, содержащих известные текст. Например, обучающая выборка данных может содержать примеры документов, содержащих одно или более частей (абзацев) текста, в качестве исходных данных для обучения. А также обучающая выборка содержит один или более идентификаторов типа частей текста, которые правильно соответствуют одному или более частям текста в качестве целевого результата. Часть текста может представляться собой, например, весь текст документа, абзац, параграф, одно или несколько предложений. Использование определенной части текста может зависеть от типа ошибки, которую требуется выявлять. Нейронная сеть может построить наблюдаемый результат для всех исходных данных для обучения. Наблюдаемый результат работы нейронной сети можно сравнить с ожидаемым результатом работы, включенным в обучающую выборку данных, и ошибка может распространяться назад, на предыдущие слои нейронной сети, параметры которой (веса и смещения нейронов) могут регулироваться определенным образом. В ходе обучения нейронной сети параметры нейронной сети могут быть отрегулированы для оптимизации точности предсказания. После обучения нейронная сеть используется для автоматического распознавания частей текста в исходном документе и определении наиболее вероятного результата, а именно, содержит ли анализируемая часть текста ошибку, связанную с нарушением требований об обработке персональных данных.
Использование описанных механизмов проверки информации в тексте документа может повысить качество результатов обнаружения за счет выполнения обнаружения ошибок в тексте документа с использованием обученной нейронной сети, которая сохраняет информацию о контексте всего документа. Следовательно, нейронная сеть, обученная принимать во внимание контекст всего документа, может быть способна более точно определять ошибки в других частях текста того же документа. Нейронная сеть, используемая в соответствии с реализациями настоящего изобретения, может применяться для идентификации документов любого типа и может обеспечивать эффективное обнаружение ошибок в тексте, таким образом повышая как точность обнаружения, так и скорость обработки вычислительного устройства, реализующего такое обнаружение.
Далее описываются варианты реализации изобретения в виде способов и систем, реализующих в том числе и указанные способы.
На Фиг. 1 представлена блок-схема примера системы проверки текста электронных документов на соответствие требованиям о персональных данных на сайтах компьютерной сети 100 (далее - система проверки документов 100).
Как показано на Фиг. 1, система проверки документов 100 включает такие средства как средство сканирование сайтов 110 и по меньшей мере одно средство анализ документов 120. В предпочтительном варианте реализации указанные средства 110 и 120 реализуются на отдельных вычислительных устройствах, в частности серверах, подключенных к сети 180. В этом случае между серверами установлены соединения для обмена данными, в частности для передачи документов. Сервер, на котором реализована средство 110, соединен с сетью 180, через которую выполнена возможность связываться с сайтами в сети. Сеть 180 может быть общественной сетью (например, Интернет), частной сетью (например, локальной сетью (LAN) или распределенной сетью (WAN)), а также их комбинацией. Взаимодействие между серверами и с сайтами может осуществляться с помощью использования API (). Дополнительно систем проверки документов 100 включает средство корректировки 170, которое может быть реализовано как на отдельном сервере, так и совместно со средствами 110 и 120, например, вместе со средством 120.
Средство сканирования сайтов 110 предназначено для поиска на сайтах документов, связанных с обработкой персональных данных, и последующей передачи их по крайней мере одному средству анализа документов 120. Средство сканирование сайтов 110 имеет возможность формировать очередь сайтов и их страниц для последующего поиска документов, размещенных на сайтах. После попадания сайта в очередь производится сканирование первой страницы сайта. Найденные ссылки на первой странице сайта также добавляются в очередь для сканирования. В одном варианте реализации, очередь содержит ссылки (адрес месторасположения) на сайты и его страницы.
Во время сканирования страниц сайтов производится поиск ссылок на документы, описывающие политики обработки персональных данных, или сами документы. Средство сканирования сайтов 110 проводит обработку html- кода каждой страницы с целью выявления ссылок на файлы, которые соответствуют искомым документам. При нахождении необходимого документа, он скачивается для передачи средству анализа документов 120. Скачивание документа проводится, например, согласно ссылке на страницу с документом.
Стоит отметить, что средство сканирования сайтов 110 может производить сканирование нескольких сайтов как одновременно, так и последовательно. Варианты сканирования сайтов зависят от технических возможностей средства 110.
Средству анализа документов 120 предназначено для определения наличия или отсутствия в тексте документа ошибки, связанной с нарушением требование об обработке персональных данных. Средство анализа документов 120 включает средство преобразования текста документа 130, средство векторизации данных 140, средство, содержащее по меньшей мере одну нейронную сеть 150 (далее - средство нейронной сети 150) и хранилище 160.
Средство преобразования текста документа 130 (далее - средство преобразования 130) предназначено для извлечения текста из документа и его преобразования в требуемый вид для последующего анализа. Так как документы имеют различный формат, например doc, pdf, jpg и другие, то средство преобразования 130 анализирует полученный документ, во время которого определяет тип документа и производит действия по его преобразованию. Например, если формат документа не соответствует текстовому формату, а является изображением, то для распознавания текста документа средство преобразования 130 может использовать любой подходящий метод оптического распознавания символов (OCR).
Далее средство преобразования 130 преобразует распознанный текст, т.е. производит упрощение текста. Для упрощения текста средство преобразования 130 использует по меньшей мере один из приемов: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп - слов. В тоже время, в других вариантах реализации изобретения упрощение текста средством преобразования 130 может и не производить. В этом случае, анализ текста в дальнейшем может занять больше времени, но при этом останется больше признаков в тексте.
Токенизация - разделение текста на токены. Токенами могут быть абзацы, предложения, словосочетания, отдельные буквы, последовательность букв или сочетание букв, но обычно токенами становятся отдельные слова.
Нормализация - приведение текста к единому формату. Текст можно привести к одному регистру, цифры писать прописью 1 - один. Также возможно преобразование сокращения, например «мин.» - «минута».
Лемматизация - приведение слов к одной грамматической форме, другими словами получение леммы. Например, слова «Приказу», «приказом», «приказа» являются формами слова «приказ». Так преобразование слов может иметь вид: для существительного слова получают лемму приведением слова к именительному падежу, единственного числа; для глагола приводят к инфинитиву; прилагательные и числительные слова приводят к форме именительного падежа, мужского рода, единственного числа.
Стемминг - более простой аналог лемматизации, отбрасывает все кроме корня слова.
Стоп-слова - в обычном тексте много слов, которые можно удалить из текста не потеряв смысла. Обычно это артикли, междометия, союзы. Проверяя документ стоп-слова могут быть удалены из текста документа.
Оптимальные подбор приемов упрощения текста документа для каждой реализации изобретения производится опытным путем, при этом учитывается их влияние на точность предсказания о наличии ошибке, связанной с нарушением законодательства о персональных данных. Выбор того или иного приема при реализации изобретения может зависеть от языка текста, который представлен в документе. Так, например, для английского и русского языков будут использованы все приемы упрощения текста, а для японского и китайского только часть из них. В одном из вариантов реализации средство преобразования 130 после распознавания текста проводит оценку размера текста документа на основании которой определяет необходимость разделения текста на части, например, параграфы, абзацы или страницы. Это позволяет в дальнейшем не снижать уровень предсказания ошибки. Так, документы могут содержать от 1 до 30 страниц. Чем больше документ, тем дольше и сложнее провести его анализ. При этом возможны случае, когда ошибкой, связанной с нарушением обработки персональных данных, является отсутствие одного или нескольких предложений. Анализируя большой текст значение отдельного предложения может быть размыто. Поэтому средство преобразования 130 разделяет текст документа на части в зависимости от размера документа и предоставляет средству векторизации данных 140 для каждой части в отдельности.
В предпочтительном варианте средство преобразования 130 разделяет текст документа на абзацы, так как такое разделение позволяет наиболее оптимально в дальнейшем вносить изменения в текст документа для устранения найденной ошибки.
Пример работы средства преобразования 130 представлен на Фиг. 5А - 5Г. Так, На Фиг. 5А было произведено чтения файла police.txt. На Фиг.5Б представлен результат получения токенов слов, например, с помощью библиотеки NLTK (от англ. Natural Language Toolkit). На Фиг. 5В показан результат лемматизации при помощи использования морфологического анализатора «pymysteam3». На Фиг. 5Г представлен результат преобразования стоп-слов и дальнейшая очистка.
Средство векторизации данных 140 предназначено для преобразования полученного текста (частей текста) от средства преобразования 130 в векторное предоставление, т.е. формируют для всего текста или каждой его части вектор.
В одном из вариантов реализации средство векторизации данных 140 применяет подход «мешок слов» (от англ «bag of words»). Данный подход основан на том, что все слова из полученного текста добавляются в «мешок», который используется как словарь, который реализуется в виде базы данных. Если слово встречается в тексте несколько раз, то слово добавляет только один раз. В результате, для каждого слова получаем порядковый номер в мешке.
Для векторизации текста создается список такой же длины как мешок слов и заполняется нулями и единицами. Если первое слово из словаря есть в тексте, то первым значением в векторе будет единица. Если слова нет, то ноль. Так преобразуются все слова в словаре. В одном из вариантов для создания мешка слов средство векторизации данных 140 использует один из методов: CountVectorizer фреймворка Skleam, pytorch и fasttext.
В другом варианте реализации средство векторизации данных 140 применяет подход, основанный на n-граммах (словосочетаниях длинной п слов). Рассмотрим следующий пример:
Возьмем токены, которые получили от средства преобразования 130 и представлены на Фиг.5Б:
['Политика', 'отношении', 'обработки', 'защиты', 'персональных', 'данных', 'Общества', 'ограниченной', 'ответственностью', '«Международная', 'Страховая', 'Группа»', '(ООО', '«МСГ»)', 'Утверждена', 'приказом', 'Генерального', 'директора']
Предположим, что длина n-грамм равна 2 (двум) словам, то получается: ['Политика', 'отношении'], ['отношении', 'обработки'], ['обработки', 'защиты'] и т.д. Далее подход работает также как подход используемый «мешок слов», только вместо слов используются словосочетания.
Длина n-граммы подбирается опытным путем для обеспечения требуемой точности предсказания. В других вариантах реализации длина п- граммы может составлять и от 3 до 10 слов или более, при удовлетворении требования точности предсказания нарушения в тексте документа. В еще одном варианте реализации средство векторизации данных 140 для векторного представления слов из текста применяет векторно- семантические модели на основании искусственных нейронных сетей, например, как технология под названием «Word2Vec» или технология под названием «fasttext». При этом данные модели была предварительная обучены на примерах документов.
В еще одном варианте реализации средство векторизации данных 140 формирует вектор для частей текста, например, параграфа, абзаца или двух и более абзацев. Для такого представления средство 140 использует в своей работе методы, использующие нейронную сеть со скрытыми слоями, подобные методу «Doc2Vec».
В других вариантах реализации изобретения средство векторизации данных 140 для векторного представления текста документа может использовать несколько вариантов реализации, представленных ранее. Например, для формирования частей текста используется один подход, а для формирования векторов для слов и словосочетаний другой подход. Так может быть получен вектор для каждого отдельного слова при использовании подхода основанного на Word2Vec. Вектор для предложения, абзаца или всего текста может быть получен при использовании подхода основанного на Doc2Vec.
После преобразования в векторный вид полученного текста документа средство векторизации данных 140 передает данные средству нейронной сети
150.
Средство нейронной сети 150 предназначено для выявления в полученном тексте документа ошибок, связанных с нарушением требований о персональных данных. Средство нейронной сети 150 использует набор моделей машинного обучения, который содержит по крайней мере одну нейронною сеть. На вход указанной нейронной сети предоставляют данные в виде по крайней мере одного векторного предоставления (вектора) текста анализируемого документа. Количество векторов зависит от соответствующего преобразования текста с помощью средства векторизации данных 140.
В зависимости от реализации изобретения средство нейронной сети 150 может содержать как одну нейронную сеть, которая будет универсальной моделью для выявления всех видов ошибок (нарушений), так и для каждого вида ошибки (нарушения) будет иметь отдельную нейронную сеть для ее обнаружения. Когда средство нейронной сети 150 содержит несколько нейронных сетей, то входные данные (вектора) передаются от одной нейронной сети к другой или параллельно каждой.
Примерами нарушений требований, для которых могут быть использованы отдельные нейронные сети, являются следующие нарушения:
• отсутствие наименование лица (компании), который производит обработку персональных данных;
• отсутствие контактов оператора, собирающего персональные данные, например, соглашение не содержит адреса компании, которая собирает данные;
• не указана цель сбора персональных данных;
• не указаны данные, которые подлежат сбору, т.е. отсутствует список собираемых данных;
• не указан срок хранения персональных данных;
• не указаны третьи лица, которым могут быть переданы персональные данные;
• не указан способ отзыва персональных данных.
Еще одними примерами нарушений в документе требований, которые установлены европейским законодательством (GDPR), являются:
• отсутствие наименования контроллера;
• отсутствие контактов контроллера; • не указана цель обработки данных;
• не указана законное основание обработки данных.
В одном из вариантов реализации в качестве нейронной сети применяется рекуррентные нейронные сети (от англ recurrent neural network), в частности нейронные сети с долговременной и кратковременной памятью (от англ. Long short-term memory, LSTM) и управляемый рекуррентный блок (от англ. Gated Recurrent Units, GRU).
На выходе средство нейронной сети 150 предоставляет результат анализа полученных векторов. В случае выявления по крайней мере одной ошибке результат содержит информацию о соответствующей ошибки и о части текста документа, в которой найдена ошибка. Информирование об ошибке в тексте может быть представлено в виде флага, принимающей значение 0 или 1. Если значение флага 0 (ноль), то выявлена ошибка, указывающая на определенное нарушение законодательства о персональных данных. Если 1 (один), то ошибке нет, нарушение не выявлено. Такой подход используется при анализе частей текста, когда необходимо понять в какой части текста была найдена ошибка.
В одном из вариантов реализации при выявлении ошибки средство нейронной сети 150 определяет какая именно ошибка была выявлена. Для этого используется коды ошибок. В таблица представлены примеры кодов ошибок, которые могут возникать при анализе текста документа при помощи нейронной сети.
Таблица
Figure imgf000025_0001
Figure imgf000026_0001
В дальнейшем средство нейронной сети 150 сохраняет результаты анализа документа в хранилище 160, в частности информацию о найденных ошибках, и/или передает информацию об ошибках на сайт, с которого был получен документ, через средство сканирования сайтов 110.
Хранилище 160 может представлять собой постоянную память, которая в состоянии сохранять электронные документы, а также структуры данных для выполнения проверки текста документов в соответствии с реализациями настоящего изобретения. В частности, хранилище 160 содержит также образцы документов 163, предназначенных для проведения обучения по меньшей мере одной нейронной сети средства нейронной сети 150, образцы (шаблоны) частей текста 167, которые позволяют устранить ошибки, связанные с нарушением требований о персональных данных. Хранилище 160 может взаимодействовать с любым указанным выше средством для осуществления их предназначения.
Хранилище 160 может располагаться как на одном, так и нескольких запоминающих устройствах, таких как основное запоминающее устройство, магнитные или оптические запоминающие устройства на основе дисков, лент или твердотельных накопителей, NAS, SAN и т.д. Несмотря на то, что хранилище изображено на Фиг. 1 совместно со средством анализа документов 120 и размещены на одном сервере, в одной из реализаций изобретения хранилище 120 может быть размещено отдельно. В некоторых вариантах реализации хранилище 160 может представлять собой подключенный к сети 180 файловый сервер, в то время как в других вариантах реализации изобретения хранилище 160 может представлять собой какой-либо другой тип энергонезависимого запоминающего устройства, например, объектно-ориентированную базу данных, реляционную базу данных и т.д., которая может находиться на сервере, подключенного к сеть 180.
В одном из вариантов реализации средство анализа документов 120, например, с помощью средства нейронной сети 150, информирует средство корректировки 170 о найденных ошибках. Информирование заключается либо в предоставлении непосредственно информации о найденных ошибках, либо передачи информации о месторасположении ее в хранилище 160.
Средство корректировки 170 предназначено для внесения изменения в текст документа для устранения по крайней мере одной найденной ошибки, связанной с нарушением требований об обработке персональных данных, в проверяемом документе. Для этого средство корректировки 170 производит замену части текста документа, в которой была найдена ошибка, при помощи образцов частей текста 167, хранящихся в хранилище 160. Средство корректировки 170 согласно найденной ошибке производит поиск в хранилище необходимого образца части текста 167 и производит замену текста, содержащего ошибку, на соответствующий образец 167.
Стоит отметить, что средство корректировки 170 дополнительно может учитывать при выборе соответствующего образца 170 вид документа (например, соглашение, политики) и характер ошибки. В этом случае, образцы 167 также будут соответствовать разным видам документов и ошибок. В том случае, если образец не будет выявлен, средство корректировки 170 может связаться со внешними источниками информации, таким как официальные сайты или базы данных документов законодательных органов, где содержаться необходимая информация о соответствии требованиям о персональных данных. После чего средство 170 получит необходимый образец 167 и проведет замену.
Далее средство корректировки 170 передаст измененный документ (документ 2 на Фиг. 1) на сайт, с которого был получен, через средство анализа документов 120 и/или средство сканирования сайтов 110.
В некоторых вариантах реализации система проверки документов 100 дополнительно имеет возможность контролировать ранее проверенные документы на их актуальность.
На Фиг. 2 представлена блок-схема, иллюстрирующая способ проверки документа на наличие ошибок, связанных с нарушением требований законодательства о персональных данных. Указанный способ реализуется по меньшей мере с помощью системы проверки документов 100.
В некоторых вариантах реализации изобретения способ проверки документа включает в себя по меньшей мере способ сканирования сайта и способ обнаружения в тексте документа ошибки, связанной с нарушением требований о персональных данных.
В одном из вариантов реализации изобретения с помощью системы проверки документов 100, в частности при помощи средства сканирования сайтов 110, получают задачу проверки по меньшей мере одного документа на определенном сайте. Задача содержит по меньшей мере ссылку на сайт, на котором необходимо проверить документы. Дополнительно задача может содержать и ссылки непосредственно на документы, размещенные на сайте. В том случае, когда была получена только ссылка на сайт, проводят сканирование каждой страницы сайта начиная с главной страницы для поиска документов, регулирующих взаимодействие с пользователем в области обработки персональных данных.
На этапе 210 для обнаружения ошибок при помощи средства анализа документов 120 получают по крайней мере один найденный документ от средства сканирования сайта 110.
На этапе 220 при помощи средства преобразования текста документа 130 проводят предварительную оценку полученного документа. Предварительная оценка включает определение формата документа (например, docx, pdf) и размера документа, на основании которого далее принимается решение о его разделении на части, например, абзацы. При определении формата документа, относящегося к не текстовым форматам, производят преобразование документа из определенного формата в текстовый формат.
На этапе 230 при помощи средства преобразования текста документа 130 преобразуют текст документа в определенный вид с целью упрощения текста для анализа. Преобразование текста документа включает по меньшей мере один из таких приемов как: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп - слов. В других вариантах реализации изобретения данный шаг может быть пропущен. В этом случае будет передаваться весь текст в «сыром» виде. В некоторых случаях, это позволит получить больше признаков.
На этапе 240 при помощи средства векторизации текста документа 140 формируют векторное представление каждой части текста документа. При этом стоит отметить, что под частью документа также может пониматься и документ целиком. На этапе 250 при помощи средства определения в тексте ошибки 150 анализируют текст документа при помощи набора моделей машинного обучения, например, нейронной сети. Анализ включает подачу сформированных векторов частей текста на вход нейронной сети и получении на выходи из нейронной сети информации о наличие или отсутствии в каждой части текста документа ошибки, связанной с нарушением требований о персональных данных.
Дополнительно если на этапе 260 была определена по крайней мере одна ошибка, то переходят к этапу 270, при этом дополнительно кроме информации об обнаружении ошибки, информация может содержать и сведения о типе ошибки. В противном случае, если ошибка не была выявлена, переходят к шагу 295, на котором предоставляют отчет о корректности текста документа обратно на сайт.
В одном из вариантов реализации изобретения на этапе 260 после определения наличия или отсутствия ошибки, связанной с нарушением требований о персональных данных, производят формирование отчета, который направляется обратно на сайт, с которого был получен документ, и способ обнаружения в тексте документа ошибки заканчивается. Дополнительно может быть проинформирован пользователь при помощи коммуникативного устройства, например, видеомонитора. Также отчет содержит информацию о том, что ошибок в тексте документа не было выявлено, или же информацию о выявленных ошибках и частях текста, в которых они были обнаружены.
На этапе 270 определяют возможность внесения изменений в текст документа, где была определена ошибка. Для этого с помощью средства корректировки 170 производится поиск образцов частей текста 167 в хранилище 160 согласно информации о выявленной ошибке. На этапе 280 при обнаружении необходимого образца 167 вносят изменения в текст документа, который затем передают обратно на сайт на этапе 290 в виде документа 2 (на Фиг. 1).
На Фиг. 3 представлен способ контроля актуальных сведений в тексте документа, связанные с обработкой персональных данных.
Данный способ позволяет проводить регулярное сканирование документов на сайтах для определения наличия изменений в документах, в частности в ранее проверенных документах на наличие ошибок, связанных с нарушением требований о персональных данных. Способ может быть реализован при помощи средства сканирования сайтов 110, которое реализуется в свою очередь при помощи сервера. Способ включает по крайней мере указанные этапы ниже.
На этапе 310 определяют по меньшей мере один сайт и/или по меньшей мере один документ, требующий контроля актуальности сведений в нем. Для этого могут быть получены ссылки, указывающие на месторасположение сайта в сети или документа на сайте. Из полученных ссылок формирует очередь периодической проверки, согласно которой производят мониторинг документов. Периодичность проверки может быть задана или определена критериями проверки.
На этапе 320 проводят периодическую проверку на наличие изменения в документе из сформированной очереди согласно критериям проверки. Проверка изменений включает проверку изменений в метаданных документа (например, дату и время сохранения документа). Критерии проверки могут заключаться в установлении времени периодичности проверки, которое может устанавливаться как при помощи получения информации от пользователя (оператора), так и будет завесить от появления новых требований к обработке о персональных данных. В зависимости от срабатывания критерия проверки могут анализироваться различные метаданные документа. В случае определение изменения в документе, связанном с критерием проверки, переходят к этапу 340.
Например, если была проверка метаданных документа, которая инициирована временем периодической проверки, заданным пользователем, то наличие изменения в дате сохранения документа на сайте отличной от даты предыдущей проверки является основанием для проведения проверки на наличие ошибок в тексте документа. В еще одном примере, если была проверка метаданных документа, которая инициирована получением новых требований к обработке персональных данных, то отсутствие изменения в дате последнего изменения в документе на сайте является основанием для проведения проверки на наличие ошибок в тексте документа.
На этапе 340 передают документ на проверку ошибок, связанных с нарушением требований о персональных данных, средству анализа документов 120 при определении наличия изменения в документе или если дата последней проверки изменений раньше, чем дата получения новых требований к обработки персональных данных.
На этапе 350 проводят повторную проверку на наличия ошибки в документе согласно способу проверки документа на наличие ошибок, связанных с нарушением требований законодательства о персональных данных, представленному при описании Фиг. 2.
На Фиг. 4 представлен пример вычислительной системы 400, на которой может быть реализовано заявленное изобретение. Вычислительная система 400 может выполнять один или более способов, описанных в настоящем документе, в соответствии с одним или более вариантами реализации настоящего изобретения. В одном из примеров вычислительная система 400 может соответствовать вычислительному устройству, способному выполнять система проверки документов 100, представленную на Фиг. 1. В другом примере вычислительная система может соответствовать вычислительному устройству, способному выполнять одно из средств: средство сканирования сайтов 110 и средства анализа документов 120, представленные на Фиг. 1. Эта вычислительная система может быть подключена (например, по сети) к другим вычислительным системам в локальной сети или сети Интернет. Данная вычислительная система может выступать в качестве сервера в сетевой среде клиент-сервер. Эта вычислительная система может представлять собой персональный компьютер (ПК), планшетный компьютер, телевизионную приставку (STB), карманный персональный компьютер (PDA), мобильный телефон или любое устройство, способное выполнять набор команд (последовательно или иным способом), который определяется действиями этого устройства. Кроме того, несмотря на то что показана система только с одним компьютером, термин «компьютер» также включает любой набор компьютеров, которые по отдельности или совместно выполняют набор команд (или несколько наборов команд) для реализации любого из описанных здесь способов или нескольких таких способов.
Пример вычислительной системы 400 включает устройство обработки 405, основное запоминающее устройство 405 (например, постоянное запоминающее устройство (ПЗУ), флэш-память, динамическое ОЗУ (DRAM), например, синхронное DRAM (SDRAM)), статическое запоминающее устройство 405 (например, флэш-память, статическое оперативное запоминающее устройство (ОЗУ)) и устройство хранения данных 440, которые взаимодействуют друг с другом по шине 420.
Устройство обработки 405 представляет собой одно или более устройств обработки общего назначения, таких как микропроцессор, центральный процессор или т.п. В частности, устройство обработки 405 может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор со сверхдлинным командным словом (VLIW) или процессор, в котором реализованы другие наборы команд, или процессоры, в которых реализована комбинация наборов команд. Устройство обработки 405 также может представлять собой одно или более устройств обработки специального назначения, таких как специализированная интегральная схема (ASIC), программируемая пользователем вентильная матрица (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Устройство обработки 405 настраивается для выполнения инструкций в целях выполнения рассматриваемых в этом документе операций и шагов.
Вычислительная система 400 может дополнительно включать устройство сетевого интерфейса 450. Вычислительная система 400 может также включать видеомонитор 425 (например, жидкокристаллический дисплей (LCD) или электроннолучевую трубку (ЭЛТ)), устройство буквенно- цифрового ввода 430 (например, клавиатуру), устройство управления курсором 435 (например, мышь) и сигнальное устройство 445 (например, громкоговоритель). В одном из иллюстративных примеров видео дисплей 425, устройство буквенно-цифрового ввода 430 и устройство управления курсором 435 могут быть объединены в один компонент или устройство (например, сенсорный жидкокристаллический дисплей).
Запоминающее устройство 440 может включать машиночитаемый носитель 455, в котором хранятся команды 460 (например, средство анализа документов 120 или средство сканирования сайтов 110), реализующие одну или более методологий или функций, описанных в данном документе. Команды 460 могут также находиться полностью или по меньшей мере частично в основном запоминающем устройстве 410 и (или) в устройстве обработки 405 во время выполнения вычислительной системой 400, основным запоминающим устройством 410 и устройством обработки 405, также содержащими машиночитаемый носитель информации. Команды 460 могут дополнительно передаваться или приниматься по сети 180.
Несмотря на то что машиночитаемый носитель данных 455 показан в иллюстративных примерах как единичный носитель, термин «машиночитаемый носитель данных» следует понимать и как единичный носитель, и как несколько таких носителей (например, централизованная или распределенная база данных и (или) связанные кэши и серверы), на которых хранится один или более наборов команд. Термин «машиночитаемый носитель данных» также может включать любой носитель, который может хранить, кодировать или содержать набор команд для выполнения машиной и который обеспечивает выполнение машиной любого одного или более подхода настоящего изобретения. Соответственно, термин «машиночитаемый носитель данных» необходимо понимать как включающий, среди прочего, устройства твердотельной памяти, оптические и магнитные носители.
Варианты реализации настоящего изобретения могут быть представлены в виде по меньшей мере одного вычислительного программного продукта или программы, которая может содержать машиночитаемый носитель данных с сохраненными на нем инструкциями, которые могут использоваться для программирования вычислительной системы (или других электронных устройств) в целях выполнения процесса в соответствии с сущностью изобретения. Машиночитаемый носитель данных включает механизмы хранения или передачи информации в машиночитаемой форме (например, компьютером). Например, машиночитаемый (считываемый компьютером) носитель данных содержит машиночитаемый (например, компьютером) носитель данных (например, постоянное запоминающее устройство (ПЗУ), оперативное запоминающее устройство (ОЗУ), накопитель на магнитных дисках, накопитель на оптическом носителе, устройства флэш- памяти и т.д.) и т.п.
Несмотря на то, что операции способов показаны и описаны в настоящем документе в определенном порядке, порядок выполнения операций каждого способа может быть изменен таким образом, чтобы некоторые операции могли выполняться в обратном порядке или чтобы некоторые операции могли выполняться (по крайней мере частично) одновременно с другими операциями. В некоторых вариантах реализации изобретения команды или подоперации различных операций могут выполняться с перерывами и (или) попеременно.
В приведенном выше описании изложены многочисленные детали. Однако специалистам в данной области техники должно быть очевидно, что варианты реализации изобретения могут быть реализованы на практике и без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схем, а не подробно, чтобы не усложнять описание настоящего изобретения.

Claims

Формула
1. Способ проверки документов на соответствие требованиям о персональных данных, реализуемый по крайней мере с помощью одного сервера, и включающий: a) проводят сканирование сайта, во время которого выявляют документ, относящийся к обработке персональных данных;
B) проводят преобразование текста выявленного документа в требуемый вид, при этом преобразование проводят согласно типу документа; c) проводят преобразование текста, полученного на шаге Ь) в векторное представление, где векторное представление содержит по меньшей мере один вектор, сформированный на основании текста документа; d) передают каждый сформированный вектор в качестве исходных данных набору обученных моделей машинного обучения, где обученный набор содержит по крайней мере одну нейронную сеть, выходной слой которой предсказывает наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; e) получают в качестве выходных данных от набора обученных моделей машинного обучения информацию о наличие в тексте документа ошибки, связанной с нарушением требований о персональных данных; f) в случае получении информации о наличие в тексте документа ошибки вносят изменения в текст документа, которое устраняет найденную ошибку и передают документ обратно на сайт.
2. Способ по п. 1, отличающийся тем, что на шаге Ь) при преобразовании текста документа используется по крайней мере один из приемов: токенизацию, нормализацию, лемматизацию, стемминг и фильтрацию стоп
- слова.
3. Способ по п. 2, отличающийся тем, что использование приема преобразования зависит от языка текста, который представлен в документе.
4. Способ по п. 1, отличающийся тем, что на шаге Ь) после преобразования текста проводят оценку размера текста документа на основании которой определяют необходимость разделения текста на части, где частью текста является параграф, абзац или страница.
5. Способ по п. 1, отличающийся тем, что на шаге с) формируют векторное представление полученного текста на основании n-грамм, где на шаге Ь) при преобразовании текста документа предварительно формируют п- граммы из словосочетаний или последовательности букв.
6. Способ по п. 1, отличающийся тем, что на шаге с) формируют векторное представление полученного текста используя векторно-семантические модели на основании искусственных нейронных сетей.
7. Способ по п. 1, отличающийся тем, что набор обученных моделей машинного обучения, содержит количество нейронный сетей равное количеству выявляемых ошибок, где последовательно или параллельно передают исходные данные каждой нейронной сети.
8. Способ по п. 1, отличающийся тем, что ошибки указывают по крайней мере на следующие нарушения:
• отсутствие наименование лица (компании), который производит обработку персональных данных;
• отсутствие контактов оператора, собирающего персональные данные, например, соглашение не содержит адреса компании, которая собирает данные;
• не указана цель сбора персональных данных;
• не указаны данные, которые подлежат сбору, т.е. отсутствует список собираемых данных;
• не указан срок хранения персональных данных; • не указаны третьи лица, которым могут быть переданы персональные данные.
9. Способ по п. 1, отличающийся тем, что обученная нейронная сеть является рекуррентной нейронной сетью на основании AWD-LSTM языковой модели.
10. Способ по п. 1, отличающийся тем, что на выходе из нейронной сети информация дополнительно содержит сведения о части текста, в которой найдена ошибка, и о нарушении, которому соответствует выявленная ошибка.
11. Способ по п. 1, отличающийся тем, что вносимые изменения в текст документа включают поиск в хранилище образца части текста, который устраняет обнаруженную ошибку, с последующей заменой части текста на образец части текста.
12. Сервер для проверки документов на соответствие требованиям о персональных данных, включающий в себя процессор, в котором конфигурация процессора настроена таким образом, чтобы сервер мог осуществлять способ по п. 1.
PCT/RU2021/000325 2021-07-22 2021-07-30 Проверка документа на соответствие требованиям о персональных данных WO2023003488A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2021121700A RU2021121700A (ru) 2021-07-22 Проверка документа на соответствие требованиям о персональных данных с использованием нейронной сети
RU2021121700 2021-07-22

Publications (1)

Publication Number Publication Date
WO2023003488A1 true WO2023003488A1 (ru) 2023-01-26

Family

ID=84980475

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2021/000325 WO2023003488A1 (ru) 2021-07-22 2021-07-30 Проверка документа на соответствие требованиям о персональных данных

Country Status (1)

Country Link
WO (1) WO2023003488A1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787815A (zh) * 2024-02-27 2024-03-29 山东杰出人才发展集团有限公司 一种基于大数据的人力资源外包服务系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2579888C2 (ru) * 2014-01-15 2016-04-10 ООО "Аби ИнфоПоиск" Универсальное представление текста с возможностью поддержки различных форматов документов и текстовая подсистема
US20160321582A1 (en) * 2015-04-28 2016-11-03 Red Marker Pty Ltd Device, process and system for risk mitigation
RU2662699C2 (ru) * 2014-01-23 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Исчерпывающая автоматическая обработка текстовой информации
RU2682863C1 (ru) * 2017-12-15 2019-03-21 Общество с ограниченной ответственностью "САЙТСЕКЬЮР" Система и способ оценки веб-сайта на соответствие законодательству о персональных данных
US20200034685A1 (en) * 2018-07-30 2020-01-30 Salesforce.Com, Inc. Capturing organization specificities with embeddings in a model for a multi-tenant database system
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
RU2718978C1 (ru) * 2019-09-24 2020-04-15 Общество с ограниченной ответственностью «ПРАВОВЕД.РУ ЛАБ» Способ управления автоматизированной системой правовых консультаций
US20210073461A1 (en) * 2018-04-27 2021-03-11 Asapp, Inc. Removing personal information from text using multiple levels of redaction
RU2750852C1 (ru) * 2020-10-19 2021-07-05 Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2579888C2 (ru) * 2014-01-15 2016-04-10 ООО "Аби ИнфоПоиск" Универсальное представление текста с возможностью поддержки различных форматов документов и текстовая подсистема
RU2662699C2 (ru) * 2014-01-23 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Исчерпывающая автоматическая обработка текстовой информации
US20160321582A1 (en) * 2015-04-28 2016-11-03 Red Marker Pty Ltd Device, process and system for risk mitigation
RU2682863C1 (ru) * 2017-12-15 2019-03-21 Общество с ограниченной ответственностью "САЙТСЕКЬЮР" Система и способ оценки веб-сайта на соответствие законодательству о персональных данных
US20210073461A1 (en) * 2018-04-27 2021-03-11 Asapp, Inc. Removing personal information from text using multiple levels of redaction
US20200034436A1 (en) * 2018-07-26 2020-01-30 Google Llc Machine translation using neural network models
US20200034685A1 (en) * 2018-07-30 2020-01-30 Salesforce.Com, Inc. Capturing organization specificities with embeddings in a model for a multi-tenant database system
RU2718978C1 (ru) * 2019-09-24 2020-04-15 Общество с ограниченной ответственностью «ПРАВОВЕД.РУ ЛАБ» Способ управления автоматизированной системой правовых консультаций
RU2750852C1 (ru) * 2020-10-19 2021-07-05 Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787815A (zh) * 2024-02-27 2024-03-29 山东杰出人才发展集团有限公司 一种基于大数据的人力资源外包服务系统及方法
CN117787815B (zh) * 2024-02-27 2024-05-07 山东杰出人才发展集团有限公司 一种基于大数据的人力资源外包服务系统及方法

Similar Documents

Publication Publication Date Title
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US9286290B2 (en) Producing insight information from tables using natural language processing
US10147051B2 (en) Candidate answer generation for explanatory questions directed to underlying reasoning regarding the existence of a fact
US10795922B2 (en) Authorship enhanced corpus ingestion for natural language processing
US9916378B2 (en) Selecting a structure to represent tabular information
US20160283468A1 (en) Context Based Synonym Filtering for Natural Language Processing Systems
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
US9535980B2 (en) NLP duration and duration range comparison methodology using similarity weighting
US9542496B2 (en) Effective ingesting data used for answering questions in a question and answer (QA) system
US20170060945A1 (en) Selective Fact Generation from Table Data in a Cognitive System
US10956824B2 (en) Performance of time intensive question processing in a cognitive system
US11681817B2 (en) System and method for implementing attribute classification for PII data
US20150170086A1 (en) Augmenting business process execution using natural language processing
US20190171713A1 (en) Semantic parsing method and apparatus
US11379527B2 (en) Sibling search queries
US20230028664A1 (en) System and method for automatically tagging documents
Vanamala et al. Topic modeling and classification of Common Vulnerabilities And Exposures database
WO2023003488A1 (ru) Проверка документа на соответствие требованиям о персональных данных
CN117828042A (zh) 用于金融服务的问答处理方法、装置、设备及介质
CN112182239A (zh) 信息检索方法和装置
CN116305257A (zh) 隐私信息监测装置和隐私信息监测方法
CN112561714A (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
Nabeshima et al. Mining false information on twitter for a major disaster situation
EP2894592A1 (en) System and method for identifying related elements with respect to a query in a repository
Amro Sentiment Analysis of News Headlines on Middle East in Arabic Media

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21951061

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21951061

Country of ref document: EP

Kind code of ref document: A1