RU2692043C2 - Method for automatic classification of formalized text documents and authorized users of electronic document management system - Google Patents

Method for automatic classification of formalized text documents and authorized users of electronic document management system Download PDF

Info

Publication number
RU2692043C2
RU2692043C2 RU2017144325A RU2017144325A RU2692043C2 RU 2692043 C2 RU2692043 C2 RU 2692043C2 RU 2017144325 A RU2017144325 A RU 2017144325A RU 2017144325 A RU2017144325 A RU 2017144325A RU 2692043 C2 RU2692043 C2 RU 2692043C2
Authority
RU
Russia
Prior art keywords
document
confidentiality
classification
documents
text
Prior art date
Application number
RU2017144325A
Other languages
Russian (ru)
Other versions
RU2017144325A (en
RU2017144325A3 (en
Inventor
Максим Игоревич Поддубный
Игорь Дмитриевич Королев
Сергей Владимирович Носенко
Александр Сергеевич Мезенцев
Original Assignee
Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации filed Critical Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации
Priority to RU2017144325A priority Critical patent/RU2692043C2/en
Publication of RU2017144325A publication Critical patent/RU2017144325A/en
Publication of RU2017144325A3 publication Critical patent/RU2017144325A3/ru
Application granted granted Critical
Publication of RU2692043C2 publication Critical patent/RU2692043C2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Document Processing Apparatus (AREA)

Abstract

FIELD: computer equipment.SUBSTANCE: method includes: extraction of metadata and informative part of document, conversion of document from storage format into text, conversion of words into word forms, discarding non-significant words, counting word weights, generating a set of classification features, wherein at the training step, a system of predicates for identifying the confidentiality mark of the document is generated based on the set of classified documents; at the document classification step, based on the characteristics, a decision is made on the relevance of the document of each of the confidentiality marks, at the training stage, based on the set of manually classified authorized users, forming a predicate identification system of their confidentiality mark, wherein on the basis of confidentiality marks of incoming documents and access rights of authorized users of system to these documents form a set of classification features.EFFECT: automatic classification of formalized text documents and authorized users of electronic document management system according to confidentiality marks.1 cl, 1 dwg, 1 tbl

Description

Изобретение относится к системам классификации документов и может использоваться в системах электронного документооборота, базах данных, автоматизированных системах, использующих метки конфиденциальности, где объектами доступа являются формализованные текстовые документы, субъектами - авторизованные пользователи, в условиях произвольного числа применяемых меток конфиденциальности.The invention relates to document classification systems and can be used in electronic document management systems, databases, automated systems using confidentiality tags, where the access objects are formalized text documents, the subjects are authorized users, under conditions of an arbitrary number of confidentiality marks used.

Уровень техникиThe level of technology

а) Описание аналоговa) Description of analogues

Известен аналог - способ автоматической классификации документов (Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления, на этапе обучения, по предъявленному набору классифицированных вручную документов, формируют набор классификационных признаков, а при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе простого байесовского классификационного критерия и классификационных признаков определяют принадлежность документа к информационной области [1].A well-known analog is the method of automatic classification of documents (Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998), which consists in converting a document from the storage format to text in natural language, translate words of a document into basic word forms, discard insignificant words, calculate weights of words in a document in accordance with the frequencies of their occurrence, at the training stage, according to the presented set of manually classified documents, form a set of classification features, and document fictions convert it from storage format to natural language text, transform document words to basic word forms, discard insignificant words, calculate word weights in a document, determine whether a document belongs to an information area based on simple Bayesian classification criteria [1] .

Недостатками данного способа являются:The disadvantages of this method are:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;

не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.

Известен также аналог - способ автоматической классификации документов (Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (SupportVectorMachines) и классификационных признаков определяют принадлежность документа к информационной области [2].An analogue is also known - the method of automatic classification of documents (Pat. 6327581 United States of America, IPC G06F 015/18. [Text] / CarltonJ .; applicant and patent holder Microsoft Corporation. - №09 / 055477 ; declared April 6, 1998; publ. December 4, 01), which consists in converting a document from the storage format into natural language text, converting the words of the document into basic word forms, discarding insignificant words, counting the word weights in the document in accordance with with the frequencies of their appearance; at the training stage, a set of classification signs is formed according to the presented set of manually classified documents; when a document is classified, it is converted from storage format into text in natural language, the words of the document are converted into basic word forms, the insignificant words are rejected, the word weights are calculated in the document The SVM (SupportVectorMachines) criterion and classification criteria determine the document's belonging to the information area [2].

Недостатками данного способа являются:The disadvantages of this method are:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;

не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.

Известен также аналог - способ мультиклассовой классификации (Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из информационной области [3].An analogue is also known - a multiclass classification method (Schapire RE, Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), which consists in converting document from the storage format in the text in natural language, convert the words of the document into basic word forms, discard insignificant words, calculate the weights of words in the document in accordance with the frequencies of their appearance and thereby form a feature vector of the document, at the stage of training according to the presented set of manually classified documents ntov form a set of classification features, retain classification features in the database, when classifying a document, convert it from the storage format to natural language text, convert the words of the document into basic word forms, discard insignificant words, calculate the weights of words in the document and form a vector of document features , then decide on the ownership or non-ownership of the document of each of the information area [3].

Недостатками данного способа являются:The disadvantages of this method are:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;

не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.

Также известен аналог - способ автоматической классификации документов (Пат. 2254610 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА". - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий [4]. Недостатками данного способа являются:An analogue is also known - a method of automatic classification of documents (Pat. 2254610 Russian Federation, IPC G06F 17/30. Method of automatic classification of documents [Text] / Agranovsky AV, Arutyunyan R.E., Khadi R.A., Telesnin B. A.; Applicant and patentee State Scientific Institution Scientific Research Institute "SPETSVUZAVTOMATIKA". - №2003126907/09; declared September 4, 03, published on June 20, 2005), which is transforming the document from the storage format into text on natural language transform the words of the converted document the basic word forms, discard insignificant words, calculate the weights of words in the above-mentioned document in accordance with the frequencies of their appearance and thereby form a feature vector of the document; at the training stage, a set of classification features is stored in the database, when classifying a document, it is transformed from a storage format into text in a natural language, transform the words of a document into basic word forms , discard insignificant words, calculate the weights of words in the document and form a vector of signs of the document, after which they decide whether or not the document belongs to each category [4]. The disadvantages of this method are:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;

не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.

Также известен аналог - способ автоматической классификации формализованных документов в системе электронного документооборота (Пат.2546555 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации формализованных документов в системе электронного документооборота [Текст] / Носенко СВ., Королев И.Д., Поддубный М.И.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Военная академия связи имени Маршала Советского Союза С.М. Буденного» Министерства обороны Российской Федерации. - №2013155168/08; заявл. 11.12.2013; опубл. 10.04.2015), заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа: на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей, на этапе определения принадлежности документа каждой из информационной области используют априорную информацию о зависимостях категорий друг от друга [5].An analogue is also known - a method of automatic classification of formalized documents in an electronic document management system (Pat.2546555 Russian Federation, IPC G06F 17/30. Method of automatic classification of formalized documents in an electronic document management system [Text] / SV Nosenko, ID Korolev, Poddubny MI; applicant and patent holder Federal State State Military Educational Institution of Higher Professional Education "Marshal of the Soviet Union Communications Academy named after SM Budyonny" of the Ministry of Defense of the Russian Federation - No. 2013155168/08; declared December 11, 2013; published on April 10, 2015), which defines the areas of a formalized document for extracting metadata and the informative part, converts the document from the storage format to text on natural language, transform the words of the converted document into basic word forms, discard insignificant words, calculate the weights of words in the document in accordance with the frequencies of their appearance and thereby form the features of the document: at the learning stage poo of manually classified documents form a set of classification signs, save classification signs in the database; when classifying a document on the basis of the received classification features using a database, decide on the relevance of the document to each of the information areas, at the stage of determining the ownership of the document from each information area using a priori information about the category dependencies from each other [5].

Недостатками данного способа являются:The disadvantages of this method are:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;

не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.

б) Описание ближайшего аналога (прототипа)b) Description of the closest analogue (prototype)

Наиболее близким по технической сущности к предлагаемому является способ автоматической классификации конфиденциальныхThe closest in technical essence to the proposed is a method for automatic classification of confidential

формализованных документов в системе электронного документооборота, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа, на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к каждой из информационных областей и к каждой из меток конфиденциальности, заданных в информационной системе, на этапе определения принадлежности документа к каждой информационной области и метке конфиденциальности используют априорную информацию о зависимостях категорий друг от друга [6].formalized documents in the electronic document management system, which consists in defining the areas of the formalized document for extracting metadata and informative part, converting the document from the storage format into text in natural language, converting the words of the converted document into basic word forms, discarding insignificant words, calculating weights words in the document in accordance with the frequency of their appearance and thereby form the characteristics of the document, at the stage of training on a set of classifications manually generated documents form a set of classification signs, save classification signs in the database, when classifying a document based on the received classification signs using a database, decide whether the document is related to each of the information areas and to each of the privacy marks specified in the information system the stage of determining the document’s belonging to each information area and privacy label is used a priori information about dependency yah categories apart [6].

Недостатками данного способа являются:The disadvantages of this method are:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности применительно к системам, в которых число меток конфиденциальности произвольно, что существенно затрудняет реализацию;does not allow to classify formalized text documents by confidentiality labels in relation to systems in which the number of confidentiality labels is arbitrary, which significantly complicates implementation;

не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.

Раскрытие сущности изобретенияDisclosure of the invention

Целью настоящего изобретения является обеспечение автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота по меткам конфиденциальности.The aim of the present invention is to provide automatic classification of formalized text documents and authorized users of the electronic document management system by confidentiality tags.

Технический результат достигается тем, что вычислительным устройством определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков: на этапе обучения по набору классифицированных вручную документов формируют систему предикатов идентификации метки конфиденциальности документа, сохраняют систему предикатов в базе данных; на этапе классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из меток конфиденциальности, отличающийся тем, что на основе меток конфиденциальности поступивших документов и прав доступа авторизованных пользователей системы к этим документам, извлекаемых из матрицы прав доступа, формируют набор классификационных признаков: на этапе обучения по набору классифицированных вручную авторизованных пользователей формируют систему предикатов идентификации их метки конфиденциальности и сохраняют систему предикатов в базе данных; на этапе классификации авторизованного пользователя получившийся набор классификационных признаков подставляют в систему предикатов, находящуюся в базе данных, по предикату, принявшему значение «истина», принимают решение об относимости авторизованного пользователя к одной из меток конфиденциальности.The technical result is achieved by calculating the areas of a formalized document with the computing device to extract the metadata and informative part, converting the document from the storage format into natural language text, converting the words of the converted document into basic word forms, discarding insignificant words, counting the weights of the words in the document according to the frequencies of their occurrence, they form a set of classification signs: at the stage of training on a set of classified hands th documents form a system of identification marks of predicates confidential documents, retain the system of predicates in the database; at the stage of document classification, on the basis of received classification criteria, a decision is made on the relevance of the document to each of the confidentiality marks, characterized in that based on the confidentiality marks of the received documents and the access rights of authorized users of the system to these documents, extracted from the matrix of access rights, set of classification features: at the stage of training on a set of manually classified authorized users form a system of predicates and identifying their privacy labels and storing the predicate system in a database; at the stage of classification of an authorized user, the resulting set of classification signs is substituted into the predicate system located in the database, according to the predicate that has assumed the value “true”, decide on the relevance of the authorized user to one of the confidentiality marks.

Данный технический результат достигается за счет того, что осуществляют выделение характеристик одинаковых участков текста Z - реквизитов. При этом количество различных реквизитов формализованного документа ограничено [7], кроме того, некоторые из них не определяют индивидуальность формы документа (свойственные всем формам или не применяемые в данных условиях). Каждый реквизит выразим конечным предикатом PZ(T,L), где Т - конечное множество характеристик текста t,

Figure 00000001
- множество ключевых слов
Figure 00000002
реквизита, где
Figure 00000003
q' - количество всех используемых ключевых слов.This technical result is achieved due to the fact that carry out the selection of the characteristics of the same parts of the text Z - details. At the same time, the number of different details of a formalized document is limited [7]; in addition, some of them do not determine the individuality of the document form (characteristic of all forms or not used in these conditions). Each attribute is expressed by the final predicate P Z (T, L), where T is a finite set of text characteristics t,
Figure 00000001
- many keywords
Figure 00000002
props where
Figure 00000003
q 'is the number of all keywords used.

Правило построения предиката узнавания реквизита формализованного документа, выразится следующей формулой [8]:The rule for constructing a predicate for recognizing the prop of a formalized document is expressed by the following formula [8]:

Figure 00000004
Figure 00000004

где

Figure 00000005
- предикат узнавания значения а h-той переменной текста;Where
Figure 00000005
- predicate of recognition of the value of a h-that text variable;

μ - количество переменных текста;μ is the number of text variables;

ϕ - величина алфавита h-той переменной текста;ϕ - the value of the alphabet of the h-text variable;

Figure 00000006
- предикат узнавания значения b ключевого слова q соответствующего i-той зоне.
Figure 00000006
- predicate of recognition of the value b of the keyword q corresponding to the i-th zone.

Форма документа выразится конечным предикатом PV(Z,L), где V={νj}, где

Figure 00000007
- множество форм документа; j' количество всех используемых форм документов, Z - множество реквизитов документа, n - количество всех реквизитов документов,
Figure 00000008
- множество ключевых слов, где
Figure 00000009
q' - количество всех используемых ключевых слов.The form of the document is expressed by the final predicate P V (Z, L), where V = {ν j }, where
Figure 00000007
- many forms of the document; j 'is the number of all document forms used, Z is the set of document details, n is the number of all document details,
Figure 00000008
- many keywords, where
Figure 00000009
q 'is the number of all keywords used.

Правило построения предиката узнавания формы документа выразится следующей формулой [8]:The rule for constructing a predicate for recognizing the form of a document is expressed by the following formula [8]:

Figure 00000010
Figure 00000010

где

Figure 00000011
zi - предикат узнавания реквизита для j-той формы документа;Where
Figure 00000011
z i - predicate recognition predicate for the j-th form of the document;

Figure 00000012
- предикат узнавания уникального значения γ ключевого слова q j-той формы документа.
Figure 00000012
- the predicate of recognition of the unique value γ of the keyword q of the j form of the document.

С использованием правил (1, 2) создаются системы предикатов идентификации реквизитов и форм документов.Using the rules (1, 2), predicate identification systems and document forms are created.

Форма документа однозначно задает места расположения реквизитов документа, что позволяет классифицировать документы по форме документа и определяемой соответствующим реквизитом ограничения доступа.The form of the document uniquely specifies the location of the details of the document, which allows to classify documents according to the form of the document and determined by the corresponding access restriction.

Затем информативную часть документа (далее - текст) преобразуют из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотами их появления и тем самым формируют предикаты идентификации признаков текста.Then the informative part of the document (hereinafter referred to as the text) is transformed from the storage format into text in natural language, the words of the document are converted into basic word forms, the insignificant words are discarded, the weights of words in the text are calculated in accordance with the frequencies of their appearance, and thus the predicates of identifying text characters are formed .

В режиме обучения по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством областей информационной ответственности, на которые необходимо классифицировать документы (количество исполнителей в автоматизированной системе). Сохраняют предикаты в базе данных.In the training mode, according to the presented set of hand-classified texts, a predicate identification system of text features is formed, where the number of predicates in the predicate system is determined by the number of areas of information responsibility for which the documents must be classified (the number of executors in the automated system). Store predicates in the database.

Правило построения предиката PU (W) узнавания информационной области U={uβ}, где

Figure 00000013
β' - количество областей информационнойThe rule for constructing the predicate P U (W) of recognition of the information area U = {u β }, where
Figure 00000013
β '- the number of areas of information

ответственности, выражается следующей формулой [8]:responsibility, is expressed by the following formula [8]:

Figure 00000014
Figure 00000014

где W={wp} - множество значимых слов текстов, где

Figure 00000015
where W = {w p } is the set of significant words of the texts, where
Figure 00000015

р' - количество значимых слов текстов;p '- the number of significant words of texts;

Figure 00000016
- предикат узнавания значения веса ƒ значимого слова wp, в тексте документа
Figure 00000017
информационной области по g-тому значению веса слова.
Figure 00000016
- predicate of recognition of the value of weight ƒ significant word w p , in the text of the document
Figure 00000017
information area for the g-th word weight value.

Правило формирования системы предикатов узнавания метки конфиденциальности документа предполагает число информационных областей, сопоставимое с количеством применяемых меток конфиденциальности в системе [6]. Для реализации способа в более сложных информационных системах предлагается применять алгебру конечных предикатов.The rule of formation of the system of predicates of recognition of the document confidentiality label implies the number of information areas comparable to the number of applied confidentiality labels in the system [6]. To implement the method in more complex information systems it is proposed to apply the algebra of finite predicates.

С применением предложенной алгебры [9] представлено правило построения системы предикатов, не требующее дополнительных преобразований для любой информационной системы. Таким образом, правило построения предиката

Figure 00000018
узнавания метки конфиденциальности М={mλ}, где
Figure 00000019
λ' - количество определенных в системе меток конфиденциальности выразится следующей формулой [10]:Using the proposed algebra [9], a rule for constructing a system of predicates is presented that does not require additional transformations for any information system. Thus, the predicate construction rule
Figure 00000018
recognition of the privacy label M = {m λ }, where
Figure 00000019
λ '- the number of confidentiality labels defined in the system will be expressed by the following formula [10]:

Figure 00000020
Figure 00000020

где

Figure 00000021
- предикат узнавания k-то значения r-ого реквизита;Where
Figure 00000021
- the predicate of recognition of the k-value of the r-th props;

m0 - метка конфиденциальности объекта (документа dy), при этом mo ∈ М;m 0 is the privacy label of the object (document d y ), with m o ∈ M;

Figure 00000022
- предикат узнавания β-той области, где
Figure 00000023
β' - количество информационных областей системы.
Figure 00000022
- the predicate of recognition of β-the area where
Figure 00000023
β 'is the number of information areas of the system.

После определения меток конфиденциальности объектов информационной системы, классификатор переходит к этапу классификации конечного множества субъектов (авторизованных пользователей) S. На основании матрицы прав доступа и меток конфиденциальности формируется набор классификационных признаков, включающий метки конфиденциальности всех объектов, к которым имеет права доступа классифицируемый субъект (назовем эти объекты анализируемыми), текущую метку конфиденциальности классифицируемого субъекта, при наличии, и данные, предусмотренные политикой безопасности среды функционирования классификатора [11, 12].After determining the confidentiality marks of the information system objects, the classifier proceeds to the classification stage of a finite set of subjects (authorized users) S. Based on the matrix of access rights and confidentiality marks, a set of classification indicators is formed, including the confidentiality marks of all objects to which the subject has access rights (let's call these objects are analyzed), the current label of confidentiality of the classified entity, if available, and the data provided tions of the security environment of the functioning of the classifier [11, 12].

Работа классификатора поясняется на примере системы электронного документооборота, в котором задано четыре метки конфиденциальности.The classifier operation is explained on the example of an electronic document management system, in which four confidentiality marks are specified.

С целью разработки правила построения системы предикатов распознавания метки конфиденциальности субъектов введем множество переменных mo,

Figure 00000024
xs с величиной алфавитов 4, 4, 2 соответственно, гдеIn order to develop a rule for constructing a system of predicates of recognition of the label of privacy of subjects, we introduce a set of variables m o
Figure 00000024
x s with the value of alphabets 4, 4, 2, respectively, where

mo - метка конфиденциальности анализируемого объекта;m o - privacy label of the object being analyzed;

Figure 00000025
- текущая метка конфиденциальности классифицируемого субъекта;
Figure 00000025
- current confidentiality label of the subject being classified;

xs - условия безопасности классификации субъекта системы электронного документооборота.x s - security conditions for the classification of the subject of the electronic document management system.

Структуру используемых в данном примере признаков удобно представить в виде таблицы 1.The structure of the features used in this example is conveniently presented in the form of table 1.

Figure 00000026
Figure 00000026

Figure 00000027
Figure 00000027

Однозначность и правильность классификации субъекта для λ=4 меток конфиденциальности доказаны прямым перебором. Доказательство является аналогичным для любой λ. При этом для реакции системы на присвоение метки проверяется не наличие необходимых условий, а отсутствие препятствующих, так как при анализе первого документа в потоке у субъекта отсутствует текущая метка классифицируемого субъекта [13].The unambiguity and correctness of the classification of the subject for λ = 4 confidentiality marks are proved by brute force. The proof is similar for any λ. At the same time, for the reaction of the system to the label assignment, it is not the presence of the necessary conditions that is checked, but the absence of interfering ones, since the subject does not have the current label of the subject being classified in the flow analysis [13].

Применяя алгебру конечных предикатов, составим систему предикатов определения метки конфиденциальности классифицируемого субъекта [9]:Applying the algebra of finite predicates, we construct a system of predicates for determining the confidentiality label of a classified subject [9]:

Figure 00000028
Figure 00000028

Наличие «дополнительного» предиката (сохранение текущего состояния), не свойственного для правил (1-4), является необходимостью. Он исключает постоянное срабатывание режима обучения при обнаружении нарушения политики безопасности, автоматически принимая априорно заданное решение. В заявленном способе это игнорирование потенциально опасного анализируемого объекта. Такой подход исключает завышение метки конфиденциальности субъекта.The presence of an “additional” predicate (preservation of the current state), which is not peculiar to the rules (1-4), is a necessity. It eliminates the constant triggering of the training mode when a security policy violation is detected, automatically making an a priori given decision. In the claimed method, this ignoring a potentially dangerous object to be analyzed. This approach eliminates the overestimation of the subject confidentiality label.

Таким образом, правило построения предиката узнавания метки конфиденциальности субъектов

Figure 00000029
выражается формулой:Thus, the rule for constructing a predicate for recognizing the confidentiality label of subjects
Figure 00000029
expressed by the formula:

Figure 00000030
Figure 00000030

где

Figure 00000031
- предикат узнавания значения метки конфиденциальности Я анализируемого объекта dy;Where
Figure 00000031
- predicate of recognizing the value of confidentiality label I of the analyzed object d y ;

Figure 00000032
- предикат узнавания текущей метки конфиденциальности λ классифицируемого субъекта s;
Figure 00000032
- the predicate of recognition of the current label confidentiality λ of the classified entity s;

Figure 00000033
- предикат узнавания соблюдения условий τ безопасной классификации субъекта s.
Figure 00000033
- predicate of recognition of compliance with the conditions τ of a secure classification of a subject s.

Условия безопасности классификации формулируются в рамках политики безопасности организации и могут существенно отличаться в зависимости от целей применения классификатора и ценности обрабатываемой в системе информации. Реализация политики безопасности в классифицируемой информационной системе требует отдельного исследования и в рамках предлагаемого способа ограничивается схемой безопасно-небезопасно.Classification security conditions are formulated within the framework of an organization’s security policy and may differ significantly depending on the purpose of the classifier and the value of the information processed in the system. The implementation of a security policy in a classified information system requires a separate study and, in the framework of the proposed method, is limited to a safe-unsafe scheme.

В режиме обучения по предъявленному набору классифицированных вручную объектов и субъектов системы электронного документооборота, формируют системы предикатов идентификации их меток конфиденциальности. Количество предикатов в системе определяется: для объектов количеством меток конфиденциальности, заданных в информационной системе, для субъектов - количеством меток конфиденциальности +1. Сохраняют системы предикатов в базе данных.In the training mode, based on the presented set of manually classified objects and subjects of the electronic document management system, predicate systems of identification of their confidentiality marks are formed. The number of predicates in the system is determined: for objects, the number of confidentiality labels specified in the information system, for subjects - the number of confidentiality labels +1. Store predicate systems in a database.

В режиме работы системы на этапе классификации объектов (документов) осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова текста в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте, получившиеся значения подставляют в систему предикатов (4), находящуюся в базе данных. По предикату, принявшему значение истинности «1», определяется область информационной ответственности и метка конфиденциальности классифицируемого объекта (документа).In the system operation mode, at the stage of classification of objects (documents), the document is converted from a storage format into natural language text, text words are converted into basic word forms, insignificant words are discarded, word weights are counted in the text, the resulting values are substituted into the predicate system (4) in the database. According to the predicate, which accepted the truth value “1”, the area of information responsibility and the confidentiality label of the classified object (document) is determined.

При классификации субъектов информационной системы, для каждого из них формируется набор классификационных признаков. Данные признаки извлекаются из матрицы прав доступа и включают: набор множества анализируемых объектов, их метки конфиденциальности, текущие метки конфиденциальности классифицируемого субъекта (при наличии) и данные о политике безопасности. Определенный таким образом набор признаков подставляют в систему предикатов (5), находящуюся в базе данных. По предикату, принявшему значение истинности «1», определяется метка конфиденциальности классифицируемого субъекта.When classifying subjects of an information system, a set of classification features is formed for each of them. These characteristics are extracted from the matrix of access rights and include: a set of the set of analyzed objects, their confidentiality marks, current confidentiality marks of the classified entity (if any) and data on security policy The set of features determined in this way is substituted into the predicate system (5) in the database. According to the predicate that accepted the truth value “1”, the confidentiality label of the classified entity is determined.

При этом, в случае необходимости использования априорной информации о зависимостях меток конфиденциальности друг от друга используем алгебру конечных предикатов [9], позволяющую проводить полный спектр операций над логическими выражениями. Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.In this case, if it is necessary to use a priori information about the dependencies of the confidentiality labels from each other, we use the algebra of finite predicates [9], which allows us to carry out a full range of operations on logical expressions. Note that this method is intended for processing machine-readable texts in natural language.

Вес ƒ wp словоформы в тексте документа dy, рассчитывается по формуле:Weight ƒ w p word forms in the text of the document d y , is calculated by the formula:

Figure 00000034
Figure 00000034

Здесь

Figure 00000035
- количество раз, которое wp-я словоформа встречается в dy-м тексте документа,
Figure 00000036
- общее количество словоформ в dy-m тексте документа.Here
Figure 00000035
- the number of times that the w p th word form occurs in the d y th text of the document,
Figure 00000036
- the total number of word forms in the d y -m text of the document.

Документы для классификации могут быть представлены в различных форматах, допускающих выделение из них текстового содержания. Это могут быть текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание. Кроме того, классификатор должен иметь возможность извлечения информации из матрицы прав доступа независимо от ее реализации (свойства объекта, профиль субъекта или системная матрица).Documents for classification can be presented in various formats, allowing the selection of text content from them. These can be text files of various formats, graphic files with a graphic representation of some text, sound files with speech recording and other files for which there is a mechanism for extracting text from them that reflects their content. In addition, the classifier should be able to extract information from the matrix of access rights, regardless of its implementation (object properties, subject profile or system matrix).

Каждый объект (либо обучающий, либо подвергающийся классификации) предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов [14-17]. Наиболее часто для решения подобных задач используется алгоритм Портера, заключающийся в использовании специальных правил отсечения и замены окончаний слов.Each object (either training or subject to classification) passes through a preprocessing stage, which determines the format of the document and determines whether it is possible to extract text from a document of this format. In the case of a positive decision, the text is extracted from the document. After splitting the text into words, the definition for each word of its base word form occurs in one of the ways [14-17]. Most often, the Porter algorithm is used to solve such problems, which consists in using special rules for cutting off and replacing word endings.

Согласно предлагаемому способу каждый объект dy представляется декартовым произведением переменных из множеств Т×L×W, где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее вручную классифицированных по меткам конфиденциальности. После извлечения из них текстового содержания происходит построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.According to the proposed method, each object d y is represented by a Cartesian product of variables from the T × L × W sets, where the classifier training stage serves to initialize the classifier and build the classification criteria. This should be given a set of training documents, manually classified in advance by the labels of confidentiality. After extracting textual content from them, a dictionary of meaningful words is constructed. The dictionary contains the basic word forms of all words found in the training documents.

При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора данной метки конфиденциальности. В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной категории, не попавшие в стоп-словарь. Информативность словоформы wp для классификатора по информационной области uβ определяется по следующей формуле [18]:When classifying a document, not all word forms from the dictionary of documents are taken into account, but only those that are included in the working dictionary of the classifier of this privacy label. The most informative word forms from the point of view of determining the ownership of a document in this category, not included in the stop dictionary, are included in the classifier's working dictionary. The informativeness of the word form w p for the classifier for the information area u β is determined by the following formula [18]:

Figure 00000037
Figure 00000037

При этом устанавливается порог информативности ε; в рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает этот порог. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом отсекаются слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0,05 до 0,7 в зависимости от специфики использования способа. Значения порога информативности δ могут быть различны в различных условиях использования способа.At the same time, the threshold of informativeness ε is set all word forms that do not fall into the stop dictionary, the information content of which exceeds this threshold, are included in the classifier’s work dictionary. The stop dictionary consists of word forms whose frequency of occurrence in a set of training documents exceeds a predetermined threshold δ. This cut off words that do not carry a semantic load, such as prepositions, conjunctions, introductory and common words, etc. The values of the coefficient δ, according to this method, are set in the range from 0.05 to 0.7, depending on the specific use of the method. The values of the threshold of informativeness δ can be different in different conditions of use of the method.

Однозначно определив область информационной ответственности, к которой относится документ по (3), используя извлеченные метаданные документа, а именно, определяющие его конфиденциальность реквизиты документа, полученные по (1), определяется соответствующая ему метка конфиденциальности. Для этого указанные значения подставляются в систему предикатов построенных по (4). По предикату, принявшему значение истинности «1», из списка определяется метка конфиденциальности.By unambiguously identifying the area of information responsibility to which the document of (3) belongs, using the extracted document metadata, namely, the document details defining its confidentiality obtained by (1), the corresponding confidentiality mark is determined. For this, the indicated values are substituted into the system of predicates constructed by (4). According to the predicate that accepted the truth value "1", the confidentiality label is determined from the list.

Определив метки конфиденциальности объектов информационной системы, классификатор переходит к этапу классификации субъектов. Для этого наборы классификационных признаков для каждого анализируемого объекта, извлеченные из матрицы прав доступа, подставляются в систему предикатов. Система предикатов построена на этапе обучения по правилу (5) и находится в базе данных. После анализа всех объектов относительно классифицируемого субъекта по предикатам, принявшим значение истинности «1», определяется метка конфиденциальности.Having determined the confidentiality marks of the information system objects, the classifier proceeds to the stage of classification of subjects. For this, sets of classification signs for each analyzed object, extracted from the matrix of access rights, are substituted into the predicate system. The predicate system is built at the stage of learning by the rule (5) and is in the database. After analyzing all the objects with respect to the subject being classified, the prediction mark is determined by the predicates that accepted the truth value “1”.

Сопоставительный анализ заявляемого решения с прототипом показывает, что предлагаемый способ отличается от известного формированием на этапе обучения и применением на этапе классификации системы предикатов, строящейся по правилу (5). А так же усовершенствованным правилом (4).Comparative analysis of the proposed solution with the prototype shows that the proposed method differs from the well-known formation at the training stage and the application at the stage of classification of the predicate system, built according to rule (5). As well as an improved rule (4).

Благодаря новой совокупности существенных признаков в способе реализована возможность обеспечения классификации субъектов системы электронного документооборота по меткам конфиденциальности.Thanks to a new set of essential features, the method enables the classification of subjects of the electronic document management system according to confidentiality marks.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».The analysis of the level of technology has allowed to establish that the analogues, characterized by a set of features that are identical to all the features of the claimed technical solution, are absent, which indicates the compliance of the claimed method to the condition of patentability "novelty."

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обуславливающих тот же технический результат, который достигнут в заявленном способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».Search results known solutions in this and related areas of technology in order to identify signs that match the distinctive features of the prototype features of the declared object, showed that they do not follow explicitly from the prior art. The prior art also revealed no prominence of distinctive essential features causing the same technical result, which was achieved in the claimed method. Therefore, the claimed invention meets the condition of patentability "inventive step".

Краткое описание чертежейBrief Description of the Drawings

На фигуре представлена блок-схема вычислительного устройства для реализации способа.The figure shows a block diagram of a computing device for implementing the method.

Устройство для реализации способа состоит из блоков: источника документов 1, анализатора характеристик текста 2, распознавания реквизитов документа 3, распознавания формы документа 4, выделения метаданных 5, определения базовых словоформ 6, создания рабочего словаря 7, определение весов словоформ текста документа 8, распознавания области информационной ответственности 9, учета документа по метаданным 10, обучения 11, распознавания метки конфиденциальности объекта (документа) 12, адресации документа 13, распознавания метки конфиденциальности субъекта 14, загрузка в систему в соответствии с полученной классификацией 15. Осуществление изобретенияThe device for implementing the method consists of the following blocks: source of documents 1, analyzer of text characteristics 2, recognition of the details of document 3, recognition of the form of document 4, selection of metadata 5, definition of basic word forms 6, creation of a working dictionary 7, determination of weights of word forms of the text of the document 8, area recognition information responsibility 9, accounting of document on metadata 10, training 11, recognition of the confidentiality label of the object (document) 12, addressing of document 13, recognition of the confidentiality label from 14, loading into the system in accordance with the received classification 15. Implementation of the invention

Автоматическая классификация формализованных текстовых документов и авторизованных пользователей системы электронного документооборота осуществляется следующим образом:Automatic classification of formalized text documents and authorized users of the electronic document management system is as follows:

1. В режиме классификации.1. In the classification mode.

На этапе классификации объектов (формализованных текстовых документов). При появлении в источнике документов 1 нового документа он поступает в блок 2, который выявляет значения характеристик текста t участков документа и ключевых слов

Figure 00000038
в них. Значения t и
Figure 00000039
участков документа поступают в блок 3, где с помощью системы предикатов, построенных по правилу (1) распознаются реквизиты документа. Информация о распознанных реквизитах документа поступает в блок 4, где система предикатов, построенная по правилу (2) осуществляет распознавание формы документа.At the stage of classification of objects (formalized text documents). When a new document appears in the document source 1, it enters block 2, which reveals the values of the text characteristics of the t document sections and keywords
Figure 00000038
in them. Values of t and
Figure 00000039
plots of the document are received in block 3, where using the system of predicates built according to rule (1), document details are recognized. Information about the recognized details of the document goes to block 4, where the predicate system built according to rule (2) recognizes the form of the document.

В блоке 5 из поступившего документа от блока 2, используя сведения об определенной форме документа из блока 4, которая однозначно задает места расположения значений реквизитов документа, выделяются требуемые значения реквизитов, которые являются метаданными документа. Документ и соответствующие ему метаданные поступают в блок 10, где документ учитывается по своим метаданным и организуется хранение его эталонной копии. Также однозначно определенная в блоке 5 информативная часть документа поступает в блок 6, где слова преобразуются в словоформы. Полученные в блоке 6 словоформы поступают в блок 7, где в процессе работы системы происходит создание рабочего словаря из значимых слов.In block 5 of the incoming document from block 2, using information about a specific form of the document from block 4, which uniquely specifies the location of the document details, the required values of the details, which are the metadata of the document. The document and the corresponding metadata come in block 10, where the document is taken into account according to its metadata and the storage of its reference copy is organized. Also uniquely defined in block 5, the informative part of the document goes to block 6, where the words are converted into word forms. Received in block 6 word forms come in block 7, where in the process of the system is the creation of a working dictionary of significant words.

Полученные в блоке 6 словоформы поступают в блок 8, где производится расчет весов ƒ словоформ информативной части документа, попавших в рабочий словарь. Из блока 8 значения весов полученных словоформ поступают в блок 9, где происходит распознавание информационной области

Figure 00000040
путем вычисления значений предикатов системы предикатов, построенной по правилу (3).The word forms obtained in block 6 are transferred to block 8, where weights ƒ word forms of the informative part of the document that fall into the working dictionary are calculated. From block 8, the weights of the received word forms go to block 9, where the information area is recognized
Figure 00000040
by calculating the predicate values of the predicate system constructed according to rule (3).

Из блока 10 документ поступает в блок 13, а метаданные - в блок 12 и 13. В блоке 12 на основе поступивших из блока 10 метаданных, а именно реквизитов документа, и значений полученных в блоке 9 на основе системы предикатов, построенной по правилу (4) определяется соответствующая классифицируемому документу метка конфиденциальности. В блоке 13 поступившему документу и метаданным из блока 10 на основе значений поступивших из блоков 12 и 9 присваиваются соответствующие информационным областям права доступа и метка конфиденциальности классифицируемого документа.From block 10, the document goes to block 13, and the metadata goes to block 12 and 13. In block 12, based on the metadata received from block 10, namely the document details, and the values obtained in block 9, based on the predicate system built according to the rule (4 ) A confidentiality label corresponding to the classified document is determined. In block 13, the received document and metadata from block 10, based on the values received from blocks 12 and 9, are assigned the corresponding access rights and confidentiality label of the classified document.

Далее через блок 15 происходит загрузка документа в информационную систему в соответствии с определенными классами, (прописывание прав доступа и меток конфиденциальности).Next, through block 15, the document is loaded into the information system in accordance with certain classes, (prescribing access rights and confidentiality marks).

На этапе классификации субъектов (авторизованных пользователей). В блок 14 из блока 15 поступают данные об анализируемых объектах (метки конфиденциальности документов, к которым классифицируемый субъект имеет права доступа read, write; данные, характеризующие соблюдение политики безопасности) и текущая метка конфиденциальности классифицируемого субъекта. В блоке 14 на основе поступивших из блока 15 данных и системы предикатов, построенной по правилу (5), определяется соответствующая классифицируемому субъекту метка конфиденциальности.At the stage of the classification of subjects (authorized users). Block 14 of Block 15 receives data on the objects being analyzed (confidentiality labels of documents to which the classified entity has read, write access rights; data characterizing compliance with the security policy) and the current confidentiality label of the classified entity. In block 14, based on the data received from block 15 and the predicate system built according to rule (5), a confidentiality label corresponding to the subject being classified is determined.

Существует возможность корректировки метокIt is possible to adjust the labels

проклассифицированных субъектов при поступлении в систему новых документов. Тогда метка конфиденциальности анализируемого объекта поступает в блок 14 из блока 13.classified subjects when new documents enter the system. Then the privacy label of the object being analyzed comes to block 14 from block 13.

Далее через блок 15 полученная в блоке 14 метка конфиденциальности загружается в информационную систему. 2. В режиме обучения.Further, through block 15, the confidentiality label obtained in block 14 is loaded into the information system. 2. In training mode.

Режим обучения системой используется в следующих случаях:The system learning mode is used in the following cases:

в случае невозможности распознавания системой предикатов реквизитов документа в блоке 3 по значениям переменных документа t и

Figure 00000041
В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 3 или определяется реквизит документа «вручную»;if it is impossible for the system to recognize the predicates of the document details in block 3 by the values of the document variables t and
Figure 00000041
In this case, the system operator, through block 11, makes changes to the predicate system of block 3 or determines the document attribute “manually”;

в случае невозможности распознавания системой предикатов формы документа в блоке 4 по значениям предикатов системы предикатов блока 3. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 4 или определяется форма документа «вручную»;if it is impossible for the system to recognize the predicates of the document form in block 4, based on the predicates of the predicate system of block 3. In this case, the system operator through block 11 makes changes to the predicate system of block 4 or determines the document form "manually";

в случае невозможности распознавания системой предикатов информационной области в блоке 9 по значениям весов значимых слов из рабочего словаря, извлеченных из информативной части документа. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 9 или определяется информационная область документа «вручную»;if it is impossible for the system to recognize the predicates of the information area in block 9 by the values of the weights of significant words from the working dictionary extracted from the informative part of the document. In this case, the system operator through block 11 makes changes to the predicate system of block 9 or determines the information area of the document "manually";

в случае невозможности распознавания системой предикатов метки конфиденциальности объекта в блоке 12 по значениям предикатов системы предикатов блока 9 и метаданным блока 10. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 12 или определяется метка конфиденциальности «вручную»;if it is impossible for the system to recognize the predicates of the object's confidentiality mark in block 12, the predicate values of the predicate system of block 9 and the block 10 metadata. In this case, the system operator modifies the predicate system of block 12 through block 11 or determines the confidentiality mark "manually";

в случае невозможности распознавания системой предикатов метки конфиденциальности субъекта в блоке 14 по данным блока 15. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 14 или определяется метка конфиденциальности «вручную».if it is impossible for the system to recognize the predicates of the subject's confidentiality mark in block 14 according to block 15. In this case, the system operator makes changes to the predicate system of block 14 through block 11 or determines the confidentiality mark "manually".

Таким образом, способ позволяет классифицировать по меткам конфиденциальности не только объекты системы электронного документооборота (формализованные электронные текстовые документы), но и субъекты системы (авторизованных пользователей, исполнителей), чем достигается поставленный выше технический результат.Thus, the method allows to classify not only objects of the electronic document management system (formalized electronic text documents) by confidentiality marks, but also the subjects of the system (authorized users, performers), thus achieving the above technical result.

Источники информации:Information sources:

1. Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998.1. Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998.

2. Пат.6327581 Соединенные Штаты Америки, МПК G 06 F 015/18.Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01.2. Pat. 6327581 United States of America, IPC G 06 F 015 / 18. Metals and apparatus for the support vector machine [Text] / CarltonJ .; applicant and patent holder of Microsoft Corporation. - №09 / 055477; declare 04/06/98; publ. 12.12.01.

3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168.3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168.

4. Пат.2254610 Российская Федерация, МПК G 06 F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТЖА". - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05.4. Pat.2254610 Russian Federation, IPC G 06 F 17/30. Method of automatic classification of documents [Text] / Agranovsky AV, Arutyunyan R.E., Hadi R.A., Telesnin B.A .; applicant and patent holder State Scientific Institution Research Institute "SPETSVUZAVTOMATA". - № 2003126907/09; declare 09/04/03; publ. 06/20/05.

5. Пат. 2546555 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации формализованных документов в системе электронного документооборота [Текст] / Носенко СВ., Королев И.Д., Поддубный М.И.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Военная академия связи имени Маршала Советского Союза С.М. Буденного» Министерства обороны Российской Федерации. - №2013155168/08; заявл. 11.12.2013; опубл. 10.04.2015.5. Pat. 2546555 Russian Federation, IPC G06F 17/30. The method of automatic classification of formalized documents in the electronic document management system [Text] / Nosenko SV., Korolev I.D., Poddubny M.I .; Applicant and patent holder Federal State State Military Educational Establishment of Higher Professional Education “Marshal of the Soviet Union Communications Academy named after Marshal of the Soviet Union S.M. Budyonny ”of the Ministry of Defense of the Russian Federation. - # 2013155168/08; declare 11/12/2013; publ. 04/10/2015.

6. Заявка на изобретение №2015152418 от 07.12.2015. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота [Текст] / Поддубный М.И., Королев И.Д., Носенко СВ.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Краснодарское высшее военное училище имени генерала армии С.М. Штеменко» Министерства обороны Российской Федерации - №2015152418; заявл. 07.12.2015; опубл. 13.06.2017 Бюл. №17.6. Application for the invention №2015152418 from 07.12.2015. The method of automatic classification of confidential formalized documents in the electronic document management system [Text] / M.I. Poddubny, I.D. Korolev, SV; Applicant and patent holder Federal State Official Military Educational Institution of Higher Professional Education “Krasnodar Higher Military School named after Army General S.М. Shtemenko ”of the Ministry of Defense of the Russian Federation - №2015152418; declare 12/07/2015; publ. 13.06.2017 Bull. №17.

7. ГОСТ Р 6.30-2003. Унифицированные системы документации. Унифицированная система организационно-распорядительной документации. Требования к оформлению документов: утв. и введ. в действие Постановлением Госстандарта России от 3.03.2003 №65 - ст. - М.: Стандартинформ, 2007 г. - 17 с.7. GOST R 6.30-2003. Unified documentation systems. Unified system of organizational and administrative documentation. Requirements for the paperwork: approved. and enter. into effect by the Resolution of Gosstandart of Russia dated 03.03.2003 No. 65 - art. - M .: Standardinform, 2007 - 17 p.

8. Королев И.Д. Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах / И.Д. Королев, СВ. Носенко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). - IDA [article ID]: 0921308074. -Режим доступа: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0,875 у.п.л.8. Korolev I.D. Approaches to the operational identification of formalized electronic documents in automated records management / I.D. Korolev, SV Nosenko // Polythematic network electronic scientific journal of the Kuban State Agrarian University (Scientific journal of KubSAU) [Electronic resource]. - Krasnodar: KubSAU, 2013. - №08 (092). - IDA [article ID]: 0921308074. -Access mode: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0.875 u.s.

9. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Об алгебре конечных предикатов. [Текст] // Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина - 2011 №3(77).9. M.F. Bondarenko, Yu.P. Shabanov-Kushnarenko. On the algebra of finite predicates. [Text] // Scientific and technical journal "Bionics of intelligence". KNURE, Kharkov, Ukraine - 2011 No. 3 (77).

10. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота / Д.В. Малышев, И.Н. Шайков, М.И. Поддубный, И.Д. Королев // Телекоммуникации.: ежемес. произв., информ.-аналит. и учеб.-метод, ж-л, г. Москва: МГТУ им. Баумана, 2016 №8. - С. 18-22.10. Method for automatic classification of confidential formalized documents in the electronic document management system / D.V. Malyshev, I.N. Shaykov, M.I. Poddubny, I.D. Korolev // Telecommunications .: every month. Inform., analyte. and study.-method, journal, Moscow: MSTU. Bauman, 2016 8. - p. 18-22.

11. «Руководящий документ. Автоматизированные системы. Защита от несанкционированного доступа к информации. Классификация автоматизированных систем и требования по защите информации» (утв. решением Гостехкомиссии России от 30.03.1992).11. “Guidance document. Automated systems. Protection against unauthorized access to information. Classification of automated systems and information security requirements ”(approved by the decision of the State Technical Commission of Russia of March 30, 1992).

12. «Руководящий документ. Средства вычислительной техники. Защита от несанкционированного доступа к информации. Показатели защищенности от несанкционированного доступа к информации» (утв. решением Гостехкомиссии России 30.03.1992).12. “Guidance document. Computing facilities. Protection against unauthorized access to information. Indicators of protection against unauthorized access to information "(approved by the decision of the State Technical Commission of Russia on March 30, 1992).

13. Методика автоматической классификации сущностей системы электронного документооборота по меткам конфиденциальности // Интернет-журнал «Технологии техносферной безопасности» (Научный журнал Академии Государственной противопожарной службы) [Электронный ресурс]. - М.: 2016. - №6(70). - ISSN 2071-7342. - режим доступа http://agps-2006/narod.ru//ttb/2016-6/29-06-16.ttb.pdf.13. Methods of automatic classification of entities of the electronic document management system according to confidentiality marks // Internet magazine “Technosphere Safety Technologies” (Scientific Journal of the Academy of the State Fire Service) [Electronic resource]. - M .: 2016. - №6 (70). - ISSN 2071-7342. - access mode http: //agps-2006/narod.ru//ttb/2016-6/29-06-16.ttb.pdf.

14. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.14. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.

15. Пат.2096825 Российская Федерация, МПК G06F 17/00, G06F 17/30. Устройство обработки информации для информационного поиска [Текст] / Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В; заявитель и патентообладатель Общество с ограниченной ответственностью "Информбюро". - №96119820/09; заявл. 14.10.96; опубл. 20.11.97, Бюл. №14.15. Pat.2096825 Russian Federation, IPC G06F 17/00, G06F 17/30. Information processing device for information retrieval [Text] / Kovalev, MV, Virgunov, IV, Naimushin, IA, Chetverev, VV; applicant and patent holder Limited Liability Company "Information Bureau". - №96119820 / 09; declare 10.14.96; publ. 11/20/97, Bull. 14.

16. Пат. 6308149 Соединенные Штаты Америки, МПК G06F 17/27. Grouping words with equivalent substrings by automatic clustering based on suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/213309; заявл. 16.12.98; опубл. 23.10.01.16. Pat. 6308149 United States, IPC G06F 17/27. Grouping words with equivalent substrings / Gaussier E., Grefenstette G., Chanod J.-P .; applicant and patent holder Xerox Corporation. - №09 / 213309; declare 12/16/98; publ. 23.10.01.

17. Пат. 6430557 Соединенные Штаты Америки, МПК G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using modified query words obtained from successive suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/212662; заявл. 16.12.98; опубл. 06.08.02.17. Pat. 6430557 United States of America, IPC G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using a modified suffix relationships / Gaussier E., Grefenstette G., Chanod J.-P .; applicant and patent holder Xerox Corporation. - №09 / 212662; declare 12/16/98; publ. 08.08.02

18. Craven M., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118(1-2), 2000, pp. 69-113.18. Craven M., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118 (1-2), 2000, pp. 69-113.

Claims (1)

Способ автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота, заключающийся в том, что вычислительным устройством определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков: на этапе обучения по набору классифицированных вручную документов формируют систему предикатов идентификации метки конфиденциальности документа, сохраняют систему предикатов в базе данных; на этапе классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из меток конфиденциальности, отличающийся тем, что на основе меток конфиденциальности поступивших документов и прав доступа авторизованных пользователей системы к этим документам, извлекаемых из матрицы прав доступа, формируют набор классификационных признаков: на этапе обучения по набору классифицированных вручную авторизованных пользователей формируют систему предикатов идентификации их метки конфиденциальности и сохраняют систему предикатов в базе данных; на этапе классификации авторизованного пользователя получившийся набор классификационных признаков подставляют в систему предикатов, находящуюся в базе данных, по предикату, принявшему значение «истина», принимают решение об относимости авторизованного пользователя к одной из меток конфиденциальности.The method of automatic classification of formalized text documents and authorized users of the electronic document management system, consisting in that the computing device determines the areas of the formalized document for extracting metadata and informative part, converts the document from the storage format into text in natural language, converts the words of the converted document into basic word forms , discard insignificant words, calculate the weights of words in the document in accordance with Vii with the frequencies of their appearance and form a set of classification features: at the stage of training on a set of manually classified documents form a system of predicates for identifying the document confidentiality label, save the system of predicates in the database; at the stage of document classification, on the basis of received classification criteria, a decision is made on the relevance of the document to each of the confidentiality marks, characterized in that based on the confidentiality marks of the received documents and the access rights of authorized users of the system to these documents, extracted from the matrix of access rights, set of classification features: at the stage of training on a set of manually classified authorized users form a system of predicates and identifying their privacy labels and storing the predicate system in a database; at the stage of classification of an authorized user, the resulting set of classification signs is substituted into the predicate system located in the database, according to the predicate that has assumed the value “true”, decide on the relevance of the authorized user to one of the confidentiality marks.
RU2017144325A 2017-12-18 2017-12-18 Method for automatic classification of formalized text documents and authorized users of electronic document management system RU2692043C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2017144325A RU2692043C2 (en) 2017-12-18 2017-12-18 Method for automatic classification of formalized text documents and authorized users of electronic document management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017144325A RU2692043C2 (en) 2017-12-18 2017-12-18 Method for automatic classification of formalized text documents and authorized users of electronic document management system

Publications (3)

Publication Number Publication Date
RU2017144325A RU2017144325A (en) 2019-06-18
RU2017144325A3 RU2017144325A3 (en) 2019-06-18
RU2692043C2 true RU2692043C2 (en) 2019-06-19

Family

ID=66947215

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017144325A RU2692043C2 (en) 2017-12-18 2017-12-18 Method for automatic classification of formalized text documents and authorized users of electronic document management system

Country Status (1)

Country Link
RU (1) RU2692043C2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
RU2392660C2 (en) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Method of searching for information in text array
US20100262454A1 (en) * 2009-04-09 2010-10-14 SquawkSpot, Inc. System and method for sentiment-based text classification and relevancy ranking
RU2474870C1 (en) * 2011-11-18 2013-02-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for automated analysis of text documents
RU2626555C2 (en) * 2015-12-02 2017-07-28 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of entities from texts in natural language
RU2632408C2 (en) * 2013-03-08 2017-10-04 БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД Classification of documents using multilevel signature text
RU2647640C2 (en) * 2015-12-07 2018-03-16 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Method of automatic classification of confidential formalized documents in electronic document management system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
RU2392660C2 (en) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Method of searching for information in text array
US20100262454A1 (en) * 2009-04-09 2010-10-14 SquawkSpot, Inc. System and method for sentiment-based text classification and relevancy ranking
RU2474870C1 (en) * 2011-11-18 2013-02-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Method for automated analysis of text documents
RU2632408C2 (en) * 2013-03-08 2017-10-04 БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД Classification of documents using multilevel signature text
RU2626555C2 (en) * 2015-12-02 2017-07-28 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of entities from texts in natural language
RU2647640C2 (en) * 2015-12-07 2018-03-16 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Method of automatic classification of confidential formalized documents in electronic document management system

Also Published As

Publication number Publication date
RU2017144325A (en) 2019-06-18
RU2017144325A3 (en) 2019-06-18

Similar Documents

Publication Publication Date Title
US11514235B2 (en) Information extraction from open-ended schema-less tables
Vijayakumar et al. Automated risk identification using NLP in cloud based development environments
El et al. Authorship analysis studies: A survey
RU2647640C2 (en) Method of automatic classification of confidential formalized documents in electronic document management system
Homem et al. Authorship identification and author fuzzy “fingerprints”
CN109670014B (en) Paper author name disambiguation method based on rule matching and machine learning
JPH07114572A (en) Document classifying device
CN112380848B (en) Text generation method, device, equipment and storage medium
Hb et al. Distributional Semantic Representation in Health Care Text Classification.
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
Monisha et al. Classification of bengali questions towards a factoid question answering system
US11557141B2 (en) Text document categorization using rules and document fingerprints
CN110020024B (en) Method, system and equipment for classifying link resources in scientific and technological literature
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
Dabade Sentiment analysis of Twitter data by using deep learning And machine learning
US20210319184A1 (en) Recognition of sensitive terms in textual content using a relationship graph of the entire code and artificial intelligence on a subset of the code
Pirovani et al. CRF+ LG: A hybrid approach for the portuguese named entity recognition
RU2692972C1 (en) Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager
RU2546555C1 (en) Method of automated classification of formalised documents in electronic document circulation system
Tang et al. Enriching feature engineering for short text samples by language time series analysis
RU2692043C2 (en) Method for automatic classification of formalized text documents and authorized users of electronic document management system
Pokharana et al. A Review on diverse algorithms used in the context of Plagiarism Detection
Romanov et al. Research of neural networks application efficiency in automatic scientific articles classification according to UDC
Oswal Identifying and categorizing offensive language in social media
Sharef et al. Text fragment extraction using incremental evolving fuzzy grammar fragments learner

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20201219