RU2692043C2 - Method for automatic classification of formalized text documents and authorized users of electronic document management system - Google Patents
Method for automatic classification of formalized text documents and authorized users of electronic document management system Download PDFInfo
- Publication number
- RU2692043C2 RU2692043C2 RU2017144325A RU2017144325A RU2692043C2 RU 2692043 C2 RU2692043 C2 RU 2692043C2 RU 2017144325 A RU2017144325 A RU 2017144325A RU 2017144325 A RU2017144325 A RU 2017144325A RU 2692043 C2 RU2692043 C2 RU 2692043C2
- Authority
- RU
- Russia
- Prior art keywords
- document
- confidentiality
- classification
- documents
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- JLQUFIHWVLZVTJ-UHFFFAOYSA-N carbosulfan Chemical compound CCCCN(CCCC)SN(C)C(=O)OC1=CC=CC2=C1OC(C)(C)C2 JLQUFIHWVLZVTJ-UHFFFAOYSA-N 0.000 description 3
- 230000007123 defense Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 244000309464 bull Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
Изобретение относится к системам классификации документов и может использоваться в системах электронного документооборота, базах данных, автоматизированных системах, использующих метки конфиденциальности, где объектами доступа являются формализованные текстовые документы, субъектами - авторизованные пользователи, в условиях произвольного числа применяемых меток конфиденциальности.The invention relates to document classification systems and can be used in electronic document management systems, databases, automated systems using confidentiality tags, where the access objects are formalized text documents, the subjects are authorized users, under conditions of an arbitrary number of confidentiality marks used.
Уровень техникиThe level of technology
а) Описание аналоговa) Description of analogues
Известен аналог - способ автоматической классификации документов (Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления, на этапе обучения, по предъявленному набору классифицированных вручную документов, формируют набор классификационных признаков, а при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе простого байесовского классификационного критерия и классификационных признаков определяют принадлежность документа к информационной области [1].A well-known analog is the method of automatic classification of documents (Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998), which consists in converting a document from the storage format to text in natural language, translate words of a document into basic word forms, discard insignificant words, calculate weights of words in a document in accordance with the frequencies of their occurrence, at the training stage, according to the presented set of manually classified documents, form a set of classification features, and document fictions convert it from storage format to natural language text, transform document words to basic word forms, discard insignificant words, calculate word weights in a document, determine whether a document belongs to an information area based on simple Bayesian classification criteria [1] .
Недостатками данного способа являются:The disadvantages of this method are:
не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;
не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.
Известен также аналог - способ автоматической классификации документов (Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (SupportVectorMachines) и классификационных признаков определяют принадлежность документа к информационной области [2].An analogue is also known - the method of automatic classification of documents (Pat. 6327581 United States of America, IPC G06F 015/18. [Text] / CarltonJ .; applicant and patent holder Microsoft Corporation. - №09 / 055477 ; declared April 6, 1998; publ. December 4, 01), which consists in converting a document from the storage format into natural language text, converting the words of the document into basic word forms, discarding insignificant words, counting the word weights in the document in accordance with with the frequencies of their appearance; at the training stage, a set of classification signs is formed according to the presented set of manually classified documents; when a document is classified, it is converted from storage format into text in natural language, the words of the document are converted into basic word forms, the insignificant words are rejected, the word weights are calculated in the document The SVM (SupportVectorMachines) criterion and classification criteria determine the document's belonging to the information area [2].
Недостатками данного способа являются:The disadvantages of this method are:
не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;
не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.
Известен также аналог - способ мультиклассовой классификации (Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из информационной области [3].An analogue is also known - a multiclass classification method (Schapire RE, Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), which consists in converting document from the storage format in the text in natural language, convert the words of the document into basic word forms, discard insignificant words, calculate the weights of words in the document in accordance with the frequencies of their appearance and thereby form a feature vector of the document, at the stage of training according to the presented set of manually classified documents ntov form a set of classification features, retain classification features in the database, when classifying a document, convert it from the storage format to natural language text, convert the words of the document into basic word forms, discard insignificant words, calculate the weights of words in the document and form a vector of document features , then decide on the ownership or non-ownership of the document of each of the information area [3].
Недостатками данного способа являются:The disadvantages of this method are:
не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;
не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.
Также известен аналог - способ автоматической классификации документов (Пат. 2254610 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА". - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий [4]. Недостатками данного способа являются:An analogue is also known - a method of automatic classification of documents (Pat. 2254610 Russian Federation, IPC G06F 17/30. Method of automatic classification of documents [Text] / Agranovsky AV, Arutyunyan R.E., Khadi R.A., Telesnin B. A.; Applicant and patentee State Scientific Institution Scientific Research Institute "SPETSVUZAVTOMATIKA". - №2003126907/09; declared September 4, 03, published on June 20, 2005), which is transforming the document from the storage format into text on natural language transform the words of the converted document the basic word forms, discard insignificant words, calculate the weights of words in the above-mentioned document in accordance with the frequencies of their appearance and thereby form a feature vector of the document; at the training stage, a set of classification features is stored in the database, when classifying a document, it is transformed from a storage format into text in a natural language, transform the words of a document into basic word forms , discard insignificant words, calculate the weights of words in the document and form a vector of signs of the document, after which they decide whether or not the document belongs to each category [4]. The disadvantages of this method are:
не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;
не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.
Также известен аналог - способ автоматической классификации формализованных документов в системе электронного документооборота (Пат.2546555 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации формализованных документов в системе электронного документооборота [Текст] / Носенко СВ., Королев И.Д., Поддубный М.И.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Военная академия связи имени Маршала Советского Союза С.М. Буденного» Министерства обороны Российской Федерации. - №2013155168/08; заявл. 11.12.2013; опубл. 10.04.2015), заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа: на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей, на этапе определения принадлежности документа каждой из информационной области используют априорную информацию о зависимостях категорий друг от друга [5].An analogue is also known - a method of automatic classification of formalized documents in an electronic document management system (Pat.2546555 Russian Federation, IPC G06F 17/30. Method of automatic classification of formalized documents in an electronic document management system [Text] / SV Nosenko, ID Korolev, Poddubny MI; applicant and patent holder Federal State State Military Educational Institution of Higher Professional Education "Marshal of the Soviet Union Communications Academy named after SM Budyonny" of the Ministry of Defense of the Russian Federation - No. 2013155168/08; declared December 11, 2013; published on April 10, 2015), which defines the areas of a formalized document for extracting metadata and the informative part, converts the document from the storage format to text on natural language, transform the words of the converted document into basic word forms, discard insignificant words, calculate the weights of words in the document in accordance with the frequencies of their appearance and thereby form the features of the document: at the learning stage poo of manually classified documents form a set of classification signs, save classification signs in the database; when classifying a document on the basis of the received classification features using a database, decide on the relevance of the document to each of the information areas, at the stage of determining the ownership of the document from each information area using a priori information about the category dependencies from each other [5].
Недостатками данного способа являются:The disadvantages of this method are:
не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;does not allow to classify formalized text documents by confidentiality marks;
не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.
б) Описание ближайшего аналога (прототипа)b) Description of the closest analogue (prototype)
Наиболее близким по технической сущности к предлагаемому является способ автоматической классификации конфиденциальныхThe closest in technical essence to the proposed is a method for automatic classification of confidential
формализованных документов в системе электронного документооборота, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа, на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к каждой из информационных областей и к каждой из меток конфиденциальности, заданных в информационной системе, на этапе определения принадлежности документа к каждой информационной области и метке конфиденциальности используют априорную информацию о зависимостях категорий друг от друга [6].formalized documents in the electronic document management system, which consists in defining the areas of the formalized document for extracting metadata and informative part, converting the document from the storage format into text in natural language, converting the words of the converted document into basic word forms, discarding insignificant words, calculating weights words in the document in accordance with the frequency of their appearance and thereby form the characteristics of the document, at the stage of training on a set of classifications manually generated documents form a set of classification signs, save classification signs in the database, when classifying a document based on the received classification signs using a database, decide whether the document is related to each of the information areas and to each of the privacy marks specified in the information system the stage of determining the document’s belonging to each information area and privacy label is used a priori information about dependency yah categories apart [6].
Недостатками данного способа являются:The disadvantages of this method are:
не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности применительно к системам, в которых число меток конфиденциальности произвольно, что существенно затрудняет реализацию;does not allow to classify formalized text documents by confidentiality labels in relation to systems in which the number of confidentiality labels is arbitrary, which significantly complicates implementation;
не позволяет классифицировать авторизованных пользователей по меткам конфиденциальности.does not allow to classify authorized users by confidentiality tags.
Раскрытие сущности изобретенияDisclosure of the invention
Целью настоящего изобретения является обеспечение автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота по меткам конфиденциальности.The aim of the present invention is to provide automatic classification of formalized text documents and authorized users of the electronic document management system by confidentiality tags.
Технический результат достигается тем, что вычислительным устройством определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков: на этапе обучения по набору классифицированных вручную документов формируют систему предикатов идентификации метки конфиденциальности документа, сохраняют систему предикатов в базе данных; на этапе классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из меток конфиденциальности, отличающийся тем, что на основе меток конфиденциальности поступивших документов и прав доступа авторизованных пользователей системы к этим документам, извлекаемых из матрицы прав доступа, формируют набор классификационных признаков: на этапе обучения по набору классифицированных вручную авторизованных пользователей формируют систему предикатов идентификации их метки конфиденциальности и сохраняют систему предикатов в базе данных; на этапе классификации авторизованного пользователя получившийся набор классификационных признаков подставляют в систему предикатов, находящуюся в базе данных, по предикату, принявшему значение «истина», принимают решение об относимости авторизованного пользователя к одной из меток конфиденциальности.The technical result is achieved by calculating the areas of a formalized document with the computing device to extract the metadata and informative part, converting the document from the storage format into natural language text, converting the words of the converted document into basic word forms, discarding insignificant words, counting the weights of the words in the document according to the frequencies of their occurrence, they form a set of classification signs: at the stage of training on a set of classified hands th documents form a system of identification marks of predicates confidential documents, retain the system of predicates in the database; at the stage of document classification, on the basis of received classification criteria, a decision is made on the relevance of the document to each of the confidentiality marks, characterized in that based on the confidentiality marks of the received documents and the access rights of authorized users of the system to these documents, extracted from the matrix of access rights, set of classification features: at the stage of training on a set of manually classified authorized users form a system of predicates and identifying their privacy labels and storing the predicate system in a database; at the stage of classification of an authorized user, the resulting set of classification signs is substituted into the predicate system located in the database, according to the predicate that has assumed the value “true”, decide on the relevance of the authorized user to one of the confidentiality marks.
Данный технический результат достигается за счет того, что осуществляют выделение характеристик одинаковых участков текста Z - реквизитов. При этом количество различных реквизитов формализованного документа ограничено [7], кроме того, некоторые из них не определяют индивидуальность формы документа (свойственные всем формам или не применяемые в данных условиях). Каждый реквизит выразим конечным предикатом PZ(T,L), где Т - конечное множество характеристик текста t, - множество ключевых слов реквизита, где q' - количество всех используемых ключевых слов.This technical result is achieved due to the fact that carry out the selection of the characteristics of the same parts of the text Z - details. At the same time, the number of different details of a formalized document is limited [7]; in addition, some of them do not determine the individuality of the document form (characteristic of all forms or not used in these conditions). Each attribute is expressed by the final predicate P Z (T, L), where T is a finite set of text characteristics t, - many keywords props where q 'is the number of all keywords used.
Правило построения предиката узнавания реквизита формализованного документа, выразится следующей формулой [8]:The rule for constructing a predicate for recognizing the prop of a formalized document is expressed by the following formula [8]:
где - предикат узнавания значения а h-той переменной текста;Where - predicate of recognition of the value of a h-that text variable;
μ - количество переменных текста;μ is the number of text variables;
ϕ - величина алфавита h-той переменной текста;ϕ - the value of the alphabet of the h-text variable;
- предикат узнавания значения b ключевого слова q соответствующего i-той зоне. - predicate of recognition of the value b of the keyword q corresponding to the i-th zone.
Форма документа выразится конечным предикатом PV(Z,L), где V={νj}, где - множество форм документа; j' количество всех используемых форм документов, Z - множество реквизитов документа, n - количество всех реквизитов документов, - множество ключевых слов, где q' - количество всех используемых ключевых слов.The form of the document is expressed by the final predicate P V (Z, L), where V = {ν j }, where - many forms of the document; j 'is the number of all document forms used, Z is the set of document details, n is the number of all document details, - many keywords, where q 'is the number of all keywords used.
Правило построения предиката узнавания формы документа выразится следующей формулой [8]:The rule for constructing a predicate for recognizing the form of a document is expressed by the following formula [8]:
где zi - предикат узнавания реквизита для j-той формы документа;Where z i - predicate recognition predicate for the j-th form of the document;
- предикат узнавания уникального значения γ ключевого слова q j-той формы документа. - the predicate of recognition of the unique value γ of the keyword q of the j form of the document.
С использованием правил (1, 2) создаются системы предикатов идентификации реквизитов и форм документов.Using the rules (1, 2), predicate identification systems and document forms are created.
Форма документа однозначно задает места расположения реквизитов документа, что позволяет классифицировать документы по форме документа и определяемой соответствующим реквизитом ограничения доступа.The form of the document uniquely specifies the location of the details of the document, which allows to classify documents according to the form of the document and determined by the corresponding access restriction.
Затем информативную часть документа (далее - текст) преобразуют из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотами их появления и тем самым формируют предикаты идентификации признаков текста.Then the informative part of the document (hereinafter referred to as the text) is transformed from the storage format into text in natural language, the words of the document are converted into basic word forms, the insignificant words are discarded, the weights of words in the text are calculated in accordance with the frequencies of their appearance, and thus the predicates of identifying text characters are formed .
В режиме обучения по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством областей информационной ответственности, на которые необходимо классифицировать документы (количество исполнителей в автоматизированной системе). Сохраняют предикаты в базе данных.In the training mode, according to the presented set of hand-classified texts, a predicate identification system of text features is formed, where the number of predicates in the predicate system is determined by the number of areas of information responsibility for which the documents must be classified (the number of executors in the automated system). Store predicates in the database.
Правило построения предиката PU (W) узнавания информационной области U={uβ}, где β' - количество областей информационнойThe rule for constructing the predicate P U (W) of recognition of the information area U = {u β }, where β '- the number of areas of information
ответственности, выражается следующей формулой [8]:responsibility, is expressed by the following formula [8]:
где W={wp} - множество значимых слов текстов, где where W = {w p } is the set of significant words of the texts, where
р' - количество значимых слов текстов;p '- the number of significant words of texts;
- предикат узнавания значения веса ƒ значимого слова wp, в тексте документа информационной области по g-тому значению веса слова. - predicate of recognition of the value of weight ƒ significant word w p , in the text of the document information area for the g-th word weight value.
Правило формирования системы предикатов узнавания метки конфиденциальности документа предполагает число информационных областей, сопоставимое с количеством применяемых меток конфиденциальности в системе [6]. Для реализации способа в более сложных информационных системах предлагается применять алгебру конечных предикатов.The rule of formation of the system of predicates of recognition of the document confidentiality label implies the number of information areas comparable to the number of applied confidentiality labels in the system [6]. To implement the method in more complex information systems it is proposed to apply the algebra of finite predicates.
С применением предложенной алгебры [9] представлено правило построения системы предикатов, не требующее дополнительных преобразований для любой информационной системы. Таким образом, правило построения предиката узнавания метки конфиденциальности М={mλ}, где λ' - количество определенных в системе меток конфиденциальности выразится следующей формулой [10]:Using the proposed algebra [9], a rule for constructing a system of predicates is presented that does not require additional transformations for any information system. Thus, the predicate construction rule recognition of the privacy label M = {m λ }, where λ '- the number of confidentiality labels defined in the system will be expressed by the following formula [10]:
где - предикат узнавания k-то значения r-ого реквизита;Where - the predicate of recognition of the k-value of the r-th props;
m0 - метка конфиденциальности объекта (документа dy), при этом mo ∈ М;m 0 is the privacy label of the object (document d y ), with m o ∈ M;
- предикат узнавания β-той области, где β' - количество информационных областей системы. - the predicate of recognition of β-the area where β 'is the number of information areas of the system.
После определения меток конфиденциальности объектов информационной системы, классификатор переходит к этапу классификации конечного множества субъектов (авторизованных пользователей) S. На основании матрицы прав доступа и меток конфиденциальности формируется набор классификационных признаков, включающий метки конфиденциальности всех объектов, к которым имеет права доступа классифицируемый субъект (назовем эти объекты анализируемыми), текущую метку конфиденциальности классифицируемого субъекта, при наличии, и данные, предусмотренные политикой безопасности среды функционирования классификатора [11, 12].After determining the confidentiality marks of the information system objects, the classifier proceeds to the classification stage of a finite set of subjects (authorized users) S. Based on the matrix of access rights and confidentiality marks, a set of classification indicators is formed, including the confidentiality marks of all objects to which the subject has access rights (let's call these objects are analyzed), the current label of confidentiality of the classified entity, if available, and the data provided tions of the security environment of the functioning of the classifier [11, 12].
Работа классификатора поясняется на примере системы электронного документооборота, в котором задано четыре метки конфиденциальности.The classifier operation is explained on the example of an electronic document management system, in which four confidentiality marks are specified.
С целью разработки правила построения системы предикатов распознавания метки конфиденциальности субъектов введем множество переменных mo, xs с величиной алфавитов 4, 4, 2 соответственно, гдеIn order to develop a rule for constructing a system of predicates of recognition of the label of privacy of subjects, we introduce a set of variables m o x s with the value of
mo - метка конфиденциальности анализируемого объекта;m o - privacy label of the object being analyzed;
- текущая метка конфиденциальности классифицируемого субъекта; - current confidentiality label of the subject being classified;
xs - условия безопасности классификации субъекта системы электронного документооборота.x s - security conditions for the classification of the subject of the electronic document management system.
Структуру используемых в данном примере признаков удобно представить в виде таблицы 1.The structure of the features used in this example is conveniently presented in the form of table 1.
Однозначность и правильность классификации субъекта для λ=4 меток конфиденциальности доказаны прямым перебором. Доказательство является аналогичным для любой λ. При этом для реакции системы на присвоение метки проверяется не наличие необходимых условий, а отсутствие препятствующих, так как при анализе первого документа в потоке у субъекта отсутствует текущая метка классифицируемого субъекта [13].The unambiguity and correctness of the classification of the subject for λ = 4 confidentiality marks are proved by brute force. The proof is similar for any λ. At the same time, for the reaction of the system to the label assignment, it is not the presence of the necessary conditions that is checked, but the absence of interfering ones, since the subject does not have the current label of the subject being classified in the flow analysis [13].
Применяя алгебру конечных предикатов, составим систему предикатов определения метки конфиденциальности классифицируемого субъекта [9]:Applying the algebra of finite predicates, we construct a system of predicates for determining the confidentiality label of a classified subject [9]:
Наличие «дополнительного» предиката (сохранение текущего состояния), не свойственного для правил (1-4), является необходимостью. Он исключает постоянное срабатывание режима обучения при обнаружении нарушения политики безопасности, автоматически принимая априорно заданное решение. В заявленном способе это игнорирование потенциально опасного анализируемого объекта. Такой подход исключает завышение метки конфиденциальности субъекта.The presence of an “additional” predicate (preservation of the current state), which is not peculiar to the rules (1-4), is a necessity. It eliminates the constant triggering of the training mode when a security policy violation is detected, automatically making an a priori given decision. In the claimed method, this ignoring a potentially dangerous object to be analyzed. This approach eliminates the overestimation of the subject confidentiality label.
Таким образом, правило построения предиката узнавания метки конфиденциальности субъектов выражается формулой:Thus, the rule for constructing a predicate for recognizing the confidentiality label of subjects expressed by the formula:
где - предикат узнавания значения метки конфиденциальности Я анализируемого объекта dy;Where - predicate of recognizing the value of confidentiality label I of the analyzed object d y ;
- предикат узнавания текущей метки конфиденциальности λ классифицируемого субъекта s; - the predicate of recognition of the current label confidentiality λ of the classified entity s;
- предикат узнавания соблюдения условий τ безопасной классификации субъекта s. - predicate of recognition of compliance with the conditions τ of a secure classification of a subject s.
Условия безопасности классификации формулируются в рамках политики безопасности организации и могут существенно отличаться в зависимости от целей применения классификатора и ценности обрабатываемой в системе информации. Реализация политики безопасности в классифицируемой информационной системе требует отдельного исследования и в рамках предлагаемого способа ограничивается схемой безопасно-небезопасно.Classification security conditions are formulated within the framework of an organization’s security policy and may differ significantly depending on the purpose of the classifier and the value of the information processed in the system. The implementation of a security policy in a classified information system requires a separate study and, in the framework of the proposed method, is limited to a safe-unsafe scheme.
В режиме обучения по предъявленному набору классифицированных вручную объектов и субъектов системы электронного документооборота, формируют системы предикатов идентификации их меток конфиденциальности. Количество предикатов в системе определяется: для объектов количеством меток конфиденциальности, заданных в информационной системе, для субъектов - количеством меток конфиденциальности +1. Сохраняют системы предикатов в базе данных.In the training mode, based on the presented set of manually classified objects and subjects of the electronic document management system, predicate systems of identification of their confidentiality marks are formed. The number of predicates in the system is determined: for objects, the number of confidentiality labels specified in the information system, for subjects - the number of confidentiality labels +1. Store predicate systems in a database.
В режиме работы системы на этапе классификации объектов (документов) осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова текста в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте, получившиеся значения подставляют в систему предикатов (4), находящуюся в базе данных. По предикату, принявшему значение истинности «1», определяется область информационной ответственности и метка конфиденциальности классифицируемого объекта (документа).In the system operation mode, at the stage of classification of objects (documents), the document is converted from a storage format into natural language text, text words are converted into basic word forms, insignificant words are discarded, word weights are counted in the text, the resulting values are substituted into the predicate system (4) in the database. According to the predicate, which accepted the truth value “1”, the area of information responsibility and the confidentiality label of the classified object (document) is determined.
При классификации субъектов информационной системы, для каждого из них формируется набор классификационных признаков. Данные признаки извлекаются из матрицы прав доступа и включают: набор множества анализируемых объектов, их метки конфиденциальности, текущие метки конфиденциальности классифицируемого субъекта (при наличии) и данные о политике безопасности. Определенный таким образом набор признаков подставляют в систему предикатов (5), находящуюся в базе данных. По предикату, принявшему значение истинности «1», определяется метка конфиденциальности классифицируемого субъекта.When classifying subjects of an information system, a set of classification features is formed for each of them. These characteristics are extracted from the matrix of access rights and include: a set of the set of analyzed objects, their confidentiality marks, current confidentiality marks of the classified entity (if any) and data on security policy The set of features determined in this way is substituted into the predicate system (5) in the database. According to the predicate that accepted the truth value “1”, the confidentiality label of the classified entity is determined.
При этом, в случае необходимости использования априорной информации о зависимостях меток конфиденциальности друг от друга используем алгебру конечных предикатов [9], позволяющую проводить полный спектр операций над логическими выражениями. Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.In this case, if it is necessary to use a priori information about the dependencies of the confidentiality labels from each other, we use the algebra of finite predicates [9], which allows us to carry out a full range of operations on logical expressions. Note that this method is intended for processing machine-readable texts in natural language.
Вес ƒ wp словоформы в тексте документа dy, рассчитывается по формуле:Weight ƒ w p word forms in the text of the document d y , is calculated by the formula:
Здесь - количество раз, которое wp-я словоформа встречается в dy-м тексте документа, - общее количество словоформ в dy-m тексте документа.Here - the number of times that the w p th word form occurs in the d y th text of the document, - the total number of word forms in the d y -m text of the document.
Документы для классификации могут быть представлены в различных форматах, допускающих выделение из них текстового содержания. Это могут быть текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание. Кроме того, классификатор должен иметь возможность извлечения информации из матрицы прав доступа независимо от ее реализации (свойства объекта, профиль субъекта или системная матрица).Documents for classification can be presented in various formats, allowing the selection of text content from them. These can be text files of various formats, graphic files with a graphic representation of some text, sound files with speech recording and other files for which there is a mechanism for extracting text from them that reflects their content. In addition, the classifier should be able to extract information from the matrix of access rights, regardless of its implementation (object properties, subject profile or system matrix).
Каждый объект (либо обучающий, либо подвергающийся классификации) предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов [14-17]. Наиболее часто для решения подобных задач используется алгоритм Портера, заключающийся в использовании специальных правил отсечения и замены окончаний слов.Each object (either training or subject to classification) passes through a preprocessing stage, which determines the format of the document and determines whether it is possible to extract text from a document of this format. In the case of a positive decision, the text is extracted from the document. After splitting the text into words, the definition for each word of its base word form occurs in one of the ways [14-17]. Most often, the Porter algorithm is used to solve such problems, which consists in using special rules for cutting off and replacing word endings.
Согласно предлагаемому способу каждый объект dy представляется декартовым произведением переменных из множеств Т×L×W, где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее вручную классифицированных по меткам конфиденциальности. После извлечения из них текстового содержания происходит построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.According to the proposed method, each object d y is represented by a Cartesian product of variables from the T × L × W sets, where the classifier training stage serves to initialize the classifier and build the classification criteria. This should be given a set of training documents, manually classified in advance by the labels of confidentiality. After extracting textual content from them, a dictionary of meaningful words is constructed. The dictionary contains the basic word forms of all words found in the training documents.
При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора данной метки конфиденциальности. В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной категории, не попавшие в стоп-словарь. Информативность словоформы wp для классификатора по информационной области uβ определяется по следующей формуле [18]:When classifying a document, not all word forms from the dictionary of documents are taken into account, but only those that are included in the working dictionary of the classifier of this privacy label. The most informative word forms from the point of view of determining the ownership of a document in this category, not included in the stop dictionary, are included in the classifier's working dictionary. The informativeness of the word form w p for the classifier for the information area u β is determined by the following formula [18]:
При этом устанавливается порог информативности ε; в рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает этот порог. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом отсекаются слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0,05 до 0,7 в зависимости от специфики использования способа. Значения порога информативности δ могут быть различны в различных условиях использования способа.At the same time, the threshold of informativeness ε is set all word forms that do not fall into the stop dictionary, the information content of which exceeds this threshold, are included in the classifier’s work dictionary. The stop dictionary consists of word forms whose frequency of occurrence in a set of training documents exceeds a predetermined threshold δ. This cut off words that do not carry a semantic load, such as prepositions, conjunctions, introductory and common words, etc. The values of the coefficient δ, according to this method, are set in the range from 0.05 to 0.7, depending on the specific use of the method. The values of the threshold of informativeness δ can be different in different conditions of use of the method.
Однозначно определив область информационной ответственности, к которой относится документ по (3), используя извлеченные метаданные документа, а именно, определяющие его конфиденциальность реквизиты документа, полученные по (1), определяется соответствующая ему метка конфиденциальности. Для этого указанные значения подставляются в систему предикатов построенных по (4). По предикату, принявшему значение истинности «1», из списка определяется метка конфиденциальности.By unambiguously identifying the area of information responsibility to which the document of (3) belongs, using the extracted document metadata, namely, the document details defining its confidentiality obtained by (1), the corresponding confidentiality mark is determined. For this, the indicated values are substituted into the system of predicates constructed by (4). According to the predicate that accepted the truth value "1", the confidentiality label is determined from the list.
Определив метки конфиденциальности объектов информационной системы, классификатор переходит к этапу классификации субъектов. Для этого наборы классификационных признаков для каждого анализируемого объекта, извлеченные из матрицы прав доступа, подставляются в систему предикатов. Система предикатов построена на этапе обучения по правилу (5) и находится в базе данных. После анализа всех объектов относительно классифицируемого субъекта по предикатам, принявшим значение истинности «1», определяется метка конфиденциальности.Having determined the confidentiality marks of the information system objects, the classifier proceeds to the stage of classification of subjects. For this, sets of classification signs for each analyzed object, extracted from the matrix of access rights, are substituted into the predicate system. The predicate system is built at the stage of learning by the rule (5) and is in the database. After analyzing all the objects with respect to the subject being classified, the prediction mark is determined by the predicates that accepted the truth value “1”.
Сопоставительный анализ заявляемого решения с прототипом показывает, что предлагаемый способ отличается от известного формированием на этапе обучения и применением на этапе классификации системы предикатов, строящейся по правилу (5). А так же усовершенствованным правилом (4).Comparative analysis of the proposed solution with the prototype shows that the proposed method differs from the well-known formation at the training stage and the application at the stage of classification of the predicate system, built according to rule (5). As well as an improved rule (4).
Благодаря новой совокупности существенных признаков в способе реализована возможность обеспечения классификации субъектов системы электронного документооборота по меткам конфиденциальности.Thanks to a new set of essential features, the method enables the classification of subjects of the electronic document management system according to confidentiality marks.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».The analysis of the level of technology has allowed to establish that the analogues, characterized by a set of features that are identical to all the features of the claimed technical solution, are absent, which indicates the compliance of the claimed method to the condition of patentability "novelty."
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обуславливающих тот же технический результат, который достигнут в заявленном способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».Search results known solutions in this and related areas of technology in order to identify signs that match the distinctive features of the prototype features of the declared object, showed that they do not follow explicitly from the prior art. The prior art also revealed no prominence of distinctive essential features causing the same technical result, which was achieved in the claimed method. Therefore, the claimed invention meets the condition of patentability "inventive step".
Краткое описание чертежейBrief Description of the Drawings
На фигуре представлена блок-схема вычислительного устройства для реализации способа.The figure shows a block diagram of a computing device for implementing the method.
Устройство для реализации способа состоит из блоков: источника документов 1, анализатора характеристик текста 2, распознавания реквизитов документа 3, распознавания формы документа 4, выделения метаданных 5, определения базовых словоформ 6, создания рабочего словаря 7, определение весов словоформ текста документа 8, распознавания области информационной ответственности 9, учета документа по метаданным 10, обучения 11, распознавания метки конфиденциальности объекта (документа) 12, адресации документа 13, распознавания метки конфиденциальности субъекта 14, загрузка в систему в соответствии с полученной классификацией 15. Осуществление изобретенияThe device for implementing the method consists of the following blocks: source of
Автоматическая классификация формализованных текстовых документов и авторизованных пользователей системы электронного документооборота осуществляется следующим образом:Automatic classification of formalized text documents and authorized users of the electronic document management system is as follows:
1. В режиме классификации.1. In the classification mode.
На этапе классификации объектов (формализованных текстовых документов). При появлении в источнике документов 1 нового документа он поступает в блок 2, который выявляет значения характеристик текста t участков документа и ключевых слов в них. Значения t и участков документа поступают в блок 3, где с помощью системы предикатов, построенных по правилу (1) распознаются реквизиты документа. Информация о распознанных реквизитах документа поступает в блок 4, где система предикатов, построенная по правилу (2) осуществляет распознавание формы документа.At the stage of classification of objects (formalized text documents). When a new document appears in the
В блоке 5 из поступившего документа от блока 2, используя сведения об определенной форме документа из блока 4, которая однозначно задает места расположения значений реквизитов документа, выделяются требуемые значения реквизитов, которые являются метаданными документа. Документ и соответствующие ему метаданные поступают в блок 10, где документ учитывается по своим метаданным и организуется хранение его эталонной копии. Также однозначно определенная в блоке 5 информативная часть документа поступает в блок 6, где слова преобразуются в словоформы. Полученные в блоке 6 словоформы поступают в блок 7, где в процессе работы системы происходит создание рабочего словаря из значимых слов.In
Полученные в блоке 6 словоформы поступают в блок 8, где производится расчет весов ƒ словоформ информативной части документа, попавших в рабочий словарь. Из блока 8 значения весов полученных словоформ поступают в блок 9, где происходит распознавание информационной областипутем вычисления значений предикатов системы предикатов, построенной по правилу (3).The word forms obtained in
Из блока 10 документ поступает в блок 13, а метаданные - в блок 12 и 13. В блоке 12 на основе поступивших из блока 10 метаданных, а именно реквизитов документа, и значений полученных в блоке 9 на основе системы предикатов, построенной по правилу (4) определяется соответствующая классифицируемому документу метка конфиденциальности. В блоке 13 поступившему документу и метаданным из блока 10 на основе значений поступивших из блоков 12 и 9 присваиваются соответствующие информационным областям права доступа и метка конфиденциальности классифицируемого документа.From
Далее через блок 15 происходит загрузка документа в информационную систему в соответствии с определенными классами, (прописывание прав доступа и меток конфиденциальности).Next, through
На этапе классификации субъектов (авторизованных пользователей). В блок 14 из блока 15 поступают данные об анализируемых объектах (метки конфиденциальности документов, к которым классифицируемый субъект имеет права доступа read, write; данные, характеризующие соблюдение политики безопасности) и текущая метка конфиденциальности классифицируемого субъекта. В блоке 14 на основе поступивших из блока 15 данных и системы предикатов, построенной по правилу (5), определяется соответствующая классифицируемому субъекту метка конфиденциальности.At the stage of the classification of subjects (authorized users).
Существует возможность корректировки метокIt is possible to adjust the labels
проклассифицированных субъектов при поступлении в систему новых документов. Тогда метка конфиденциальности анализируемого объекта поступает в блок 14 из блока 13.classified subjects when new documents enter the system. Then the privacy label of the object being analyzed comes to block 14 from
Далее через блок 15 полученная в блоке 14 метка конфиденциальности загружается в информационную систему. 2. В режиме обучения.Further, through
Режим обучения системой используется в следующих случаях:The system learning mode is used in the following cases:
в случае невозможности распознавания системой предикатов реквизитов документа в блоке 3 по значениям переменных документа t и В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 3 или определяется реквизит документа «вручную»;if it is impossible for the system to recognize the predicates of the document details in
в случае невозможности распознавания системой предикатов формы документа в блоке 4 по значениям предикатов системы предикатов блока 3. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 4 или определяется форма документа «вручную»;if it is impossible for the system to recognize the predicates of the document form in
в случае невозможности распознавания системой предикатов информационной области в блоке 9 по значениям весов значимых слов из рабочего словаря, извлеченных из информативной части документа. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 9 или определяется информационная область документа «вручную»;if it is impossible for the system to recognize the predicates of the information area in
в случае невозможности распознавания системой предикатов метки конфиденциальности объекта в блоке 12 по значениям предикатов системы предикатов блока 9 и метаданным блока 10. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 12 или определяется метка конфиденциальности «вручную»;if it is impossible for the system to recognize the predicates of the object's confidentiality mark in
в случае невозможности распознавания системой предикатов метки конфиденциальности субъекта в блоке 14 по данным блока 15. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 14 или определяется метка конфиденциальности «вручную».if it is impossible for the system to recognize the predicates of the subject's confidentiality mark in
Таким образом, способ позволяет классифицировать по меткам конфиденциальности не только объекты системы электронного документооборота (формализованные электронные текстовые документы), но и субъекты системы (авторизованных пользователей, исполнителей), чем достигается поставленный выше технический результат.Thus, the method allows to classify not only objects of the electronic document management system (formalized electronic text documents) by confidentiality marks, but also the subjects of the system (authorized users, performers), thus achieving the above technical result.
Источники информации:Information sources:
1. Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998.1. Li Y., Jain A. "Classification of text documents", The
2. Пат.6327581 Соединенные Штаты Америки, МПК G 06 F 015/18.Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01.2. Pat. 6327581 United States of America, IPC G 06 F 015 / 18. Metals and apparatus for the support vector machine [Text] / CarltonJ .; applicant and patent holder of Microsoft Corporation. - №09 / 055477; declare 04/06/98; publ. 12.12.01.
3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168.3. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization".
4. Пат.2254610 Российская Федерация, МПК G 06 F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТЖА". - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05.4. Pat.2254610 Russian Federation, IPC G 06 F 17/30. Method of automatic classification of documents [Text] / Agranovsky AV, Arutyunyan R.E., Hadi R.A., Telesnin B.A .; applicant and patent holder State Scientific Institution Research Institute "SPETSVUZAVTOMATA". - № 2003126907/09; declare 09/04/03; publ. 06/20/05.
5. Пат. 2546555 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации формализованных документов в системе электронного документооборота [Текст] / Носенко СВ., Королев И.Д., Поддубный М.И.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Военная академия связи имени Маршала Советского Союза С.М. Буденного» Министерства обороны Российской Федерации. - №2013155168/08; заявл. 11.12.2013; опубл. 10.04.2015.5. Pat. 2546555 Russian Federation, IPC G06F 17/30. The method of automatic classification of formalized documents in the electronic document management system [Text] / Nosenko SV., Korolev I.D., Poddubny M.I .; Applicant and patent holder Federal State State Military Educational Establishment of Higher Professional Education “Marshal of the Soviet Union Communications Academy named after Marshal of the Soviet Union S.M. Budyonny ”of the Ministry of Defense of the Russian Federation. - # 2013155168/08; declare 11/12/2013; publ. 04/10/2015.
6. Заявка на изобретение №2015152418 от 07.12.2015. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота [Текст] / Поддубный М.И., Королев И.Д., Носенко СВ.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Краснодарское высшее военное училище имени генерала армии С.М. Штеменко» Министерства обороны Российской Федерации - №2015152418; заявл. 07.12.2015; опубл. 13.06.2017 Бюл. №17.6. Application for the invention №2015152418 from 07.12.2015. The method of automatic classification of confidential formalized documents in the electronic document management system [Text] / M.I. Poddubny, I.D. Korolev, SV; Applicant and patent holder Federal State Official Military Educational Institution of Higher Professional Education “Krasnodar Higher Military School named after Army General S.М. Shtemenko ”of the Ministry of Defense of the Russian Federation - №2015152418; declare 12/07/2015; publ. 13.06.2017 Bull. №17.
7. ГОСТ Р 6.30-2003. Унифицированные системы документации. Унифицированная система организационно-распорядительной документации. Требования к оформлению документов: утв. и введ. в действие Постановлением Госстандарта России от 3.03.2003 №65 - ст. - М.: Стандартинформ, 2007 г. - 17 с.7. GOST R 6.30-2003. Unified documentation systems. Unified system of organizational and administrative documentation. Requirements for the paperwork: approved. and enter. into effect by the Resolution of Gosstandart of Russia dated 03.03.2003 No. 65 - art. - M .: Standardinform, 2007 - 17 p.
8. Королев И.Д. Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах / И.Д. Королев, СВ. Носенко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). - IDA [article ID]: 0921308074. -Режим доступа: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0,875 у.п.л.8. Korolev I.D. Approaches to the operational identification of formalized electronic documents in automated records management / I.D. Korolev, SV Nosenko // Polythematic network electronic scientific journal of the Kuban State Agrarian University (Scientific journal of KubSAU) [Electronic resource]. - Krasnodar: KubSAU, 2013. - №08 (092). - IDA [article ID]: 0921308074. -Access mode: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0.875 u.s.
9. М.Ф. Бондаренко, Ю.П. Шабанов-Кушнаренко. Об алгебре конечных предикатов. [Текст] // Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина - 2011 №3(77).9. M.F. Bondarenko, Yu.P. Shabanov-Kushnarenko. On the algebra of finite predicates. [Text] // Scientific and technical journal "Bionics of intelligence". KNURE, Kharkov, Ukraine - 2011 No. 3 (77).
10. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота / Д.В. Малышев, И.Н. Шайков, М.И. Поддубный, И.Д. Королев // Телекоммуникации.: ежемес. произв., информ.-аналит. и учеб.-метод, ж-л, г. Москва: МГТУ им. Баумана, 2016 №8. - С. 18-22.10. Method for automatic classification of confidential formalized documents in the electronic document management system / D.V. Malyshev, I.N. Shaykov, M.I. Poddubny, I.D. Korolev // Telecommunications .: every month. Inform., analyte. and study.-method, journal, Moscow: MSTU. Bauman, 2016
11. «Руководящий документ. Автоматизированные системы. Защита от несанкционированного доступа к информации. Классификация автоматизированных систем и требования по защите информации» (утв. решением Гостехкомиссии России от 30.03.1992).11. “Guidance document. Automated systems. Protection against unauthorized access to information. Classification of automated systems and information security requirements ”(approved by the decision of the State Technical Commission of Russia of March 30, 1992).
12. «Руководящий документ. Средства вычислительной техники. Защита от несанкционированного доступа к информации. Показатели защищенности от несанкционированного доступа к информации» (утв. решением Гостехкомиссии России 30.03.1992).12. “Guidance document. Computing facilities. Protection against unauthorized access to information. Indicators of protection against unauthorized access to information "(approved by the decision of the State Technical Commission of Russia on March 30, 1992).
13. Методика автоматической классификации сущностей системы электронного документооборота по меткам конфиденциальности // Интернет-журнал «Технологии техносферной безопасности» (Научный журнал Академии Государственной противопожарной службы) [Электронный ресурс]. - М.: 2016. - №6(70). - ISSN 2071-7342. - режим доступа http://agps-2006/narod.ru//ttb/2016-6/29-06-16.ttb.pdf.13. Methods of automatic classification of entities of the electronic document management system according to confidentiality marks // Internet magazine “Technosphere Safety Technologies” (Scientific Journal of the Academy of the State Fire Service) [Electronic resource]. - M .: 2016. - №6 (70). - ISSN 2071-7342. - access mode http: //agps-2006/narod.ru//ttb/2016-6/29-06-16.ttb.pdf.
14. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.14. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.
15. Пат.2096825 Российская Федерация, МПК G06F 17/00, G06F 17/30. Устройство обработки информации для информационного поиска [Текст] / Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В; заявитель и патентообладатель Общество с ограниченной ответственностью "Информбюро". - №96119820/09; заявл. 14.10.96; опубл. 20.11.97, Бюл. №14.15. Pat.2096825 Russian Federation, IPC G06F 17/00, G06F 17/30. Information processing device for information retrieval [Text] / Kovalev, MV, Virgunov, IV, Naimushin, IA, Chetverev, VV; applicant and patent holder Limited Liability Company "Information Bureau". - №96119820 / 09; declare 10.14.96; publ. 11/20/97, Bull.
16. Пат. 6308149 Соединенные Штаты Америки, МПК G06F 17/27. Grouping words with equivalent substrings by automatic clustering based on suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/213309; заявл. 16.12.98; опубл. 23.10.01.16. Pat. 6308149 United States, IPC G06F 17/27. Grouping words with equivalent substrings / Gaussier E., Grefenstette G., Chanod J.-P .; applicant and patent holder Xerox Corporation. - №09 / 213309; declare 12/16/98; publ. 23.10.01.
17. Пат. 6430557 Соединенные Штаты Америки, МПК G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using modified query words obtained from successive suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/212662; заявл. 16.12.98; опубл. 06.08.02.17. Pat. 6430557 United States of America, IPC G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using a modified suffix relationships / Gaussier E., Grefenstette G., Chanod J.-P .; applicant and patent holder Xerox Corporation. - №09 / 212662; declare 12/16/98; publ. 08.08.02
18. Craven M., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118(1-2), 2000, pp. 69-113.18. Craven M., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118 (1-2), 2000, pp. 69-113.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017144325A RU2692043C2 (en) | 2017-12-18 | 2017-12-18 | Method for automatic classification of formalized text documents and authorized users of electronic document management system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017144325A RU2692043C2 (en) | 2017-12-18 | 2017-12-18 | Method for automatic classification of formalized text documents and authorized users of electronic document management system |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2017144325A RU2017144325A (en) | 2019-06-18 |
RU2017144325A3 RU2017144325A3 (en) | 2019-06-18 |
RU2692043C2 true RU2692043C2 (en) | 2019-06-19 |
Family
ID=66947215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017144325A RU2692043C2 (en) | 2017-12-18 | 2017-12-18 | Method for automatic classification of formalized text documents and authorized users of electronic document management system |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2692043C2 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
RU2392660C2 (en) * | 2008-04-15 | 2010-06-20 | Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" | Method of searching for information in text array |
US20100262454A1 (en) * | 2009-04-09 | 2010-10-14 | SquawkSpot, Inc. | System and method for sentiment-based text classification and relevancy ranking |
RU2474870C1 (en) * | 2011-11-18 | 2013-02-10 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Method for automated analysis of text documents |
RU2626555C2 (en) * | 2015-12-02 | 2017-07-28 | Общество с ограниченной ответственностью "Аби Продакшн" | Extraction of entities from texts in natural language |
RU2632408C2 (en) * | 2013-03-08 | 2017-10-04 | БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД | Classification of documents using multilevel signature text |
RU2647640C2 (en) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Method of automatic classification of confidential formalized documents in electronic document management system |
-
2017
- 2017-12-18 RU RU2017144325A patent/RU2692043C2/en not_active IP Right Cessation
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
RU2392660C2 (en) * | 2008-04-15 | 2010-06-20 | Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" | Method of searching for information in text array |
US20100262454A1 (en) * | 2009-04-09 | 2010-10-14 | SquawkSpot, Inc. | System and method for sentiment-based text classification and relevancy ranking |
RU2474870C1 (en) * | 2011-11-18 | 2013-02-10 | Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" | Method for automated analysis of text documents |
RU2632408C2 (en) * | 2013-03-08 | 2017-10-04 | БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД | Classification of documents using multilevel signature text |
RU2626555C2 (en) * | 2015-12-02 | 2017-07-28 | Общество с ограниченной ответственностью "Аби Продакшн" | Extraction of entities from texts in natural language |
RU2647640C2 (en) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Method of automatic classification of confidential formalized documents in electronic document management system |
Also Published As
Publication number | Publication date |
---|---|
RU2017144325A (en) | 2019-06-18 |
RU2017144325A3 (en) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514235B2 (en) | Information extraction from open-ended schema-less tables | |
Vijayakumar et al. | Automated risk identification using NLP in cloud based development environments | |
El et al. | Authorship analysis studies: A survey | |
RU2647640C2 (en) | Method of automatic classification of confidential formalized documents in electronic document management system | |
Homem et al. | Authorship identification and author fuzzy “fingerprints” | |
CN109670014B (en) | Paper author name disambiguation method based on rule matching and machine learning | |
JPH07114572A (en) | Document classifying device | |
CN112380848B (en) | Text generation method, device, equipment and storage medium | |
Hb et al. | Distributional Semantic Representation in Health Care Text Classification. | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning | |
Monisha et al. | Classification of bengali questions towards a factoid question answering system | |
US11557141B2 (en) | Text document categorization using rules and document fingerprints | |
CN110020024B (en) | Method, system and equipment for classifying link resources in scientific and technological literature | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Dabade | Sentiment analysis of Twitter data by using deep learning And machine learning | |
US20210319184A1 (en) | Recognition of sensitive terms in textual content using a relationship graph of the entire code and artificial intelligence on a subset of the code | |
Pirovani et al. | CRF+ LG: A hybrid approach for the portuguese named entity recognition | |
RU2692972C1 (en) | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager | |
RU2546555C1 (en) | Method of automated classification of formalised documents in electronic document circulation system | |
Tang et al. | Enriching feature engineering for short text samples by language time series analysis | |
RU2692043C2 (en) | Method for automatic classification of formalized text documents and authorized users of electronic document management system | |
Pokharana et al. | A Review on diverse algorithms used in the context of Plagiarism Detection | |
Romanov et al. | Research of neural networks application efficiency in automatic scientific articles classification according to UDC | |
Oswal | Identifying and categorizing offensive language in social media | |
Sharef et al. | Text fragment extraction using incremental evolving fuzzy grammar fragments learner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20201219 |