RU2774100C1 - Способ проверки научных работ ограниченного распространения на плагиат - Google Patents
Способ проверки научных работ ограниченного распространения на плагиат Download PDFInfo
- Publication number
- RU2774100C1 RU2774100C1 RU2021123592A RU2021123592A RU2774100C1 RU 2774100 C1 RU2774100 C1 RU 2774100C1 RU 2021123592 A RU2021123592 A RU 2021123592A RU 2021123592 A RU2021123592 A RU 2021123592A RU 2774100 C1 RU2774100 C1 RU 2774100C1
- Authority
- RU
- Russia
- Prior art keywords
- information
- electronic
- database
- work
- sources
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 5
- 238000005755 formation reaction Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 239000000969 carrier Substances 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000126 substance Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 4
- 238000006011 modification reaction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 241001125929 Trisopterus luscus Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000875 corresponding Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002452 interceptive Effects 0.000 description 2
- 229910052743 krypton Inorganic materials 0.000 description 2
- DNNSSWSSYDEUBZ-UHFFFAOYSA-N krypton(0) Chemical compound [Kr] DNNSSWSSYDEUBZ-UHFFFAOYSA-N 0.000 description 2
- 230000001105 regulatory Effects 0.000 description 2
- 230000001131 transforming Effects 0.000 description 2
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 1
- 241000598725 Nigma Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Abstract
Изобретение относится к системам обработки данных. Техническим результатом является расширение арсенала средств для проверки научных работ ограниченного распространения на плагиат. Способ заключается в том, что создают объект информатизации, аттестуют его по требованиям безопасности информации, формируют на нем базу данных опубликованных работ ограниченного распространения (B1). Вновь подготовленные работы проверяют на плагиат в первую очередь по совпадениям с этой базой данных (B1). Для проверки работы на плагиат из открытых источников последовательно формируют базу данных открытых материалов, собранных авторами для выполнения работ в качестве исходных данных (В2), сохраняя при этом копии этих материалов в персональных авторских папках на буферной ЭВМ, используемой для переноса файлов на объект информатизации. Работы, представленные на проверку, проверяют на любой объем совпадений с базой данных (В2), формируют на физическом носителе папку с материалами из авторских папок с буферной ЭВМ и в открытых системах проверки на плагиат проверяют не работу ограниченного распространения, а все материалы из сформированной папки, с целью сбора данных по индексам поисковиков для формирования и размещения на объекте информатизации базы данных (В3) научных работ из открытых источников, со всеми присущими опубликованным научным работам атрибутами. Окончательное решение принимают по результатам проверки работы ограниченного распространения на объекте информатизации на предмет оценки объема заимствований из базы данных открытых работ (В3). При этом на этапе подготовки файлов для их проверки в открытых системах оценивают их на предмет содержания сведений ограниченного распространения. 4 з.п. ф-лы, 4 ил., 1 табл.
Description
Область техники, к которой относится изобретение.
Изобретение относится к системам обработки данных и может быть использовано для выявления различных форм плагиата во всех видах научных работ ограниченного распространения, к которым предъявляются требования по авторской оригинальности, таким как научные статьи, выпускные квалификационные работы в вузах, диссертации, учебники и учебные пособия и т.п., и которые не могут быть проверены на плагиат в общедоступных системах в связи с угрозой утечки сведений, которые в них содержатся.
Под научными работами ограниченного распространения в изобретении понимаются работы содержащие сведения, составляющую государственную тайну, служебную информацию, коммерческую тайну, персональные данные и другую информацию ограниченного распространения, утечка которой повлечет за собой нарушение действующего законодательства или нанесет другой (финансовый, интеллектуальный) ущерб заинтересованной организации, в силу того, что станет известной третьим лицам.
С развитием Интернета появилось большое число online-библиотек художественной и научно-технической литературы. Стало доступно в электронном виде для чтения и копирования большинство курсов лекций, учебников и учебных пособий. Широкодоступны развернутые, структурированные коллекции рефератов, курсовых и дипломных проектов, диссертаций. Наличие сети и использование компьютерной техники сделали процесс поиска и копирования информации общедоступным, не требующим временных затрат. Метод написания контента, получивший название «Сору & Paste», заключающийся в копировании кусков информации из одного или нескольких источников и формирования из них нового текста, стал в общем основным методом работы большинства авторов. Пояснительные записки по курсовым и дипломным проектам в вузах выполняются с использованием компьютеров, происходит их распространение и повторное использование учащимися. Подобные работы можно отнести к разряду плагиата.
Плагиат - умышленное присвоение авторства чужого произведения науки или искусства, чужих идей или изобретений (Источник: Бобкова О.В., Давыдов С.А., Королева И.А. Плагиат как гражданское правонарушение. Патенты и лицензии. - 2016. №7, Москва).
До появления глобальных информационных систем факты плагиата, как правило, вскрывались только в научных кругах и основывались на широком кругозоре и компетентности ученых-экспертов в различных областях знаний и отраслях науки и промышленности. Это было обусловлено достаточно серьезной трудоемкостью по доступу к информации в виде книг, научно-технических и научно-популярных журналов, монографий, учебников, справочников, энциклопедий, словарей и т.п., которые, как правило, размещались в библиотеках (вузовских, районных, городских и больших государственных). Поиск нужной информации, ее чтение и переписывание занимали много времени, заставляли авторов продуктивно работать с источниками - переписывание чужого труда как минимум сопровождается процессом его чтения. С применением компьютеров эти процессы ушли в прошлое. Переписывание чужого труда заменилось автоматическим копированием, и читать его стало не нужно, т.е. появилась возможность представлять учебным и научным кругам якобы авторский материал (выпускную квалификационную работу, статью, диссертацию), который этим автором не изучался и создавался им из составных частей чужих работ по типу конструктора. Это могло привести к существенному кризису в объективной оценке результатов труда ученых, педагогов и обучающихся, снизить качество образования в целом. Реакция международного научного и педагогического сообщества вылилась в создание систем автоматической проверки авторских текстов на предмет заимствования информации - плагиата, широко внедренных и представленных в виде online-сервисов.
Статья 38 Приказа Минобрнауки РФ от 29 июня 2015 года №636 гласит: «Тексты выпускных квалификационных работ (ВКР), за исключением текстов выпускных квалификационных работ, содержащих сведения, составляющие государственную тайну, размещаются организацией в электронно-библиотечной системе организации и проверяются на объем заимствований. Порядок размещения текстов ВКР в электронно-библиотечной системе организации, проверки на объем заимствований, в том числе содержательного выявления неправомочных заимствований устанавливается организацией.
Доступ лиц к текстам ВКР должен быть обеспечен в соответствии с законодательством РФ, с учетом изъятия по решению правообладателя производственных, технических, экономических, организационных и других сведений, в том числе о результатах интеллектуальной деятельности в научно-технической сфере, о способах осуществления профессиональной деятельности, которые имеют действительную или потенциальную коммерческую ценность в силу неизвестности их третьим лицам».
Большинство доступных сегодня автоматизированных систем проверки работ на предмет наличия заимствований ориентированы на сравнение информации в проверяемой работе с информацией из всех доступных источников. Очевидно, в данном случае, что для проверки работ, которые содержат сведения ограниченного распространения эти системы применить нельзя. Для решения этой проблемы могут создаваться закрытые (не подключенные к глобальной сети) сервисы, которые будут предоставлять возможность сравнения информации в проверяемой работе с информацией из закрытых источников, размещенных в предварительно созданной базе данных. Однако в этом случае результаты оценки проверяемой работы на предмет наличия плагиата будут недостоверными. Например, работа создана на основе составных частей других работ из общедоступных источников (которых нет в предварительно созданной базе данных закрытого сервиса), а затем переведена в категорию работ ограниченного распространения. Очевидно, что отсутствие работ из общедоступных источников в базе данных закрытого сервиса приведет при проверке к недостоверному результату.
Уровень техники.
а) описание аналогов
Известна автоматизированная система Антиплагиат (Сайт производителя: https://www.antiplagiat.ru/), предоставляющая online-сервис по автоматической проверке авторских текстов на предмет заимствования информации - плагиата. Алгоритм работы сервиса описан в Программной системе для поддержки экспертной деятельности по выявлению текстовых заимствований «Антиплагиат». Правообладатель программного обеспечения российская коммерческая организация АО "АНТИПЛАГИАТ". Свидетельство о государственной регистрации программы для ЭВМ №2012660172 от 8 октября 2016. Решение уполномоченного органа: Приказ Минкомсвязи России от 07.10.2016 №487. Единый реестр российских программ для электронных вычислительных машин и баз данных в информационно-телекоммуникационной сети «Интернет» https://reestr.minsvyaz.ru/reestr/90666.
Это специализированная поисковая система, предназначенная для обнаружения заимствований в текстовых документах, которая по запросу пользователя проводит проверку документа на предмет заимствований и выводит интерактивный отчет.
Запрос - документ любого размера и практически любого формата.
Результат проверки - интерактивный отчет, в котором «подсвечен» заимствованный текст, показаны источники, рассчитан «процент оригинальности».
Система осуществляет проверку по следующим областям знаний:
- по Модулю поиска Интернет: более 449 млн. веб-страниц; более 20 млн. новых источников ежемесячно;
- по Коллекции eLIBRARY.RU: более 10,8 млн. научных статей;
- по Коллекции РГБ: более 962 тыс.диссертаций и авторефератов;
- по Сводной коллекции ЭБС: «Лань», «БиблиоРоссика», «Юрайт», «Университетская библиотека online», «Консультант студента», «Айбукс», «Book.ru», более 449 тыс.книг;
- по Модулю «Переводные заимствования»: модуль включает уникальный алгоритм проверки русскоязычных документов на наличие переводных заимствований из источников на английском языке и коллекцию англоязычных документов.
Недостатком системы является отсутствие возможности проверки работ ограниченного распространения, исключающей утечку сведений во внешние технические системы.
Известна автоматизированная система Антиплагиат.ВУ3-версия системы Антиплагиат, предназначенная для использования в учебных заведениях. Алгоритм работы сервиса описан в Программной системе для обнаружения текстовых заимствований в учебных и научных работах «Антиплагиат.ВУЗ». Правообладатель программного обеспечения российская коммерческая организация АО "АНТИПЛАГИАТ". Свидетельство о государственной регистрации программы для ЭВМ №2012660173 от 8 октября 2016. Решение уполномоченного органа: Приказ Минкомсвязи России от 07.10.2016 №487. Единый реестр российских программ для электронных вычислительных машин и баз данных в информационно-телекоммуникационной сети «Интернет» https://reestr.minsvyaz.ru/reestr/90662. Это специализированная поисковая система, адаптированная для вузов, позволяющая осуществить проверку документа на наличие заимствований текстов из открытых источников и из ряда закрытых, например, из баз данных создаваемых в вузе (Источник: Чехович Ю.В., Беленькая О.С. Оценка корректности заимствований в текстах научных публикаций. Научное издание международного уровня - 2018: научные коммуникации - материалы 7-й международной научно-практической конференции, Москва, 24-27 апреля 2018 г.
Недостатком системы является отсутствие возможности проверки работ ограниченного распространения, исключающей утечку сведений во внешние технические системы.
Недостатками других специализированных версий системы Антиплагиат, является недостаточная достоверность результатов проверки, ввиду ограниченности базы данных источников подвергаемых сравнению с проверяемыми документами. Например, работа, содержащая сведения, составляющие государственную тайну, может более чем наполовину состоять из фрагментов работ других авторов из открытых (общедоступных) источников, но безопасно проверить весь ее текст на предмет заимствований можно только с базой данных работ ограниченного распространения на локальных (не подключенных к внешним сетям) ЭВМ специального назначения, без проверки индексов поисковиков, что делает результаты проверки недостоверными.
Известна альтернативная система проверки и выявления плагиата ЕТХТ-Антиплагиат (Источник: Багдасарян С.Э. Обзор информационных систем автоматической проверки текстов на наличие заимствований из общедоступных сетевых источников Новосибирский Государственный университет экономики и управления «НИНХ», Новосибирск. http//sibscience.ru/ITSIT). Принцип ее действия позволяет обеспечить требуемую достоверность результатов проверки, так как текст проверяется не кусками по совпадению с фрагментами электронных изданий из базы данных, а в виде файла с документом целиком, на предмет нахождения аналогичного поисковиками. Найденный поисковиком текст в работе выделяется и в итоге подсчитывается процент оригинальности.
Недостатком системы является невозможность подключения закрытых баз данных работ вузов, диссертаций, библиотек (которые поисковиками не индексированы).
Все другие системы, рассматриваемые в этой области, например: электронный ресурс Advego Plagiatus (Источник: Advego Plagiatus - проверка уникальности текста [Электронный ресурс]. - Режим доступа: http://advego.ru/plagiatus/), электронный ресурс www.miratools.ru (Источник: www.miratools.ru - Сервис проверки уникальности континента [Электронный ресурс]. - Режим flocTyna:http//www. www.miratools.ru/), электронный ресурс www.istio.com (Источник: Анализировать текст, поиск плагиата/istio.com [Электронный ресурс]. - Режим доступа: http//istio.com/rus/text/analyz/), электронный ресурс Plagiatinform (Источник: Searchlnform Плагиат-Информ - система для определения плагиата в документах [Электронный ресурс]. -Режим доступа: http://www.searchlnform.ru/main/full-text-search-plagiarism-search-plagiatinform.html.) обладают описанными выше недостатками в той или иной степени.
Термины: «О плагиате в произведениях науки (диссертациях на соискание ученой степени)»: С.М. Шахрай, Н.И. Аристер, А.А. Тедеев. - М.:МИИ, 2014. - 176 с.
Правомерное заимствование - обоснованное целями цитирования использование в своем произведении науки части чужого текста с обязательным указанием (ссылкой) на истинного автора и источник заимствования, оформленные в соответствии с установленными правилами цитирования.
Некорректное заимствование - использование в своем произведении науки чужого текста, когда указание (ссылка) на истинного автора и источник заимствования оформлено с нарушением установленных правил цитирования.
Неправомерное заимствование - необоснованное целями цитирования заимствование чужого текста без указания (ссылки) на истинного автора и источник заимствования.
Техническое заимствование - использование в тексте работы наименований органов государственной власти и местного самоуправления, учреждений и организаций; использование названий или текстов нормативно-правовых или судебных актов, ГОСТов; произведений народного творчества (фольклор), не имеющих конкретных авторов; библиографические списки и ссылки, общеупотребительные выражения, научные термины и т.п. Технические заимствования являются правомерными.
Критерии отнесения текста к оригинальному, цитированному или заимствованному:
Цитирование - цитата заключена в кавычки, имеется соответствующий речевой оборот и библиографическая ссылка, оформленная по ГОСТ Р 7.0.5-2008; найдено совпадение с «белой коллекцией» - ГАРАНТ или LEXPRO (нормативные документы); библиографический список;
общеупотребительные выражения.
Заимствование - найден аналогичный или очень похожий фрагмент текста, при этом он не оформлен как цитата, библиографическая ссылка отсутствует.
Оригинальный текст - совпадений не найдено.
б) описание ближайшего аналога (прототипа)
Наиболее близким к заявленному техническому решению по области применения, по реализации функций полноценного охвата источников, полноте описания работы системы и обеспечения достоверности результатов проверки является способ применения системы проверки текстов на наличие заимствований из других источников (проверки на плагиат) «Автор.NET» разработанная на базе Владимирского государственного университета и описанный в статье «Система проверки текстов на заимствования из других источников» Р.В. Шарапов, Е.В. Шарапова, Труды 13-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL 2011, Воронеж, 2011 год.
Система осуществляет проверку как по источникам, доступным в сети Интернет, так и по собственным источникам (базам статей, курсовых и контрольных работ, дипломных проектов и т.д.). По результатам проверки формируется отчет с подсветкой найденных заимствований и возможностью просмотра найденных источников. Описанная система и способ ее применения выбраны в качестве прототипа, так как работает и с внешними сетями и с базами внутренних источников, при этом модули обработки информации работают независимо друг от друга.
Рассмотрим структуру системы-прототипа (фиг. 1). Система проверки на плагиат «Автор.NET» включает в себя два модуля, каждый из которых функционирует независимо друг от друга. Первый модуль осуществляет проверку по внутренней базе источников. База источников включает в себя базу статей, курсовых и контрольных работ, дипломных проектов, а также учебников и курсов лекций. Источники хранятся как в виде полных текстов, необходимых для оценки значимости заимствований (по результатам проверки), и в виде специально организованного поискового индекса. Последний необходим для быстрой проверки на совпадение текста и базы источников. Нет необходимости при каждой проверке просматривать все имеющиеся тексты и производить их достаточно трудоемкую обработку. Вся необходимая для поиска информация уже включена в структурированный поисковый индекс, с которым и работает модуль. Поисковый индекс формируется из текстов, прошедших предварительную обработку, описанную выше.
Автоматическое индексирование: Составление поискового образа с использованием только формальных процедур обработки текста документа или запроса, осуществляемых средствами вычислительной техники. (Источник: п. 3.2 ГОСТ Р 7.0.66-2010: Система стандартов по информации, библиотечному и издательскому делу. Индексирование документов. Общие требования к координатному индексированию, оригинал документа).
Автоматическое индексирование: Индексирование, технология которого предусматривает использование только формальных процедур обработки текста, осуществляемых с помощью вычислительной техники. (Источник: п. 7.9 ГОСТ 7.74-96: Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения, оригинал документа).
Второй модуль осуществляет проверку по источникам сети Интернет. Для этих целей текст проверяемого документа разбивается на информативные куски. Далее с использованием поисковых систем проводится поиск источников, содержащих информативные куски. Для осуществления поиска модуль использует Яндекс.XML, а также доступ к онлайн поиску систем Google.ru, Rambler.ru, Aport.ru поиск Mail.ru, Nigma.ru и т.д. Полученные таким образом источники проверяются затем на соответствие исходному документу. Для этого определяется формат источника (html, txt, doc, rtf, pdf и т.п.). В случае html-документа из источника удаляются теги разметки. Файлы doc, rtf, pdf преобразуются, если это возможно, в обычный текстовый формат без разметки. Далее источники проходят предварительную обработку, и затем проводится оценка их сходства с исходным документом. Проверяемый исходный текст подвергается предварительной обработке, в которую входят:
1. Исключение из текста знаков препинания и спецсимволов.
2. Преобразование регистра
3. Обработка замены символов (преобразование латинских букв в русских словах на аналогичные буквы русского алфавита для текстов на русском языке).
4. Удаление стоп-слов и знаков препинания (предлоги, наречия и т.д.).
5. Фильтрация текста (удаление не информативных слов).
6. Стемминг (обработка окончаний слов).
Фильтрация текста заключается в удалении наиболее частотных слов, редко встречающихся слов, не информативных слов и т.д. Кроме того, фильтрации подвергаются слова, содержащие спецсимволы, слова большой длины и т.д. Эта процедура позволяет существенно сократить объемы вычислений (длину проверяемого текста).
Стемминг заключается в обработке окончания слов. В прототипе они просто отбрасываются. Это позволяет исключить влияние таких модификаций текста, как изменение единственного и множественного числа, мужского и женского рода, настоящего и прошедшего времени и т.д.
Для оценки сходства исходного документа и источников используется некая модификация алгоритма «шинглов». Модификация алгоритма заключается в том, что рассматриваются не оригинальный документ, а его обработанная и отфильтрованная копия с исключением неинформативных объектов. Основное требование к системе - полнота и точность оценки совпадений.
Недостатком описанного способа применения системы-прототипа является отсутствие возможности проверки работ ограниченного распространения, обусловленной ограничениями действующего законодательства, а также угроза утечки информации ограниченного распространения. Указанный недостаток ограничивает область применения способа-прототипа для оценки работ содержащих сведения, составляющую государственную тайну, служебную информацию, коммерческую тайну, персональные данные и другую информацию ограниченного распространения, утечка которой повлечет за собой нарушение действующего законодательства или нанесет другой (финансовый, интеллектуальный) ущерб заинтересованной организации, в силу того, что станет известной третьим лицам.
Раскрытие сущности изобретения.
б) технический результат, на достижение которого направлено изобретение Задачей настоящего изобретения является: предложить способ, описывающий работу автоматизированной системы проверки авторских текстов работ ограниченного распространения на предмет заимствования информации - плагиата, как по базе данных уже существующих работ ограниченного распространения, так и по всем общедоступным источникам, с одновременным исключением утечки информации ограниченного распространения, содержащейся в проверяемых научных работах.
Техническим результатом является расширение арсенала средств проверки научных работ ограниченного распространения на плагиат.
Под научными работами ограниченного распространения в изобретении понимаются работы содержащие сведения, составляющую государственную тайну, служебную информацию, коммерческую тайну, персональные данные и другую информацию ограниченного распространения, утечка которой повлечет за собой нарушение действующего законодательства или нанесет другой (финансовый, интеллектуальный) ущерб заинтересованной организации, в силу того, что станет известной третьим лицам.
б) совокупность существенных признаков
Технический результат достигается тем, что способ-прототип, формирующий по результатам проверки отчет об объеме найденных заимствований и возможностью просмотра найденных источников, включающий предварительное формирование двух независимо функционирующих друг от друга модулей, при этом первый модуль осуществляет проверку по внутренней базе источников, которая включает в себя базу статей, курсовых и контрольных работ, дипломных проектов, а также учебников и курсов лекций, хранящихся как в виде полных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти ЭВМ, так и в виде специально организованного поискового индекса, а второй модуль осуществляет проверку по источникам сети Интернет, в ходе которого предварительно исключают из текста проверяемого документа знаки препинания и спецсимволы, преобразуют регистр, обрабатывают замены символов, для чего преобразовывают латинские буквы в русских словах на аналогичные буквы русского алфавита, удаляют предлоги, наречия и знаки препинания, фильтруют текст, для чего удаляют не информативные слова, наиболее частотные слова, редко встречающиеся слова и слова, содержащие спецсимволы, обрабатывают окончания слов для исключения влияния таких модификаций текста, как изменение единственного и множественного числа, мужского и женского рода, настоящего и прошедшего времени и т.д., после чего текст проверяемого документа сохраненного в электронном виде в памяти ЭВМ разбивают на информативные куски и далее с использованием поисковых систем проводят поиск источников, содержащих информативные куски, полученные таким образом источники проверяют затем на соответствие исходному документу, для чего определяют формат источника, при необходимости удаляют теги, и преобразуют его в обычный электронный текстовый формат без разметки дополняют следующими действиями: в качестве первого модуля обработки информации, предварительно, с помощью программных и аппаратных средств, средств защиты информации, средств разграничения доступа, формируют объект информатизации (фиг. 2), включающий в себя сервер, автоматизированные рабочие места в виде ЭВМ, подключенных к серверу с помощью сетевого оборудования, локальную буферную ЭВМ для переноса на сервер информации из внешних источников, сохраненной в электронном виде на физических носителях информации, проводят процедуру аттестации объекта информатизации с помощью контрольно-измерительной аппаратуры и тестовых программных средств для исключения технических каналов утечки информации с объекта информатизации, собирают в электронном виде данные об опубликованных научных работах ограниченного распространения, об изданных учебниках и учебных пособиях ограниченного распространения, используя при этом защищенные каналы передачи информации, размещают собранные данные в электронном виде в памяти сервера, формируют из них базу данных научных работ ограниченного распространения (B1) в виде полных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти сервера, для каждого нового автора формируют персональную электронную авторскую папку на локальной буферной ЭВМ, с помощью программно-аппаратных средств разграничения доступа ограничивают несанкционированные обращения к этим папкам, размещают в персональной авторской папке на локальной буферной ЭВМ информацию, собранную автором из внешних источников (фиг. 3) и представленную в электронном виде на физическом носителе в качестве исходных данных, для написания научной работы, копируют информацию из персональной электронной авторской папки локальной буферной ЭВМ на сервер объекта информатизации используя защищенный физический носитель информации, формируют на сервере объекта информатизации вторую базу данных персональных авторских папок с информацией из внешних источников в электронном виде, собранной авторами для написания работ ограниченного распространения (В2), с помощью средств разграничения доступа предоставляют автору доступ к чтению и копированию информации из баз (В1) и (В2) на автоматизированном рабочем месте объекта информатизации, после окончания автором написания научной работы ограниченного распространения сравнивают электронный текст работы с электронными текстами базы данных (B1) на предмет объема заимствований, по критерию, установленному для каждого вида научной работы, в случае превышения допустимого предела заимствований в проверяемой работе возвращают работу автору, для выполнения установленного критерия, а в случае допустимого объема заимствований сравнивают электронный текст работы с электронными текстами из базы данных (В2) персональных авторских папок с информацией из внешних источников, собранных авторами в качестве исходных данных для написания работ ограниченного распространения, в случае отсутствия объема совпадений по установленному критерию принимают окончательное решение об отсутствии плагиата в научной работе ограниченного распространения, а в случае обнаружения совпадений формируют электронную папку с электронными текстами из базы данных (B2), выявленными по совпадению текста, используя для формирования папки копии этих электронных текстов из буферной ЭВМ, проверяют электронные тексты из сформированной папки на предмет содержания сведений ограниченного распространения, в случае обнаружения таких сведений переносят их из базы (В2) в базу (B1), и безвозвратно удаляют их из памяти буферной ЭВМ, а в случае их отсутствия копируют электронные тексты из сформированной папки на физический носитель информации и на втором модуле (фиг. 3) проверяют электронные тексты из сформированной папки на объем заимствований по источникам сети Интернет в общедоступных сервисах, при выявлении любого объема заимствований копируют выявленные по совпадениям источники информации в электронном виде с указанием названий, авторов, дат, издательств, электронных адресов на физический носитель, копируют выявленные источники информации в электронном виде на буферную ЭВМ, выявленные источники информации в электронном виде из буферной ЭВМ с помощью защищенного физического носителя информации копируют на сервер объекта информатизации, формируют на объекте информатизации третью базу данных электронных текстов из открытых источников с указанием названий, авторов, дат, издательств, электронных адресов (В3), сравнивают на объекте информатизации электронный текст научной работы ограниченного распространения с электронными текстами из базы данных (B3) по установленному критерию, в случае превышения допустимого предела заимствований в проверяемой работе ограниченного распространения возвращают работу автору, для выполнения установленного критерия, а в случае отсутствия объема совпадений по установленному критерию принимают окончательное решение об отсутствии плагиата в научной работе ограниченного распространения.
В частном случае при достаточном накоплении электронной информации в базе (В3), для сокращения времени проверки научной работы ограниченного распространения на плагиат, перед проверкой на втором модуле, сравнивают электронный текст работы с электронными текстами базы данных (В3) на предмет объема заимствований, по критерию, установленному для каждого вида научной работы.
В другом частном случае, информацию, вносимую в базы (B1), (В2), (В3), хранят как в виде полных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти ЭВМ, так и в виде поискового индекса.
В другом частном случае для повышения достоверности оценки научной работы ограниченного распространения на плагиат, в случае отсутствия объема совпадений по установленному критерию при сравнении электронного текста работы с электронными текстами из базы данных (В2), выделяют из оцениваемой работы информативные фрагменты текста для их последующей оценки на объем совпадений с информацией в открытых источниках, при этом для выделения этих фрагментов привлекают эксперта в рассматриваемой предметной области для исключения им в выделяемых информативных фрагментах информации ограниченного распространения.
В другом частном случае электронные тексты из сформированной на буферной ЭВМ папки, предназначенной для последующей проверки на плагиат на втором модуле с использованием общедоступных сервисов, проверяют на предмет содержания сведений ограниченного распространения с привлечением эксперта.
Сопоставительный анализ заявляемого технического решения с прототипом (фиг. 1, 2, 3) показывает, что предлагаемый способ отличается от известного тем, что для выполнения ограничений установленных действующим законодательством в отношении работ ограниченного распространения, в систему вводится ряд новых материальных объектов, связей между ними, а также существенно изменяется порядок действий с информацией с помощью физических носителей информации, в том числе защищенных, с целью исключения утечки сведений ограниченного распространения.
в) причинно-следственная связь между признаками и техническим результатом благодаря новой совокупности существенных признаков в способе реализована возможность проверки авторских текстов работ ограниченного распространения на предмет заимствования информации - плагиата, как по базе данных уже существующих работ ограниченного распространения, так и по всем общедоступным источникам, с одновременным исключением утечки информации ограниченного распространения, содержащейся в проверяемых научных работах, в том числе, тех, в отношении которых действуют ограничения, определяемые действующим законодательством РФ, что устраняет угрозу утечки информации ограниченного распространения и расширяет арсенал технических средств проверки на плагиат.
Благодаря тому, что введен порядок действий с информацией в электронном виде на физических носителях, исключающий утечку информации ограниченного распространения, а так же со средствами разграничения доступа к информации хранящейся в электронном виде, в предлагаемом способе реализована возможность проверки написанных работ на плагиат по открытым источникам и индексам поисковиков, путем формирования проверяемого электронного текста не из работы, выполненной на объекте информатизации, а из исходных данных, использованных авторами при написании работы, которые были взяты ими из общедоступных источников, что расширяет арсенал средств для проверки на плагиат научных работ из тех областей науки, результаты которых охраняются действующим законодательством РФ.
Доказательства соответствия заявленного изобретения условиям патентоспособности «новизна» и «изобретательский уровень».
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
«Промышленная применимость» заявленного способа обусловлена наличием элементной базы, на основе которой могут быть выполнены сервер, автоматизированные рабочие места, сетевое оборудование, устройства хранения и обработки данных аттестованного объекта информатизации, локальной буферной ЭВМ, программно-аппаратных средств защиты информации и разграничения доступа, а также технологий переноса информации с помощью физических носителей информации, в том числе защищенных носителей информации, реализующие заявленный способ.
Краткое описание чертежей
Заявленный способ поясняется чертежами, на которых показаны:
фиг. 1 - Структура системы проверки текстов на наличие заимствований из других источников «Автор.NET» (прототип);
фиг. 2 - Структурная схема, поясняющая процессы поступления информации на 1-й модуль (объект информатизации);
фиг. 3 - Структура система проверки научных работ ограниченного распространения на наличие заимствований из других источников (проверки на плагиат);
фиг. 4 - блок-схема алгоритма способа проверки научных работ ограниченного распространения на плагиат.
Осуществление изобретения
Заявленный способ описывается в целом алгоритмом, представленным на фиг. 4, в котором выполняются действия над материальными объектами, с помощью материальных средств, представленных на фиг. 2, 3:
В блоке 1 в качестве первого модуля обработки информации, предварительно, с помощью программных и аппаратных средств, средств защиты информации, средств разграничения доступа, формируют объект информатизации, включающий в себя сервер, автоматизированные рабочие места в виде ЭВМ, подключенных к серверу с помощью сетевого оборудования (фиг. 2), локальную буферную ЭВМ для переноса на сервер информации из внешних источников, сохраненной в электронном виде на физических носителях информации.
В блоке 2 проводят процедуру аттестации объекта информатизации с помощью контрольно-измерительной аппаратуры и тестовых программных средств для исключения технических каналов утечки информации с объекта информатизации.
Понятия «объект информатизации» и «аттестация объекта информатизации» описаны в Положении по аттестации объектов информатизации по требованиям безопасности информации (утв. Государственной технической комиссией при Президенте РФ 25 ноября 1994 г. ): «п.1.4. Под аттестацией объектов информатизации понимается комплекс организационно-технических мероприятий, в результате которых подтверждается, что объект соответствует требованиям стандартов или иных нормативно-технических документов по безопасности информации, утвержденных Гостехкомиссией России; п. 1.6. При аттестации объекта информатизации подтверждается его соответствие требованиям по защите информации от несанкционированного доступа, в том числе от компьютерных вирусов, от утечки за счет побочных электромагнитных излучений и наводок при специальных воздействиях на объект (высокочастотное навязывание и облучение, электромагнитное и радиационное воздействие), от утечки или воздействия на нее за счет специальных устройств, встроенных в объекты информатизации; п. 1.7. Аттестация предусматривает комплексную проверку (аттестационные испытания) защищаемого объекта информатизации в реальных условиях эксплуатации с целью оценки соответствия применяемого комплекса мер и средств защиты требуемому уровню безопасности информации; п. 1.8. Аттестация проводится органом по аттестации в установленном настоящим Положением порядке и включает в том числе: проведение испытаний отдельных средств и систем защиты информации на аттестуемом объекте информатизации с помощью специальной контрольной аппаратуры и тестовых средств; п. 3.4.1. При использовании на аттестуемом объекте информатизации несертифицированных средств и систем защиты информации в схему аттестации могут быть включены работы по их испытаниям в испытательных центрах (лабораториях) по сертификации средств защиты информации по требованиям безопасности информации или непосредственно на аттестуемом объекте информатизации с помощью специальной контрольной аппаратуры и тестовых средств; п. 3.7.1. На этапе аттестационных испытаний объекта информатизации: осуществляется анализ организационной структуры объекта информатизации, информационных потоков, состава и структуры комплекса технических средств и программного обеспечения, системы защиты информации на объекте; определяется правильность выбора и применения сертифицированных и несертифицированных средств и систем защиты информации; проводятся испытания несертифицированных средств и систем защиты информации на аттестуемом объекте».
В блоках 3 и 4 собирают в электронном виде данные об опубликованных научных работах ограниченного распространения, данные об изданных учебниках и учебных пособиях ограниченного распространения, используя при этом защищенные каналы передачи информации, размещают собранные данные в электронном виде в памяти сервера.
В блоке 5 формируют из них базу данных научных и учебно-методических работ ограниченного распространения (B1) в виде полных электронных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти сервера.
В блоке 6 настраивают управление созданной базой данных на сервере с помощью системы управления базой данных (СУБД).
Подробный процесс формирования баз данных с целью использования этих данных в дальнейшем в информационно-поисковых системах описан, например в главе: Структурно-методологические основы информационно-поисковых систем, источника - Информационные технологии. Учебное пособие. Московская финансово-промышленная академия, М., 2004. Авторы: Алешин Л.И., Максимов Н.В. http://www.e-biblio.ru/book/bib/01_informatika/infteh/book/index.htm.
В блоке 7 для каждого нового автора формируют персональную электронную авторскую папку на локальной буферной ЭВМ.
В блоке 8 с помощью программно-аппаратных средств разграничения доступа ограничивают несанкционированные обращения к персональным электронным авторским папкам, для исключения удаления из них информации, которая в последующем может стать источником поиска плагиата в общедоступных сервисах.
В блоке 9 размещают в персональной авторской папке на локальной буферной ЭВМ информацию, собранную автором из внешних источников и представленную в электронном виде на физическом носителе в качестве исходных данных, для написания научной работы.
В блоке 10 копируют информацию из персональной электронной авторской папки локальной буферной ЭВМ на сервер объекта информатизации, используя защищенный физический носитель информации.
Защищенный носитель информации - устройство безопасного хранения информации с помощью одного из методов шифрования и возможностью экстренного уничтожения данных. Защищенные носители информации позволяют организовать двухфакторную аутентификацию пользователя, когда для входа в систему необходимо предоставить пароль или pin-код от носителя и само устройство. Аппаратные средства шифрования реализуются либо в виде специализированных накопителей (например IronKey, носители eToken NG-Flash, носители ruToken Flash), либо специализированных контроллеров доступа к жестким дискам (например устройства криптографической защиты данных КРИПТОН, разработка Фирмы «АНКАД»). Защищенные накопители представляют собой обычные флеш-накопители, шифрование данных для которых выполняется непосредственно при записи информации на накопитель с использованием специализированного контроллера. Для доступа к информации пользователь должен указать персональный пароль. Контроллеры типа КРИПТОН представляют собой плату расширения стандарта PCI и обеспечивающую прозрачное шифрование записываемых на защищенный носитель данных. (Источник: https://ru.wikipedia.org/wiki/Защищенные_носители_информации).
В блоке 11 формируют на сервере объекта информатизации вторую базу данных персональных авторских папок с информацией из внешних источников в электронном виде, собранной авторами для написания работ ограниченного распространения (В2) в виде полных электронных текстов, необходимых для оценки объема заимствований в электронном виде в памяти сервера.
В блоке 12 настраивают управление созданной базой данных на сервере с помощью СУБД.
В блоке 13 с помощью средств разграничения доступа предоставляют автору доступ к чтению и копированию информации из баз (B1) и (В2) на автоматизированном рабочем месте объекта информатизации.
В блоке 14 после завершения автором написания научной работы ограниченного распространения сравнивают электронный текст работы с электронными текстами базы данных (B1) на предмет объема заимствований, по критерию, установленному для каждого вида научной работы.
Описание критериев. Законодательство в области авторского права, действующее в России, не предусматривает количественных ограничений объема заимствований. При условии указания источника заимствования и имени его автора статья 1274 ГК РФ разрешает «цитирование в оригинале и в переводе в научных, полемических, критических или информационных целях правомерно обнародованных произведений в объеме, оправданном целью цитирования». Согласно статье 1259 ГК РФ, авторские права распространяются на произведения, «выраженные в какой-либо объективной форме, в том числе в письменной, устной форме». В статье 146 УК РФ формами нарушения авторских и смежных прав выступают присвоение авторства и незаконное использование объектов этих прав, причем объем заимствуемого материала не обозначается. Таким образом, с правовой точки зрения значение имеют вид объекта и характер его использования, но не количественные соотношения. Представления о допустимой доле заимствований возникли сравнительно недавно в связи с появлением программных продуктов, которые стали быстро подсчитывать процентные соотношения фрагментов, совпадающих с текстами доступных источников, и не совпадающих ни с одним из них. Стремительное развитие технологий вызвало рост числа публикаций во всем мире, и отслеживать потенциальный плагиат вручную, без помощи таких программ, во научных областях уже стало практически невозможно. Определение допустимого объема текстовых совпадений упрощает оценку результатов автоматизированной проверки. В настоящее время отечественные вузы выпускают локальные нормативные акты, устанавливающие необходимые требования к письменным работам. В различных организациях допустимые объемы заимствований для одного и того же вида документа могут существенно варьироваться. Некоторое представление об их разнообразии дает таблица 1, составленная на основе материалов из официальных документов ведущих российских вузов и с сайтов научных журналов.
(Источник: «Допустимый объем заимствований как проблема организации научной деятельности и контроля ее качества». Н.В. Авдеева, Т.А. Блинова, И.А. Груздев, В.М. Дедовская, Г.А. Лобанова, И.В. Сусь. Российская государственная библиотека, Москва, Россия. УДК 001.893 Открытое образование Т. 22. №5. 2018. DOI: http://dx.doi.org/10.21686/1818-4243-2018-5-74-83). Таким образом, под заранее установленным критерием в изобретении понимается значение, выбранное каждой организацией для конкретного вида научной работы.
В блоке 15 в случае превышения допустимого предела заимствований в проверяемой работе переходят к блоку 16, в котором возвращают работу автору, для выполнения установленного критерия, а в случае допустимого объема заимствований в блоке 17 сравнивают электронный текст работы с электронными текстами из базы данных (В2) персональных авторских папок с информацией из внешних источников, собранных авторами в качестве исходных данных для написания работ ограниченного распространения.
В блоке 18 в случае отсутствия объема совпадений по установленному критерию принимают окончательное решение об отсутствии плагиата в научной работе ограниченного распространения, а в случае обнаружения совпадений в блоке 19 формируют электронную папку с электронными текстами из базы данных (В2), выявленными по совпадению текста, используя для формирования папки сохраненные первоначально копии этих электронных текстов из буферной ЭВМ.
В блоке 20 проверяют электронные тексты из сформированной папки на предмет содержания сведений ограниченного распространения, в случае обнаружения таких сведений в блоке 21 переносят их из базы (В2) в базу (B1), и безвозвратно удаляют их из памяти буферной ЭВМ, а в случае их отсутствия копируют электронные тексты из сформированной папки на физический носитель информации и в блоке 22 на втором модуле проверяют электронные тексты из сформированной папки на объем заимствований по источникам сети Интернет в общедоступных сервисах.
Автоматизированная проверка электронных текстов из сформированной папки на предмет содержания сведений ограниченного распространения возможна, например, с помощью специально организованного поискового индекса с применением информационно-поискового языка. Такие подходы широко реализованы, например, в автоматизированных информационно-поисковых системах.
Автоматизированные информационно-поисковые системы (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:
1) сравниваются не сами объекты, а описания - так называемые «поисковые образы»;
2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.
Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в АИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются «записью». При этом, если АИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нем - это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует базу данных, которая, как правило, хранится в одном файле. Совокупность баз данных, объединенных одной СУБД, образует банк данных (Источник: Информационные технологии. Учебное пособие. Московская финансово-промышленная академия, М., 2004. Авторы: Алешин Л.И., Максимов Н.В. http://www.e-biblio.ru/book/bib/01_infoirnatika/infte/book/index.htm).
Информационный поиск подразумевает использование определенных стратегий, методов, механизмов и средств.
Возможность формирования поисковых образов и специально организованных поисковых индексов для информации ограниченного распространения объясняется тем, что она, как правило, детально структурирована и конкретизирована, например, для сведений, составляющих государственную тайну, исходными данными для формирования поисковых образов, поисковых индексов будет Указ Президента Российской Федерации от 30 ноября 1995 г. N 1203 «Об утверждении перечня сведений, отнесенных к государственной тайне» (с изменениями и дополнениями), который в строго структурированном табличном виде описывает информацию, относимую к сведениям, составляющим государственную тайну: 1) в военной области - 28 пунктов описания; 2) в области экономики, науки и техники - 40 пунктов описания; 3) в области внешней политики и экономики - 18 пунктов описания; 4) в области разведывательной, контрразведывательной и оперативно-розыскной деятельности - 39 пунктов описания. Таким же конкретно-структурированным образом описываются, например, сведения об отнесении к персональным данным в Федеральном законе Российской Федерации N 152-Ф3 и т.п.
В блоке 23 при выявлении любого объема заимствований копируют выявленные по совпадениям источники информации в электронном виде с указанием названий, авторов, дат, издательств, электронных адресов на физический носитель, копируют выявленные источники информации с физического носителя в электронном виде на буферную ЭВМ,
В блоке 24 выявленные источники информации в электронном виде из буферной ЭВМ с помощью защищенного физического носителя информации копируют на сервер объекта информатизации.
В блоке 25 формируют на объекте информатизации третью базу данных электронных текстов из открытых источников с указанием названий, авторов, дат, издательств, электронных адресов (В3) и других атрибутов, необходимых для установления подлинного авторства (типа ISSN, ISBN). В блоке 26 сравнивают на объекте информатизации электронный текст научной работы ограниченного распространения с электронными текстами из базы данных (В3) по установленному критерию.
В блоке 27 в случае превышения допустимого предела заимствований в проверяемой работе ограниченного распространения возвращаются к блоку 16, т.е. возвращают работу автору, для выполнения установленного критерия, а в случае отсутствия объема совпадений по установленному критерию в блоке 28 принимают окончательное решение об отсутствии плагиата в научной работе ограниченного распространения.
Возможность технической реализации заявленного способа объясняется следующим:
Проверку текстов работ ограниченного распространения на наличие заимствований из других источников выполняют только на аттестованном объекте информатизации. Однако реализована техническая возможность по поиску и размещению на этом же объекте информатизации работ из открытых источников, которые могли быть использованы для плагиата. Для этого используют предварительно создаваемые базы данных:
- база данных работ ограниченного распространения в виде электронных текстов, создаваемая на объекте информатизации (By);
- база данных материалов в виде электронных текстов, которые отобраны авторами из внешних источников, как исходные данные для написания новых работ ограниченного распространения (В2).
В ходе проверки на наличие заимствований в открытых источниках (в сети Интернет) сами работы ограниченного распространения в открытых системах не проверяются. На проверку направляют те материалы, которые ранее были размещены в электронном виде в памяти буферной ЭВМ, т.е. материалы из открытых источников, использованные авторами в качестве исходных данных. Например, автор в качестве исходных данных принес в электронном виде текст, не обладающий атрибутами, позволяющими достоверно определить авторство этого текста, т.е. в тексте и в атрибутах файла отсутствуют данные об авторе, издательстве, дате публикации, отсутствуют уникальные номера издания (например ISBN, ISSN), поэтому выявить факт плагиата на данном этапе невозможно. При завершении научной работы на объекте информатизации ее электронный текст сравнивают с электронными текстами, не обладающими соответствующими вышеперечисленными атрибутами, принесенными авторами в качестве исходных данных. На данном этапе объем совпадений не важен, он может быть любым, так как объем источника, с которым сверяют научную работу, недостоверен. При выявлении любого объема совпадений с электронными текстами из базы данных (В2), из соответствующей авторской папки в памяти буферной ЭВМ копируют электронные тексты выявленных источников, не обладающих вышеперечисленными атрибутами на физический носитель информации и уже их (а не работу ограниченного распространения) проверяют на плагиат на втором модуле. Выявляют, таким образом, научные работы в открытых источниках, на основе которых была написана научная работа ограниченного распространения, формируют из этих выявленных научных работ третью базу данных (В3) научных работ из открытых источников, со всеми, присущими научной работе атрибутами: тема, авторы, издательство, год издания, регистрационный библиотечный номер и т.п., которые авторы работ ограниченного распространения, при переносе исходных данных через буферную ЭВМ на объект информатизации, могут умышленно удалять с целью скрытия факта плагиата. Тексты работ ограниченного распространения проверяют в конечном итоге не в Интернете, а на аттестованном объекте информатизации. В алгоритме способа выполняют процедуру проверки материалов, размещенных на буферной ЭВМ, и подготавливаемых к проверке на втором модуле (в общедоступных сервисах), на предмет содержания сведений, ограниченного распространения, используя например индексы и информационно-поисковые языки. В некоторых случаях, если работа содержит сведения, составляющие государственную тайну, возможно привлечение эксперта для оценки результатов автоматизированной проверки материалов, на предмет содержания сведений составляющих государственную тайну.
Таким образом, предлагаемый способ расширяет арсенал средств проверки научных работ ограниченного распространения на плагиат, так как сравнение обеспечивается и с базами данных работ ограниченного распространения и с базами данных научных работ из открытых источников, и в тоже время, предотвращает угрозу утечки информации ограниченного распространения, путем многоуровневого разграничения доступа к информации в формируемых базах данных, проверки информации на выходе объекта информатизации на предмет содержания сведений, составляющих государственную тайну, чем достигается новый технический результат -расширение арсенала средств проверки научных работ ограниченного распространения на плагиат.
Claims (5)
1. Способ проверки научных работ ограниченного распространения на плагиат, формирующий по результатам проверки отчет об объеме найденных заимствований и возможностью просмотра найденных источников, включающий предварительное формирование двух независимо функционирующих друг от друга модулей, каждый из которых представляет из себя совокупность программно-аппаратных средств обработки информации, при этом первый модуль осуществляет проверку информации, сохраненной в электронном виде в памяти ЭВМ на плагиат по внутренней базе источников, которая включает в себя базу статей, курсовых и контрольных работ, дипломных проектов, а также учебников и курсов лекций, хранящихся как в виде полных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти ЭВМ, так и в виде поискового индекса, а второй модуль осуществляет проверку информации на плагиат по источникам сети Интернет, в ходе которого текст проверяемой информации, сохраненной в электронном виде в памяти ЭВМ, разбивают на информативные куски и далее, с использованием электронных поисковых систем, проводят поиск источников, содержащих информативные куски, полученные таким образом источники проверяют затем на соответствие исходному электронному документу, отличающийся тем, что в качестве первого модуля обработки информации, предварительно, с помощью программных и аппаратных средств, средств защиты информации, средств разграничения доступа, формируют объект информатизации, включающий в себя сервер, автоматизированные рабочие места в виде ЭВМ, подключенных к серверу с помощью сетевого оборудования, локальную буферную ЭВМ для переноса на сервер информации из внешних источников, сохраненной в электронном виде на физических носителях информации, проводят процедуру аттестации объекта информатизации с помощью контрольно-измерительной аппаратуры и тестовых программных средств для исключения технических каналов утечки информации с объекта информатизации, собирают в электронном виде данные об опубликованных научных работах ограниченного распространения, об изданных учебниках и учебных пособиях ограниченного распространения, используя при этом защищенные каналы передачи информации, размещают собранные данные в электронном виде в памяти сервера, формируют из них базу данных научных работ ограниченного распространения (B1) в виде полных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти сервера, для каждого нового автора формируют персональную электронную авторскую папку на локальной буферной ЭВМ, с помощью программно-аппаратных средств разграничения доступа ограничивают несанкционированные обращения к этим папкам, размещают в персональной авторской папке на локальной буферной ЭВМ информацию, собранную автором из внешних источников и представленную в электронном виде на физическом носителе в качестве исходных данных, для написания научной работы, копируют информацию из персональной электронной авторской папки локальной буферной ЭВМ на сервер объекта информатизации, используя защищенный физический носитель информации, формируют на сервере объекта информатизации вторую базу данных персональных авторских папок с информацией из внешних источников в электронном виде, собранной авторами для написания работ ограниченного распространения (В2), с помощью средств разграничения доступа предоставляют автору доступ к чтению и копированию информации из баз (B1) и (В2) на автоматизированном рабочем месте объекта информатизации, после окончания автором написания научной работы ограниченного распространения сравнивают электронный текст работы с электронными текстами базы данных (В1) на предмет объема заимствований, по критерию, установленному для каждого вида научной работы, в случае превышения допустимого предела заимствований в проверяемой работе возвращают работу автору, для выполнения установленного критерия, а в случае допустимого объема заимствований сравнивают электронный текст работы с электронными текстами из базы данных (В2) персональных авторских папок с информацией из внешних источников, собранных авторами в качестве исходных данных для написания работ ограниченного распространения, в случае отсутствия объема совпадений по установленному критерию принимают окончательное решение об отсутствии плагиата в научной работе ограниченного распространения, а в случае обнаружения совпадений формируют электронную папку с электронными текстами из базы данных (В2), выявленными по совпадению текста, используя для формирования папки копии этих электронных текстов из буферной ЭВМ, проверяют электронные тексты из сформированной папки на предмет содержания сведений ограниченного распространения, в случае обнаружения таких сведений переносят их из базы (В2) в базу (B1) и безвозвратно удаляют их из памяти буферной ЭВМ, а в случае их отсутствия копируют электронные тексты из сформированной папки на физический носитель информации и на втором модуле проверяют электронные тексты из сформированной папки на объем заимствований по источникам сети Интернет в общедоступных сервисах, при выявлении любого объема заимствований копируют выявленные по совпадениям источники информации в электронном виде с указанием названий, авторов, дат, издательств, электронных адресов на физический носитель, копируют выявленные источники информации в электронном виде на буферную ЭВМ, выявленные источники информации в электронном виде из буферной ЭВМ с помощью защищенного физического носителя информации копируют на сервер объекта информатизации, формируют на объекте информатизации третью базу данных электронных текстов из открытых источников с указанием названий, авторов, дат, издательств, электронных адресов (В3), сравнивают на объекте информатизации электронный текст научной работы ограниченного распространения с электронными текстами из базы данных (В3) по установленному критерию, в случае превышения допустимого предела заимствований в проверяемой работе ограниченного распространения возвращают работу автору, для выполнения установленного критерия, а в случае отсутствия объема совпадений по установленному критерию принимают окончательное решение об отсутствии плагиата в научной работе ограниченного распространения.
2. Способ по п. 1, отличающийся тем, что при достаточном накоплении электронной информации в базе (В3), для сокращения времени проверки научной работы ограниченного распространения на плагиат, перед проверкой на втором модуле, сравнивают электронный текст работы с электронными текстами базы данных (В3) на предмет объема заимствований, по критерию, установленному для каждого вида научной работы.
3. Способ по п. 1, отличающийся тем, что информацию, вносимую в базы (B1), (В2), (В3), хранят как в виде полных текстов, необходимых для оценки значимости заимствований в электронном виде в памяти ЭВМ, так и в виде поискового индекса.
4. Способ по п. 1, отличающийся тем, что для повышения достоверности оценки научной работы ограниченного распространения на плагиат, в случае отсутствия объема совпадений по установленному критерию при сравнении электронного текста работы с электронными текстами из базы данных (В2), выделяют из оцениваемой работы информативные фрагменты текста для их последующей оценки на объем совпадений с информацией в открытых источниках, при этом для выделения этих фрагментов привлекают эксперта в рассматриваемой предметной области для исключения им в выделяемых информативных фрагментах информации ограниченного распространения.
5. Способ по п. 1, отличающийся тем, что электронные тексты из сформированной на буферной ЭВМ папки, предназначенной для последующей проверки на плагиат на втором модуле с использованием общедоступных сервисов, проверяют на предмет содержания сведений ограниченного распространения с привлечением эксперта.
Publications (1)
Publication Number | Publication Date |
---|---|
RU2774100C1 true RU2774100C1 (ru) | 2022-06-15 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763343A (zh) * | 2008-12-23 | 2010-06-30 | 上海晨鸟信息科技有限公司 | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 |
CN103049467A (zh) * | 2011-10-12 | 2013-04-17 | 杨纯青 | 中文数字反抄袭侦测比对系统与方法 |
RU156543U1 (ru) * | 2014-12-05 | 2015-11-10 | Федеральное государственное бюджетное учреждение "27 Центральный научно-исследовательский институт" Министерства обороны Российской Федерации | Автоматизированная система формализации семантических взаимосвязей диссертационных исследований |
RU162506U1 (ru) * | 2014-12-05 | 2016-06-10 | Федеральное государственное бюджетное учреждение "27 Центральный научно-исследовательский институт" Министерства обороны Российской Федерации | Автоматизированная система определения дублирования текстов и плагиата в публикациях и диссертационных работах |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
CN105701076B (zh) * | 2016-01-13 | 2018-05-22 | 湖南通远网络科技有限公司 | 一种论文抄袭检测方法及系统 |
US10949611B2 (en) * | 2019-01-15 | 2021-03-16 | International Business Machines Corporation | Using computer-implemented analytics to determine plagiarism or heavy paraphrasing |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763343A (zh) * | 2008-12-23 | 2010-06-30 | 上海晨鸟信息科技有限公司 | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 |
CN103049467A (zh) * | 2011-10-12 | 2013-04-17 | 杨纯青 | 中文数字反抄袭侦测比对系统与方法 |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
RU156543U1 (ru) * | 2014-12-05 | 2015-11-10 | Федеральное государственное бюджетное учреждение "27 Центральный научно-исследовательский институт" Министерства обороны Российской Федерации | Автоматизированная система формализации семантических взаимосвязей диссертационных исследований |
RU162506U1 (ru) * | 2014-12-05 | 2016-06-10 | Федеральное государственное бюджетное учреждение "27 Центральный научно-исследовательский институт" Министерства обороны Российской Федерации | Автоматизированная система определения дублирования текстов и плагиата в публикациях и диссертационных работах |
CN105701076B (zh) * | 2016-01-13 | 2018-05-22 | 湖南通远网络科技有限公司 | 一种论文抄袭检测方法及系统 |
US10949611B2 (en) * | 2019-01-15 | 2021-03-16 | International Business Machines Corporation | Using computer-implemented analytics to determine plagiarism or heavy paraphrasing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duranti | From digital diplomatics to digital records forensics | |
US10089287B2 (en) | Redaction with classification and archiving for format independence | |
Owan et al. | Data management practices in Educational Research | |
Erlandsson et al. | Electronic records management: a literature review | |
Brinkman | An analysis of student privacy rights in the use of plagiarism detection systems | |
Stephenson | Official (Isc) 2® Guide to the Ccfp Cbk | |
Solovyev | Long-term digital documents storage technology | |
Cohen | Digital diplomatics and forensics: going forward on a global basis | |
Haris et al. | Automated requirement sentences extraction from software requirement specification document | |
Joun et al. | Relevance analysis using revision identifier in MS word | |
Teppler | Testable reliability: a modernized approach to ESI admissibility | |
Tough et al. | Record keeping in a hybrid environment: managing the creation, use, preservation and disposal of unpublished information objects in context | |
Guo et al. | Çorba: Crowdsourcing to obtain requirements from regulations and breaches | |
RU2774100C1 (ru) | Способ проверки научных работ ограниченного распространения на плагиат | |
Didriksen | Forensic analysis of OOXML documents | |
Caianiello et al. | Digital forensic evidence. Towards common European standards in antifraud administrative and criminal investigations | |
Salisbury et al. | Assessing the emphasis on information security in the systems analysis and design course | |
Ferrazzano et al. | Digital forensics: best practices and perspective | |
Fekete | Teaching Data Management Concepts for Data in Files | |
Manes et al. | New federal rules and digital evidence | |
Delgado et al. | Using open source for forensic purposes | |
Million et al. | Policies, procedures, and decision‐making: Data managers and the research lifecycle | |
Ilya | Progress in Natural Language Processing Technologies: Regulating Quality and Accessibility of Training Data | |
Coursey et al. | R Code Authorship Attribution using the ASAP Tool | |
Collins | Cryptographic Methods with a Pli Cacheté |