RU2625611C2 - Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением - Google Patents

Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением Download PDF

Info

Publication number
RU2625611C2
RU2625611C2 RU2015152385A RU2015152385A RU2625611C2 RU 2625611 C2 RU2625611 C2 RU 2625611C2 RU 2015152385 A RU2015152385 A RU 2015152385A RU 2015152385 A RU2015152385 A RU 2015152385A RU 2625611 C2 RU2625611 C2 RU 2625611C2
Authority
RU
Russia
Prior art keywords
content
documents
document
quasi
model
Prior art date
Application number
RU2015152385A
Other languages
English (en)
Other versions
RU2015152385A (ru
Inventor
Юрий Владимирович Полищук
Павел Владимирович Полищук
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Оренбургский государственный университет"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Оренбургский государственный университет" filed Critical Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Оренбургский государственный университет"
Priority to RU2015152385A priority Critical patent/RU2625611C2/ru
Publication of RU2015152385A publication Critical patent/RU2015152385A/ru
Application granted granted Critical
Publication of RU2625611C2 publication Critical patent/RU2625611C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к способам организации хранения документов для минимизации их объема при хранении. Техническим результатом является снижение объема хранения электронных документов с квазиструктурированным информационным наполнением. В способе минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением для коллекции однотипных электронных документов с квазиструктурированным информационным наполнением синтезируют квазиструктурированную модель информационного наполнения документов, выполняя разметку контента электронных документов и сохраняя квазиструктурированный контент в виде отдельных файлов. Затем разрабатывают шаблон формы документов обрабатываемого типа и реализуют архивацию шаблона формы и квазиструктурированного контента документов. Причем восстановление электронного документа выполняют путем извлечения шаблона формы и контента документа из архива и применения шаблона формы к полученному контенту документа. 3 ил.

Description

Изобретение относится к способам организации хранения документов для минимизации их объема при хранении и может быть использовано для организации баз или банков документов.
Известен способ сокращения объемов сохраняемых документов в памяти компьютера при помощи программ-архиваторов [Черников Б.В. Офисные информационные технологии: Практикум. - М.: Финансы и статистика, 2007; Ратушняк А., Юкин В., Ватолин Д., Смирнов М. Методы сжатия данных. Устройство архиваторов, сжатие изображения и видео. - М: Диалог-МИФИ, 2003].
К недостаткам данного способа следует отнести то, что обработка документа в этом случае производится после его создания и сохранения на диске, а для восстановления его в первоначальном виде необходимо «распаковать» созданный архив, проведя обратную архивированию операцию. Сокращение объема при таком способе преобразования документа (архивировании) в большей степени относится именно к его содержательной (текстовой) части, в то время как объем графических элементов сокращается (сжимается) незначительно.
Известен способ преобразования слабоформулизуемых документов, предусматривающие лексикологический синтез документов для минимизации, который заключается в осуществлении лексикологического синтеза документа, формировании документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксации индексной последовательности, сжатии индексной последовательности, формировании информационного пакета документа, хранении его в компьютерной памяти, последующем восстановлении документа, при котором осуществляют чтение информационного пакета, восстановлении исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, затем восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении [Патент РФ №2413985, МПК G06F 17/2,1 опубл. 10.03.2011 г., автор Черников Б.В. «Способ преобразования слабоформулизуемых документов для минимизации их объема при хранении»].
К недостаткам данного способа следует отнести отсутствие математической модели информационного наполнения обрабатываемых документов, отсутствие возможности описания лексикологическим деревом фактографического контента (неунифицированной информации) для документов.
Данное техническое решение выбрано автором в качестве прототипа.
Техническим результатом предлагаемого способа является сокращение объема хранения электронных документов за счет однократного хранения формы документа данного типа и содержание (контента) документов коллекции, в результате хранится большой объем электронных документов.
Технический результат достигается тем, что в предлагаемом способе минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением для коллекции синтезируют каждый документ коллекции квазиструктурированной модели информационного наполнения документов, выполняя разметку контента электронных документов и сохраняя квазиструктурированный контент в виде отдельных файлов, а разработанный шаблон сжимают вместе с фактографическими данными всех документов в архив шаблона формы и квазиструктурированного контента документов, причем восстановление электронного документа выполняют извлечением из архива фактографических данных шаблона формы и заданного контента документа и применением шаблона формы к вновь полученному контенту документа.
Сущность изобретения поясняется чертежами
На фиг. 1 изображена блок-схема последовательностей операций, иллюстрирующая сущность способа минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением.
На фиг. 2 изображена блок-схема последовательностей операций, иллюстрирующая процесс восстановления документа.
На фиг. 3 - пример применения квазиструктурированной модели информационного наполнения к фрагменту документа документации газоконденсатного месторождения.
Предлагаемый способ реализуется следующим образом.
Выбирается коллекция однотипных электронных документов с квазиструктурированным информационным наполнением.
По известному способу выбранного типа документов синтезируют квазиструктурированную модель информационного наполнения документа.
Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов, заключающийся в построении первоначальной модели, определении параметров эффекта и целевой функции для каждого документа первоначальной модели, вычислении среднего значения целевой функции первоначальной модели, выполнении анализа контента структурных единиц полученной модели с внесением изменений в структуру первоначальной модели для уменьшения значений параметров эффекта за исключением параметра валидации, определении параметров эффекта и целевой функции для каждого документа скорректированной модели, вычислении среднего значения целевой функции скорректированной модели, сравнении средних значений целевой функции для первоначальной и скорректированной моделей в рамках хотя бы одной итерации, причем в качестве параметров эффекта выбирают валидацию модели, степень детализации модели, равномерность распределения структурных единиц модели по документу, насыщенность структурных единиц модели в документе, гибкость модели, а в качестве целевой функции выбирают свертку параметров эффекта, причем валидацию модели определяют из соответствия модели стандарту на содержание и она равна единице, степень детализации модели определяют из отношения количества символов контента структурных единиц модели к общему количеству структурных единиц модели и она минимизирована, равномерность распределения структурных единиц модели по документу определяют из отношения количества символов фрагмента к количеству структурных единиц модели данного фрагмента и она минимизирована, насыщенность структурных единиц модели в документе определяют из отношения количества символов документа к количеству символов контента структурных единиц модели и она минимизирована, гибкость модели определяют из отношения общего количества структурных единиц модели без учета необязательных и повторяющихся структурных единиц модели к общему количеству структурных единиц модели и она стремится к нулю, а целевую функцию определяют из отношения суммы значений всех вышеперечисленных параметров эффекта к значению параметра валидации модели [Полищук Ю.В. Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов. Патент РФ №2517428]. Эта модель информационного наполнения может быть записана следующим образом:
Figure 00000001
где root - корневой объект, root ∈ sObj; sObj - конечное множество объектов, каждый из которых содержит фрагмент информационного наполнения документа (текст, рисунок и т.д.) или выполняет роль контейнера для одного или нескольких объектов. Для объектов-контейнеров доступны следующие метасвойства: smetc - определяет объект в качестве контейнера; mixed - разрешает использование объектов-потомков в произвольном порядке; kol_о - количество объектов модели; LObj - отображение, определенное на множестве sObj, такое что
Figure 00000002
, где obji - дочерний объект, obji ∈ sObj; i=1, …, n, n - число дочерних объектов; minOccurs - функция, определяющая минимально возможное число раз использования объекта в модели; maxOccurs - функция, определяющая максимально возможное число раз использования объекта в модели; sMet - конечное множество метасвойств ограничений на содержимое объекта; Obj_smet - отображение, определенное на множестве sObj, такое что
Figure 00000003
, где smetj - метасвойство ограничения на содержимое объекта, smetj ∈ sMet, j=1, …, kol_m, kol_m - количество доступных метасвойств модели.
Документ, состоит из пяти объектов. Объект А - выполняет роль контейнера для объектов В и С, объект В - выполняет роль контейнера для объектов D и E. Объекты A, B, D - обязательно должны быть использованы при разработке документа, объект С - является необязательным к использованию, объект Е в рассматриваемом примере должен быть использован от трех до пяти раз. Объекту-контейнеру А соответствует метасвойство ограничения smetc, а для объекта-контейнера В определено дополнительно метасвойство mixed. Объект С представлен числовым наполнением, т.е. ему соответствует метасвойство ограничения smet2. Объекты D, Е - имеют символьное информационное наполнение, которому соответствует метасвойство ограничения smet1.
Модель документа имеет вид:
Figure 00000004
Затем применяем полученную модель ко всем документам коллекции (на фиг. 3 представлен фрагмент разметки контента электронного документа с модели) и сохраняем квазиструктурированный контент обрабатываемых документов.
Выполняем разработку шаблона формы в виде XSLT-шаблона для обрабатываемого типа документов, который сохраняем в виде отдельного файла.
Производим архивацию шаблона формы и квазиструктурированный контент всех документов. Данную операцию реализуем, например, с помощью архиватора 7-ZIP. Архив сохраняем в памяти компьютера.
Для восстановления документа необходимо выполнить следующие операции (фиг. 2).
Выбрать требуемый для восстановления файл.
Извлечь из архива и сохранить в памяти компьютера контент выбранного документа и шаблон формы.
Применить шаблон формы к контенту документа и сохранить восстановленный документ в памяти компьютера.
Анализ результатов экспериментальной проверки предлагаемого способа минимизации объема хранения электронных документов с квазиструктурированным информационным наполнением показывает существенное сокращение объема. На примере документации газоконденсатного месторождения преимущество в сравнении с традиционным архивированием составило в 20 и более раз.
Figure 00000005
Предлагаемое техническое решение позволяет минимизировать объем хранения электронных документов с квазиструктурированным информационным наполнением до 20 раз, счет однократного хранения формы документа данного типа и содержания (контента) документов коллекции.

Claims (1)

  1. Способ преобразования документов для минимизации их объема при хранении электронных документов с квазиструктурированным информационным наполнением, состоящий в выборе коллекции однотипных электронных документов с квазиструктурированным информационным наполнением, синтезе квазиструктурированной модели информационного наполнения для обрабатываемого типа документов и извлечении из документов квазиструктурированного контента с помощью синтезированной модели, и разработке шаблона формы электронного документа обрабатываемого типа, сохранении шаблона формы и контентов документов коллекции в виде архива, затем в восстановлении в памяти компьютера электронных документов путем извлечения из архива и применения шаблона формы к контентам документов, отличающийся тем, что синтезируют каждый документ коллекции квазиструктурированной модели информационного наполнения документов, выполняя разметку контента электронных документов и сохраняя квазиструктурированный контент в виде отдельных файлов, а разработанный шаблон сжимают вместе с фактографическими данными всех документов в архив шаблона формы и квазиструктурированного контента документов, причем восстановление электронного документа выполняют извлечением из архива фактографических данных шаблона формы и заданного контента документа и применением шаблона формы к вновь полученному контенту документа.
RU2015152385A 2015-12-07 2015-12-07 Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением RU2625611C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015152385A RU2625611C2 (ru) 2015-12-07 2015-12-07 Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015152385A RU2625611C2 (ru) 2015-12-07 2015-12-07 Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением

Publications (2)

Publication Number Publication Date
RU2015152385A RU2015152385A (ru) 2017-06-13
RU2625611C2 true RU2625611C2 (ru) 2017-07-17

Family

ID=59067973

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015152385A RU2625611C2 (ru) 2015-12-07 2015-12-07 Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением

Country Status (1)

Country Link
RU (1) RU2625611C2 (ru)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202697A1 (en) * 2002-04-25 2003-10-30 Simard Patrice Y. Segmented layered image system
US20100124239A1 (en) * 2008-11-20 2010-05-20 Silver Peak Systems, Inc. Systems and methods for compressing packet data
RU2413985C2 (ru) * 2009-03-05 2011-03-10 Борис Васильевич Черников Способ преобразования слабоформализуемых документов для минимизации их объема при хранении
WO2011159517A2 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Optimization of storage and transmission of data
RU2517428C2 (ru) * 2012-06-13 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202697A1 (en) * 2002-04-25 2003-10-30 Simard Patrice Y. Segmented layered image system
US20100124239A1 (en) * 2008-11-20 2010-05-20 Silver Peak Systems, Inc. Systems and methods for compressing packet data
RU2413985C2 (ru) * 2009-03-05 2011-03-10 Борис Васильевич Черников Способ преобразования слабоформализуемых документов для минимизации их объема при хранении
WO2011159517A2 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Optimization of storage and transmission of data
RU2517428C2 (ru) * 2012-06-13 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов

Also Published As

Publication number Publication date
RU2015152385A (ru) 2017-06-13

Similar Documents

Publication Publication Date Title
US10970536B2 (en) Method and system for assessing similarity of documents
US11734364B2 (en) Method and system for document similarity analysis
CN113610239B (zh) 针对机器学习的特征处理方法及特征处理系统
GB2569848A (en) Question answering for data visualizations
Roussev et al. Multi-resolution similarity hashing
US8086548B2 (en) Measuring document similarity by inferring evolution of documents through reuse of passage sequences
US20100324883A1 (en) Trans-lingual representation of text documents
Jai-Andaloussi et al. Medical content based image retrieval by using the Hadoop framework
Ledur et al. Towards a domain-specific language for geospatial data visualization maps with big data sets
JP2017532655A (ja) カスケーディングスタイルシートファイルの圧縮
JP2009129323A (ja) 同義語抽出装置
CN112199937A (zh) 一种短文本相似度分析方法及其系统、计算机设备、介质
CN103177105A (zh) 一种图像检索方法及装置
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
KR102269606B1 (ko) 콜드 스타트를 해결하기 위한 신규 컨텐츠 분석 분석 방법, 장치 및 컴퓨터 프로그램
CN103324942A (zh) 一种图像分类方法、装置及系统
RU2625611C2 (ru) Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением
Potisepp Large-scale image processing using MapReduce
JP2011108192A (ja) マルチメディア分類システム及びマルチメディア検索システム
US11593564B2 (en) Systems and methods for extracting patent document templates from a patent corpus
Weber Observing the web by understanding the past: Archival internet research
Wu et al. A comparative study on performance of xml parser apis (dom and sax) in parsing efficiency
Lohar et al. Content Based Image Retrieval System over Hadoop Using MapReduce
van der Vlugt Large-scale SVD algorithms for latent semantic indexing, recommender systems and image processing
US20160254824A1 (en) Determining compression techniques to apply to documents

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20171208