RU2413985C2 - Способ преобразования слабоформализуемых документов для минимизации их объема при хранении - Google Patents

Способ преобразования слабоформализуемых документов для минимизации их объема при хранении Download PDF

Info

Publication number
RU2413985C2
RU2413985C2 RU2009107880/08A RU2009107880A RU2413985C2 RU 2413985 C2 RU2413985 C2 RU 2413985C2 RU 2009107880/08 A RU2009107880/08 A RU 2009107880/08A RU 2009107880 A RU2009107880 A RU 2009107880A RU 2413985 C2 RU2413985 C2 RU 2413985C2
Authority
RU
Russia
Prior art keywords
document
index sequence
lexicological
documents
information
Prior art date
Application number
RU2009107880/08A
Other languages
English (en)
Other versions
RU2009107880A (ru
Inventor
Борис Васильевич Черников (RU)
Борис Васильевич Черников
Original Assignee
Борис Васильевич Черников
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Борис Васильевич Черников filed Critical Борис Васильевич Черников
Priority to RU2009107880/08A priority Critical patent/RU2413985C2/ru
Publication of RU2009107880A publication Critical patent/RU2009107880A/ru
Application granted granted Critical
Publication of RU2413985C2 publication Critical patent/RU2413985C2/ru

Links

Images

Abstract

Изобретение относится к способам преобразования документов для минимизации их объема при хранении. Для решения задачи сокращения объемов слабоформализуемых документов при хранении в памяти компьютера в способе преобразования слабоформализуемых документов осуществляют лексикологический синтез документа, формирование документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксацию индексной последовательности, сжатие индексной последовательности, формирование информационного пакета документа, хранение его в компьютерной памяти, последующее восстановление документа, при котором осуществляют чтение информационного пакета, восстановление исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, затем восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа, с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении. 5 ил.

Description

Изобретение относится к способам преобразования документов для минимизации их объема при хранении.
Большинство документов, наиболее распространенных в настоящее время в системах управления различными видами деятельности, относятся к слабоформализуемым. К ним, в частности, относятся полнотекстовые документы, содержание которых существенным образом связано с произвольной, меняющейся от конкретной ситуации, структурой, т.е. фактически к данной категории документов могут быть отнесены практически любые документы, создаваемые в процессе деловой деятельности организаций.
При использовании персональных компьютеров как средств создания документов возникают проблемы, связанные с хранением информации, поскольку при постоянно возрастающем количестве документов требуются большие объемы памяти. Увеличение объемов накопленных данных приводит к усложнению управления ими и необходимости расширения возможностей систем хранения, что сопряжено с дополнительными финансовыми затратами.
Большинство деловых документов создаются с использованием бланков, содержащих графические компоненты как неотъемлемую часть документа. Наличие в документе графических компонентов (например, изображение на бланке логотипа организации с использованием цветовых элементов) может приводить к увеличению общего объема документа более чем на 100 Мб.
Документ представляет собой сложную информационную совокупность, характеризующуюся множеством различных параметров (состав реквизитов, их содержание, формат, тип носителя, правила расположения информации по полю документа и т.д.), каждый из которых может быть принят за объект унификации. В каждом из документов различают форму и содержание.
При создании текстового документа его форма может задаваться при помощи шаблона, заблаговременно содержащего необходимые компоненты, в том числе и графические, однако содержательная часть, как правило, формируется путем прямого ввода информации с клавиатуры.
Известен способ прямого сохранения документов в текстовом процессоре Microsoft Word [Черников Б.В. Офисные информационные технологии: Практикум. - М.: Финансы и статистика, 2007], при котором сохранение документа осуществляется на выбранном носителе информации непосредственно из программной среды, в которой производится создание документа. К недостаткам данного способа следует отнести необходимость полнотекстового сохранения документа со всеми его неотъемлемыми компонентами и атрибутами, включая служебную информацию, присущую документам, создаваемым в Microsoft Word. Эта информация имеет достаточно большой объем («пустой» документ, содержащий лишь такую служебную информацию Microsoft Word, при сохранении на диске занимает более 35 кб).
Известен способ сокращения объемов сохраняемых документов в памяти компьютера при помощи программ-архиваторов [Черников Б.В. Офисные информационные технологии: Практикум. - М.: Финансы и статистика, 2007; Ратушняк А., Юкин В., Ватолин Д., Смирнов М. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео.- М.: Диалог-МИФИ, 2003]. К недостаткам данного способа следует отнести то, что обработка документа в этом случае производится после его создания и сохранения на диске, а для восстановления его в первоначальном виде необходимо «распаковать» созданный архив, проведя обратную архивированию операцию. Сокращение объема при таком способе преобразования документа («архивировании») в большей степени относится именно к его содержательной (текстовой) части, в то время как объем графических элементов сокращается («сжимается») незначительно.
Задачей предлагаемого изобретения является сокращение объемов слабоформализуемых документов при хранении в памяти компьютера.
Поставленная задача решается тем, что в предлагаемом способе преобразования слабоформализуемых документов проводят лексикологический синтез документа, формирование документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксация индексной последовательности, сжатие индексной последовательности, формирование информационного пакета документа, хранение его в компьютерной памяти, последующее восстановление документа, включающее чтение информационного пакета, восстановление исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа, с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении.
Сущность изобретения поясняется фиг.1-5.
На фиг.1 изображена блок-схема последовательности операций, иллюстрирующая сущность способа хранения слабоформализуемых документов в соответствии с изобретением.
На фиг.2 изображена блок-схема последовательности операций, иллюстрирующая собственно процесс автоматизированной фиксации индексной последовательности при формировании документа при его создании в соответствии с изобретением.
На фиг.3 изображена лексикологическая схема фиксации фрагмента индексной последовательности при создании протокола осмотра пациента медицинского учреждения при проведении гастроскопии.
На фиг.4 изображена блок-схема последовательности операций, иллюстрирующая собственно процесс автоматизированного восстановления документа при его восстановлении для чтения или редактирования на основе зафиксированной индексной последовательности в соответствии с изобретением.
На фиг.5 изображена блок-схема компьютерной системы, реализующей способ хранения слабоформализуемых документов в соответствии с изобретением.
Предлагаемый способ осуществляют следующим образом.
В соответствии с решаемыми в данной сфере деятельности задачами устанавливают совокупность реквизитов, расположенных в определенной последовательности, и определяют местоположение в документе каждого элемента информации, включая дополнительные компоненты, являющиеся неотъемлемыми элементами создаваемого документа (например, графические компоненты, относящиеся к форме документа - логотипы, контейнерные элементы, содержащие реквизиты организации и др.). Это позволяет разработать формуляры документов или формуляры-образцы (унифицировать форму документа). Таким образом, определяют модель построения документа, устанавливают основной набор реквизитов официального письменного документа, размеры полей, требования к формату документа. Определяют зоны унифицированной формы документа, предназначенные для закрепления ее в технических средствах хранения документов, а также для нанесения специальных изображений. Определяют набор реквизитов, необходимых и достаточных для идентификации автора официального документа, которые в дальнейшем в целях экономии времени постоянно вносятся в бланк документа программными средствами. Перечисленные компоненты документа определяют его форму. Совокупность форм собирают в базу форм документов, причем каждая форма имеет свой индекс, который выбирают на стадии подготовки передаваемого документа и фиксируют для последующей передачи совместно с последующей индексной последовательностью лексикологического дерева документа.
Текстовая часть документа формируется автоматизированным лексикологическим способом путем обхода лексикологического дерева [Б.В.Черников. Способ автоматизированного лексикологического синтеза документов. - Патент РФ №2253893]. Каждой формулировке документа ставится в соответствие основное слово, выбор которого однозначно определяет наличие конкретной формулировки в документе. Такие слова называются опорными и из них составляют лексикологическую схему формируемого документа. Взаимная зависимость опорных слов в совокупности определяет последовательность обхода маршрута формирования документа. На основе предварительного анализа структуры документа выявляются основные разделы, которые должны или могут присутствовать в документе. Условные наименования таких разделов составляют основу синтезируемой совокупности опорных слов. В рамках каждого зафиксированного раздела документа выявляют составные элементы, которые должны или могут входить в состав раздела (слово, фраза, текстовый фрагмент). Для каждого подобного составного элемента определяют опорное слово (или их совокупность), выбор которого в последующем однозначно будет определять внедрение в документ соответствующего компонента. Если фрагмент текста документа содержит значительное количество строк и всегда присутствует в документе в строго определенной последовательности построения предложений, то данный фрагмент текста определяется одним опорным словом. Однако в случаях, когда текст документа формируется из предложений, не фиксированных в строго определенной последовательности, и в каждом заново создаваемом документе наблюдаются вариации построения текста, опорных слов будет столько, сколько необходимо для однозначного определения каждого конкретного предложения или словосочетания.
Полный перечень опорных слов с учетом их взаимосвязей образует лексикологическое дерево документа, «прохождение» по ветвям которого обеспечит выбор формулировок, используемых в документе. При этом выбор тех или иных опорных слов будет означать необходимость внедрения в документ совершенно конкретных вариантов текстовых фрагментов. Фактически текст документа формируют путем выбора необходимых заготовок из числа сохраненных формулировок. Выбор того или иного опорного слова означает выбор требуемого индекса компонента в лексикологическом дереве документа. При выборе опорных слов индекс выбираемых слов фиксируется, составляя в совокупности документарную индексную последовательность, соответствующую пройденным опорным пунктам маршрута по лексикологическому дереву.
Пример фиксации фрагмента индексной последовательности при автоматизированном формировании протокола осмотра пациента при проведении гастроскопии изображен на фиг.3. Первый уровень - уровень типа гастроскопии, второй - уточнение типа (причины ургентной гастроскопии, манипуляции при лечебной гастроскопии), третий - конкретизация манипуляций при лечебной гастроскопии, четвертый - характеристика состояния пациента, пятый - характеристика оперативных действий.
На лексикологическом дереве, например, показано, что при выборе типа гастроскопии можно выбрать лечебную. В этом случае для уровня типа гастроскопии 1 фиксируется индекс 3.
При выборе лечебной гастроскопии необходимо далее выбирать нужные манипуляции. Пусть пользователем выбраны манипуляции «Электрокоагуляция полипа» и «Электроэксцизия полипа». В этом случае для уровня 2 фиксируется индексная последовательность «1+6», которая означает совместный выбор позиций 1 и 6.
В третьем уровне для позиции 6 второго уровня необходимо конкретизирующие позиции. Пусть выбрана одномоментная электроэксцизия полипа для отдела «Желудок» с хорошим струпом, незначительным кровотечением и извлечением полипа. В этом случае фиксируется индексная последовательность «3-6-2,1,1,2,1».
На четвертом уровне пусть выбирается характеристика «Полипэктомия», в этом случае фиксируется индекс «4-2».
В целом для документального описания зафиксированная индексная последовательность, включаемая в документарный индексный пакет, может выглядеть следующим образом:
1-1+2+4; 2-3; 3-0; 4-1+2+3; 6-1; 7-1; 8-1+3+4; 9-2+4; 10-1+5+7.
С учетом содержательной части формируемого документа, а также текстовых элементов, присущих данному виду документа, приведенный пример может быть аналогом следующего фрагмента (в документе не использованы графические компоненты):
Figure 00000001
Как видно из приведенного примера, даже в таком виде сформированный документарный индексный пакет по объему значительно уступает исходному тексту.
Для дополнительного сокращения объемов информации, содержащейся в информационном пакете, осуществляется встроенная в компьютерную систему обработка полученной индексной последовательности, направленная на сжатие последовательности байтов на основе построения бинарного дерева, основанного на подсчете частоты вхождения в информационный пакет каждого из содержащихся в нем символов.
Сформированный информационный пакет сохраняется на носителе информации.
При восстановлении документа для чтения или редактирования проводят лексикологический синтез, т.е. формируют текстовые фрагменты с помощью компьютерной системы. Сначала проводят чтение информационного пакета и восстановление исходной документарной индексной последовательности путем операции, обратной сжатию, а затем осуществляют непосредственное формирование документа (с учетом индекса его формы) путем создания фраз на основе использования набора опорных (ключевых) слов, комплектуемого в соответствии с содержанием переданной индексной последовательности, с автоматическим связыванием фрагментов и отдельных слов текста в соответствии с правилами орфографии и лексикологии. Необходимую связь между словами в используемых фразах, путем некоторого изменения отдельных слов в формулировках в целях их согласованного применения (с точки зрения правил синтаксиса), обеспечивают программные средства.
Автоматизированное формирование документа осуществляется с использованием специализированной программы и стандартного компьютера. Формирование документа ведется в диалоговом режиме с автоматическим пошаговым «наращиванием» объема текста за счет внедрения конкретных формулировок, связанных с зафиксированными индексами опорными словами. Унифицированная постоянная информация внедряется в документ автоматически.
Последовательность операций, выполняемых при восстановлении документа по сохраненной индексной последовательности опорных слов, изображена на фиг.4.
Восстановление формы документа производят из базы данных форм документов на основе индекса формы, после чего постоянную информацию считывают из базы данных и формируют заголовок.
Организуют цикл восстановления опорных слов для имитации прохождения по лексикологическому дереву формируемого документа. В рамках этого цикла на основе принятых индексов опорных слов считывают из базы знаний требуемые опорные слова. Затем производят проверку, предусмотрена ли в числе сохраненных формулировка, относящаяся к выбранному опорному слову. Если формулировка не предусмотрена, то есть ответ на вопрос НЕТ, то внедряют содержание свободной формулировки. Затем в текст формируемого документа внедряют очередную формулировку. Далее производят переход к следующему шагу цикла, который повторяют до исчерпания индексов опорных слов лексикологического дерева документа в сохраненной индексной последовательности. Затем формируют раздел подписей документа, для которого используют восстановленный индекс подписей и считанную в соответствии с ним из базы знаний информацию. Для проверки выполненной работы предусмотрено отображение сформированного документа на экране монитора.
Структура системы хранения слабоформализуемых документов приведена на фиг.5. При создании документа с помощью лексикологического дерева документа, связанного с базой знаний и комплексом форм документов, фиксируется индексная последовательность формируемой информации, которая после дополнительной обработки, направленной на сжатие длины индексной последовательности, сохраняется на носителе информации (например, на жестком диске). При открытии документа на чтение или редактирование после обработки индексной последовательности, обратной сжатию, осуществляется восстановление индексной последовательности при использовании согласованного лексикологического дерева документа, связанного с комплексом форм документов и базой знаний, содержащей заготовки фрагментов документа, формируемого путем прохождения по лексикологическому дереву.
Анализ результатов экспериментальной проверки предлагаемого способа преобразования слабоформализуемых документов для минимизации их объема при хранении показывает существенное сокращение объемов (до десятков и даже сотен раз) по сравнению с исходным текстом. Дополнительным достоинством является возможность восстановления не только содержания, но и формы передаваемого документа, включая графические компоненты.

Claims (1)

  1. Способ автоматизированного создания слабоформализуемых документов, предусматривающий лексикологический синтез документа, формирование документарной индексной последовательности, определяющей номер формы документа и условные номера опорных слов, выбранных по лексикологическому дереву сформированного документа с дополнением введенной неунифицированной информации, фиксацию индексной последовательности, сжатие индексной последовательности, формирование информационного пакета документа, хранение его в компьютерной памяти, последующее восстановление документа, при котором осуществляют чтение информационного пакета, восстановление исходного состояния индексной последовательности путем применения процедуры, обратной процедуре сжатия, затем восстановление сформированного документа на основе полученной индексной последовательности путем последовательного прохождения по установленным ветвям лексикологического дерева документа, с восстановлением необходимых опорных слов для внедрения нужных формулировок в документ, формируемый при восстановлении.
RU2009107880/08A 2009-03-05 2009-03-05 Способ преобразования слабоформализуемых документов для минимизации их объема при хранении RU2413985C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2009107880/08A RU2413985C2 (ru) 2009-03-05 2009-03-05 Способ преобразования слабоформализуемых документов для минимизации их объема при хранении

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2009107880/08A RU2413985C2 (ru) 2009-03-05 2009-03-05 Способ преобразования слабоформализуемых документов для минимизации их объема при хранении

Publications (2)

Publication Number Publication Date
RU2009107880A RU2009107880A (ru) 2010-09-10
RU2413985C2 true RU2413985C2 (ru) 2011-03-10

Family

ID=42800166

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009107880/08A RU2413985C2 (ru) 2009-03-05 2009-03-05 Способ преобразования слабоформализуемых документов для минимизации их объема при хранении

Country Status (1)

Country Link
RU (1) RU2413985C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2625611C2 (ru) * 2015-12-07 2017-07-17 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Оренбургский государственный университет" Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2625611C2 (ru) * 2015-12-07 2017-07-17 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Оренбургский государственный университет" Способ преобразования документов для минимизации их объёма при хранении электронных документов с квазиструктурированным информационным наполнением

Also Published As

Publication number Publication date
RU2009107880A (ru) 2010-09-10

Similar Documents

Publication Publication Date Title
US10929449B2 (en) Generating a structured document guiding view
Kahn et al. Data model considerations for clinical effectiveness researchers
CN110956026B (zh) 法律文书生成方法、生成装置和电子设备
US20040230886A1 (en) Method and system for providing a representation of merge conflicts in a three-way merge operation
US20080244201A1 (en) Method for digital storage of data on a data memory with limited available storage space
CN109361825A (zh) 会议纪要记录方法、终端及计算机存储介质
JP2008123533A (ja) バーバル入力からデータベースおよび構造化情報を生成するためのシステム
US10943061B2 (en) Launching workflow processes based on annotations in a document
US9922026B2 (en) System and method for processing a natural language textual report
WO2022105172A1 (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
WO2020119099A1 (zh) 一种业务规则处理方法、服务器及计算机可读存储介质
CN110796180B (zh) 一种基于人工智能的模型训练系统与方法
CN110609910B (zh) 医学知识图谱构建方法及装置、存储介质和电子设备
CN113488180B (zh) 一种临床指南知识建模方法及系统
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
US20230024631A1 (en) Expression of clinical logic with positive and negative explainability
CN115048435B (zh) 一种智能型数据库存储方法及系统
Drass Text analysis and text-analysis software: A comparison of assumptions
US20140278553A1 (en) Dynamic Superbill Coding Workflow
US20220264180A1 (en) Selective redaction of media content
US20150088592A1 (en) Converting a text operational manual into a business process model or workflow diagram
CN103871010A (zh) 用于提示用药安全的方法、装置和医疗信息系统
JP2004252881A (ja) テキストデータ修正方法
US20030130872A1 (en) Methods and apparatus for managing and using inpatient healthcare information
CN102346771B (zh) 信息展现方法及装置

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20190306