RU2656581C2 - Редактирование содержимого электронного документа - Google Patents

Редактирование содержимого электронного документа Download PDF

Info

Publication number
RU2656581C2
RU2656581C2 RU2014125500A RU2014125500A RU2656581C2 RU 2656581 C2 RU2656581 C2 RU 2656581C2 RU 2014125500 A RU2014125500 A RU 2014125500A RU 2014125500 A RU2014125500 A RU 2014125500A RU 2656581 C2 RU2656581 C2 RU 2656581C2
Authority
RU
Russia
Prior art keywords
electronic document
search
layer
characters
string
Prior art date
Application number
RU2014125500A
Other languages
English (en)
Other versions
RU2014125500A (ru
Inventor
Иван Юрьевич Корнеев
Original Assignee
Общество с ограниченной ответственностью "Аби Девелопмент"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Аби Девелопмент" filed Critical Общество с ограниченной ответственностью "Аби Девелопмент"
Priority to RU2014125500A priority Critical patent/RU2656581C2/ru
Priority to US14/508,560 priority patent/US10108815B2/en
Publication of RU2014125500A publication Critical patent/RU2014125500A/ru
Application granted granted Critical
Publication of RU2656581C2 publication Critical patent/RU2656581C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Изобретение относится к вычислительным устройствам, а именно к обработке электронных документов. Технический результат – повышение эффективности поиска целевых строк символов в электронных документах, состоящих из двух или более слоев. Способ поиска целевых строк символов, которые содержат две или более части, относящиеся к разным слоям электронного документа, содержит обнаружение с помощью вычислительного устройства двух или более слоев в электронном документе; обработку каждого из обнаруженных слоев для формирования текста слоя, представляющего один или более объектов, содержащихся в слое; комбинирование сформированных текстов слоев для формирования комбинированного текста электронного документа; и обнаружение в комбинированном тексте электронного документа целевой строки символов, соответствующей с учетом указанной функции поиска указанной строке символов. 3 н. и 17 з.п. ф-лы, 13 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение по существу относится к вычислительным устройствам, более конкретно, относится к системам и способам обработки электронных документов.
УРОВЕНЬ ТЕХНИКИ
Редактирование содержимого электронного документа может использоваться для обеспечения избирательного изложения информации, содержащейся в документе, путем формирования редактированной версии документа, подходящей для распространения лицам, которые могут отличаться от целевой аудитории первоначального документа. Например, до распространения или публикации электронного документа автор документа может пожелать удалить из него некоторую частную, секретную, конфиденциальную или иную уязвимую информацию, такую как, например, имена людей или названия компаний, идентификаторы, адреса, номера телефонов и т.п.
КРАТКОЕ ОПИСАНИЕ РИСУНКОВ
Настоящее изобретение проиллюстрировано с помощью примеров, но не путем ограничения, и может быть более полно понято со ссылками на последующее подробное описание, когда оно рассматривается в связи с рисунками, на которых:
на фиг. 1 представлена блок-схема одного варианта осуществления вычислительного устройства, функционирующего в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 2А-2С представлены примеры многослойных электронных документов, в которых целевая строка символов содержит две или более части, относящиеся к разным слоям, в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 3А-3В схематично представлены различные представления электронного документа, обрабатываемого приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 4 схематично представлена обработка различных слоев электронного документа приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 5 схематично представлено комбинирование множества текстов слоев для формирования комбинированного текста электронного документа, обрабатываемого приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 6А-6В схематично представлены обнаруженные при редактировании вхождения указанной строки символов из электронного документа, обрабатываемого приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 7 схематично представлено визуальное отображение электронного документа с содержимым, отредактированным приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения;
на фиг. 8 представлена блок-схема иллюстративного примера способа редактирования некоторого содержимого из электронных документов в соответствии с одним или более аспектами настоящего изобретения; и
на фиг. 9 представлена более подробная схема иллюстративного примера вычислительного устройства, реализующего способы, описанные в настоящем документе.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
В настоящем документе описаны способы и системы обработки электронных документов вычислительными устройствами для редактирования некоторого содержимого (например, частной, секретной, конфиденциальной или иной уязвимой информации).
В настоящем документе «электронный документ» означает файл, содержащий один или более элементов цифрового содержимого, которые можно визуально отобразить для обеспечения визуального представления электронного документа (например, на дисплее или в виде печатных материалов). В различных иллюстративных примерах электронные документы могут относиться к некоторым форматам файлов, таким как PDF, DOC, ODT и т.п.
В настоящем документе «вычислительное устройство» означает устройство обработки данных, имеющее процессор общего назначения, память и по меньшей мере один коммуникационный интерфейс. Примеры вычислительных устройств, которые могут воплощать описанные в настоящем документе способы, включают в себя, без ограничений, настольные компьютеры, портативные компьютеры, планшетные компьютеры, смартфоны и другие различные мобильные и стационарные вычислительные устройства.
До распространения или публикации электронного документа автор документа может пожелать удалить некоторую частную, секретную, конфиденциальную или иную уязвимую информацию, такую как имена людей или названия компаний, идентификаторы, адреса, номера телефонов и т.п. В иллюстративном примере приложение для редактирования содержимого может получать входные данные с указанием подлежащей редактированию строки символов из электронного документа. В ответ на получение строки символов приложение для редактирования содержимого может обработать электронный документ для обнаружения всех вхождений строк символов, соответствующих указанной пользователем строке символов с учетом некоторой функции поиска (например, точного поиска, нечеткого поиска, синонимического поиска, поиска с учетом морфологии, семантического поиска или поиска с применением определенного пользователем преобразования). Одна или более строк символов, которые соответствуют указанной пользователем строке символов с учетом конкретной функции поиска, в настоящем документе называются «целевыми строками символов».
Однако различные распространенные варианты осуществления приложений для редактирования содержимого могут не обнаружить вхождения целевых строк символов, если такая строка содержит две или более части, относящиеся к разным слоям документа. Например, электронный документ может содержать два или более слоя, включая первый слой, содержащий изображение буквицы, соответствующей первому символу целевой строки символов, и второй слой, содержащий оставшиеся символы целевой строки символов. В настоящем документе «буквица» означает символ в начале фрагмента текста (например, абзаца), который больше остального текста и, возможно, витиевато украшен.
Настоящее изобретение устраняет вышеупомянутые и другие недостатки путем проведения поиска целевых строк символов в комбинированном тексте, сформированном путем комбинирования двух или более слоев документа, как описано более подробно выше в настоящем документе. Таким образом, техническим результатом изобретения является повышение эффективности поиска целевых строк символов в электронных документах, состоящих из двух или более слов. Различные аспекты вышеупомянутых способов и систем подробно описаны ниже с помощью примеров, а не путем ограничения настоящего изобретения.
На фиг. 1 представлена блок-схема одного иллюстративного примера вычислительного устройства 100, функционирующего в соответствии с одним или более аспектами настоящего изобретения. В иллюстративных примерах вычислительное устройство 100 может быть представлено различными вычислительными устройствами, включая планшетный компьютер, смартфон, портативный компьютер или настольный компьютер.
Вычислительное устройство 100 может содержать процессор 110, соединенный с системной шиной 120. К другим устройствам, соединенным с системной шиной 120, могут относиться память 130, дисплей 135, оснащенный устройством ввода в виде сенсорного экрана 170, клавиатурой 140 и одним или более коммуникационными интерфейсами 165. В настоящем документ «соединенный» означает как электрическое соединение, так и связь с помощью одного или более интерфейсных устройств, адаптеров и т.п.
Процессор 110 может быть представлен одним или более процессорными устройствами, включая процессоры общего назначения и/или специализированные процессоры. Память 130 может содержать одно или более устройств энергозависимой памяти (например, микросхемы ОЗУ), одно или более устройств энергонезависимой памяти (например, микросхемы ПЗУ или ЭСППЗУ) и/или одно или более устройств памяти (например, оптические или магнитные диски).
В некоторых вариантах осуществления вычислительное устройство 100 может содержать устройство ввода в виде сенсорного экрана 170, представленное сенсорной областью для ввода информации и/или чувствительное к присутствию поверхности, наложенной на дисплей 135. Пример вычислительного устройства, в котором реализованы аспекты настоящего изобретения, будет более подробно описан ниже со ссылкой на фиг. 9.
В некоторых вариантах осуществления в памяти 130 могут храниться команды приложения 190 для редактирования некоторого содержимого (например, частной, секретной, конфиденциальной или иной уязвимой информации) из электронных документов. В иллюстративном примере приложение для редактирования содержимого 190 может быть реализовано в виде функции, вызываемой через пользовательский интерфейс другого приложения (например, приложения для редактирования электронных документов). Альтернативно приложение для редактирования содержимого 190 может быть реализовано в виде самостоятельного приложения.
В иллюстративном примере приложение для редактирования содержимого 190 может получать входные данные, указывающие на некоторую подлежащую редактированию строку символов из электронного документа. Указанная пользователем строка символов может содержать один или более символов, представляющих одну или более морфем (например, слов) естественного языка, одно или более сокращений, одну или более произвольно составленных буквенно-цифровых последовательностей и т.п. В различных иллюстративных примерах указанная пользователем строка символов может представлять собой частную, секретную, конфиденциальную или иную уязвимую информацию, такую как, например, имена людей или названия компаний, идентификаторы (например, номера социального страхования, номера кредитных карт и т.п.), адреса, номера телефонов и т.п.
В ответ на получение указанной пользователем строки символов приложение 190 может обработать электронный документ для обнаружения всех вхождений целевых строк символов, соответствующих с учетом указанной функции поиска указанной пользователем подлежащей редактированию строке символов из документа. Для ясности и краткости настоящего описания в приведенных ниже описании и примерах предполагается использование точного поиска, и, следовательно, целевая строка символов совпадает с указанной пользователем и подлежащей редактированию строкой символов из электронного документа. Однако в описанных системах и способах также могут использоваться другие типы поиска текста, включая, без ограничений, нечеткий поиск, синонимический поиск, поиск с учетом морфологии, семантический поиск или поиск с использованием определенного пользователем преобразования, как более подробно описано ниже в настоящем документе. Одна или более строк символов, которые соответствуют указанной пользователем строке символов с учетом конкретной функции поиска, в настоящем документе называются «целевыми строками символов».
Приложение 190 дополнительно может удалять из электронного документа все обнаруженные вхождения целевых строк символов. В некоторых вариантах осуществления приложение 190 может дополнительно заменять каждое удаленное вхождение целевой строки символов на некоторую замещающую строку, содержащую последовательность пробелов или других предварительно определенных или настраиваемых символов. В некоторых вариантах осуществления приложение 190 дополнительно может графически обозначать положение каждого отредактированного вхождения целевой строки символов в электронных документах, например, отмечая черным цветом первоначальное положение указанной строки символов.
В некоторых вариантах осуществления приложение для редактирования содержимого 190 может быть выполнено с возможностью обработки электронных документов некоторых форматов (например, PDF, DOC, ODT и т.п.). Электронный документ может содержать объекты, связанные с различными типами данных, включая текст (например, последовательность символов), изображения, аннотации (например, замечания редактора и/или комментарии), метаданные (например, автор документа, время создания, время последнего доступа и т.п.) и/или встроенные файлы. С объектом могут быть связаны один или более признаков объекта для определения положения объекта в группе объектов и/или визуального представления электронного документа, видимости объекта и/или прозрачности.
Поскольку подлежащее редактированию содержимое может состоять из одного или более объектов, связанных с одним или более из вышеуказанных типов данных, приложение для редактирования содержимого 190 может для редактирования целевой строки символов из электронного документа обрабатывать каждый из объектов, содержащихся в документе, и обнаруживать все вхождения целевой строки символов, соответствующие с учетом указанной функции поиска указанной пользователем подлежащей редактированию строке документа. Каждый объект или группу объектов (также называемую «слоем») электронного документа можно обрабатывать с учетом типа данных, связанных с объектом или группой объектов.
В иллюстративном примере текстовый объект может содержать одну или более строк символов в одной или более кодировках (например, ASCII, UTF-8 и т.п.). Приложение для редактирования содержимого 190 может выполнять поиск в текстовом объекте или группе объектов на вхождения целевой строки символов с учетом одной или более текстовых кодировок, используемых в некотором формате документа. В некоторых вариантах осуществления перед выполнением поиска по текстам приложение 190 может выполнять предварительную обработку текстового объекта или группы объектов путем автоматической проверки правописания с использованием словаря, проверки правописания с привлечением оператора и/или путем автоматической проверки кодировки.
В другом иллюстративном примере объект может содержать одно или более растровых изображений (например, изображений JPEG). Растровое изображение может быть представлено в виде структуры данных, содержащей множество групп битов, кодирующих пиксели визуального представления объекта. В некоторых вариантах осуществления растровое изображение необязательно может быть сжато для использования присущей изображению пространственной избыточности. В приложении для редактирования содержимого 190 к изображению может быть применен метод оптического распознавания символов (OCR) с последующим поиском в тексте, сформированном при оптическом распознавании символов, вхождений целевой строки символов. В некоторых вариантах осуществления приложение 190 перед осуществлением поиска в текстах может выполнять предварительную обработку текста путем выполнения автоматической проверки правописания с использованием словаря и/или проверки правописания с привлечением оператора.
В другом иллюстративном примере объект может содержать одно или более векторных изображений. Векторное изображение может быть представлено множеством геометрических примитивов (например, точек, линий, кривых, фигур и/или многоугольников), определенных некоторыми математическими выражениями. Приложение для редактирования содержимого 190 может выполнять растеризацию векторного изображения или группы векторных изображений, а затем обрабатывать полученное растровое изображение, как описано выше в настоящем документе. В некоторых вариантах осуществления приложение 190 перед растеризацией векторного изображения может выполнять предварительную обработку изображения путем удаления одного или более элементов изображения, не имеющих значения для текстового содержимого (например, различные рамки, визуальные разделители и т.п.).
Некоторые форматы электронных документов могут поддерживать группировку объектов в два или более слоев. Каждый слой может содержать метаданные слоя, определяющие положение слоя в визуальном представлении электронного документа. В некоторых вариантах осуществления метаданные слоя дополнительно могут определять видимость и/или прозрачность объектов слоя.
Электронный документ может содержать один или более видимых и/или невидимых слоев. В иллюстративном примере электронный документ, сформированный путем применения метода OCR к изображению печатной страницы, может включать в себя видимый слой, содержащий изображение страницы, и невидимый слой, содержащий текст, сформированный при оптическом распознавании символов.
В некоторых вариантах осуществления приложение для редактирования содержимого 190 может быть выполнено с возможностью обработки различных комбинаций слоев для обнаружения вхождений целевых строк символов, которые содержат две или более части, относящиеся к разным слоям. Такие вхождения могут быть сформированы только путем комбинирования двух или более слоев и, следовательно, не могут быть обнаружены, если каждый из слоев обрабатывается независимо от других слоев.
На фиг. 2А-2С представлены примеры многослойных электронных документов, в которых целевая строка символов содержит две или более части, относящиеся к разным слоям. В примере на фиг. 2А электронный документ 200 содержит два слоя - 210A и 210В. Слой 210A содержит первую подгруппу 220А символов целевой строки символов 230 (например, символы, занимающие нечетные положения в целевой строке символов 230), а слой 210 В содержит вторую подгруппу 220В символов целевой строки символов 230 (например, символы, занимающие четные положения в целевой строке символов 230). Каждый из слоев 210А-210В содержит метаданные слоя (не показаны на фиг. 2А), которые описывают положение соответствующего слоя в визуальном представлении электронного документа 200, так что последовательности символов 220А и 220В перемежаются друг с другом в визуальном представлении, и, следовательно, их визуальная комбинация формирует целевую строку символов («целевая строка символов») 230.
В примере на фиг. 2 В электронный документ 200 содержит два слоя - 210А и 210В. Слой 210А содержит изображение буквицы 240, соответствующей первому символу целевой строки символов 230. Слой 210В содержит последовательность символов 220В, содержащую оставшиеся символы целевой строки символов 230. Каждый из слоев 210А-210В содержит метаданные слоя (не показаны на фиг. 2В), которые описывают положение соответствующего слоя в визуальном представлении электронного документа 200, так что буквица 240 и последовательность символов 220 В перемежаются друг с другом в визуальном представлении, и, следовательно, их визуальная комбинация формирует целевую строку символов 230.
В примере на фиг. 2С электронный документ 200 содержит два слоя - 210А и 210В. Слой 210А содержит последовательность символов 220А, содержащую символы целевой строки символов 230. Слой 210В содержит диакритические знаки 250А, 250В, связанные с некоторыми символами целевой строки символов 230. Каждый из слоев 210А-210В содержит метаданные слоя, которые описывают положение соответствующего слоя в визуальном представлении электронного документа 200, так что последовательность символов 220А и диакритические знаки 250 перемежаются друг с другом в визуальном представлении, и, следовательно, их визуальная комбинация формирует целевую строку символов 230.
Приложение для редактирования содержимого, функционирующее в соответствии с одним или более аспектами настоящего изобретения, может обрабатывать различные комбинации слоев электронного документа для обнаружения вхождений целевой строки символов, содержащей две или более части, относящиеся к разным слоям.
На фиг. 3А и 3В схематично показаны различные представления электронного документа, обрабатываемого приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения. На фиг. 3А схематично показано визуальное представление электронного документа 300, содержащего логотип 310, абзац текста 315 и примечания редактора 320. Как схематически показано на фиг. 3В, приложение для редактирования содержимого может обнаруживать в электронном документе множество объектов одного или более типов (векторное изображение 335, растровое изображение 340, текст 345 и аннотация 350), которые можно сгруппировать в два или более слоя. Затем приложение для редактирования содержимого может обработать каждый из обнаруженных слоев для формирования текстов слоев, соответствующих слоям.
На фиг. 4 и 5 схематично представлена обработка различных слоев электронного документа приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения. Как показано на фиг. 4, обработка каждого слоя может определяться типом слоя. В иллюстративном примере текст 355, соответствующий текстовому слою 345, содержащему один или более текстовых объектов, может быть сформирован путем комбинирования одной или более строк символов, содержащихся в слое. Затем в некоторых вариантах осуществления текст может подвергаться дополнительной обработке путем выполнения автоматической проверки правописания с использованием словаря, проверки правописания с привлечением оператора и/или автоматической проверки кодировки.
В другом иллюстративном примере текст 360, соответствующий растровому слою 340, содержащему одно или более растровых изображений, может быть получен путем выполнения оптического распознавания символов на растровых изображениях, содержащихся в слое 340.
В другом иллюстративном примере текст 365, соответствующий векторным слоям 335 и 350, содержащим одно или более векторных изображений, может быть сформирован путем растеризации векторных изображений, содержащихся в слоях 335 и 350, с последующим выполнением оптического распознавания символов на полученных растровых изображениях. В некоторых вариантах осуществления перед растеризацией векторного изображения приложение для редактирования содержимого может выполнять предварительную обработку изображения путем удаления одного или более элементов изображения, не имеющих значения для текстового содержимого (например, различные рамки, визуальные разделители и т.п.).
В ответ на формирование текстов слоев 355, 360 и 365, соответствующих каждому из слоев электронного документа, приложение для редактирования содержимого может комбинировать сформированные тексты слоев для формирования комбинированного текста 370 электронного документа, как схематически представлено на фиг. 5. Приложение для редактирования содержимого может выполнять поиск по комбинированному тексту 370 для обнаружения одного или более вхождений целевых строк символов «Аn», подлежащих редактированию из электронного документа.
Приложение для редактирования содержимого может обнаруживать все вхождения строк символов, соответствующих указанной пользователем строке символов с учетом некоторой функции поиска (например, точного поиска, нечеткого поиска, синонимического поиска, поиска с учетом морфологии, семантического поиска или поиска с применением определенного пользователем преобразования).
В настоящем документе «точный поиск» означает обнаружение точного вхождения указанной пользователем строки с использованием поиска с учетом регистра или поиска без учета регистра. В настоящем документе «нечеткий поиск» означает обнаружение одной или более строк, которые аналогичны по некоторым показателям указанной пользователем строке (например, нечеткий поиск может обнаруживать указанную пользователем строку, введенную с ошибкой). В настоящем документе «синонимический поиск» означает обнаружение одной или более строк символов, представляющих языковые конструкции, синонимичные относительно указанной пользователем строки. В настоящем документе «поиск с учетом морфологии» означает обнаружение различных морфологических форм одной или более лексем, содержащихся в указанной пользователем строке (например, форм единственного и множественного числа существительного, содержащегося в указанной пользователем строке символов; различных форм глагола, содержащегося в указанной пользователем строке символов, и т.п.). В настоящем документе «семантический поиск» означает обнаружение одной или более строк символов, представляющих языковые конструкции, семантически аналогичные строке, указанной пользователем. В настоящем документе «поиск с применением определенного пользователем преобразования» означает обнаружение одной или более строк символов, которые аналогичны указанной пользователем строке с учетом определенного пользователем преобразования. Примером определенного пользователем преобразования может служить словарь переводов лексем (например, словарь для перевода с одного языка на другой).
Одна или более строк символов, которые соответствуют указанной пользователем строке символов с учетом конкретной функции поиска, в настоящем документе называются «целевыми строками символов».
В ответ на обнаружение одного или более вхождений одной или более целевых строк символов в комбинированном тексте электронного документа приложение для редактирования содержимого может переносить результаты поиска в первоначальные слои путем обнаружения текстовых или графических объектов, которые представляют обнаруженные вхождения целевой строки символов. На фиг. 6А-6В схематично представлено редактирование обнаруженных вхождений указанной строки символов из электронного документа, обрабатываемого приложением для редактирования содержимого, функционирующим в соответствии с одним или более аспектами настоящего изобретения. Как показано на фиг. 6А, вхождение целевой строки символов «Аn» представлено комбинацией слоев 345 и 340 и слоем 335.
В некоторых вариантах осуществления приложение для редактирования содержимого может визуально отображать электронный документ (например, на дисплее), визуально обнаруживать подлежащее редактированию содержимое (например, путем выделения) и предлагать пользователю подтвердить редактирование содержимого. Затем приложение для редактирования содержимого может удалить из электронного документа все обнаруженные вхождения указанной строки символов. В некоторых вариантах осуществления приложение 190 может дополнительно заменять каждое удаленное вхождение указанной строки символов на некоторую замещающую строку, содержащую последовательность пробелов или других предварительно определенных или настраиваемых символов. В некоторых вариантах осуществления приложение для редактирования содержимого может дополнительно графически обозначать положение каждого отредактированного вхождения указанной строки символов в электронных документах, например, отмечая черным цветом первоначальное положение указанной строки символов, как схематически представлено на фиг. 6В и фиг. 7.
В некоторых вариантах осуществления приложение для редактирования содержимого дополнительно может анализировать один или более элементов метаданных для обнаружения и редактирования возможных вхождений целевой строки символов в метаданных электронного документа. Приложение для редактирования содержимого дополнительно может обрабатывать один или более невидимых слоев электронного документа для обнаружения и редактирования возможных вхождений целевой строки символов.
На фиг. 8 показана блок-схема одного иллюстративного примера способа 800 редактирования некоторого содержимого из электронных документов (например, содержимого, представляющего собой частную, секретную, конфиденциальную или иную уязвимую информацию) в соответствии с одним или более аспектами настоящего изобретения. Способ 800 и/или каждая из его отдельных функций, программ, подпрограмм или операций могут быть выполнены одним или более процессорами компьютерного устройства (например, компьютерного устройства 100, изображенного на фиг. 1), выполняющего способ. В некоторых вариантах осуществления способ 800 может быть выполнен с помощью одного потока обработки. Альтернативно способ 800 может быть выполнен с помощью двух или более потоков обработки, причем каждый поток выполняет одну или более отдельных функций, программ, подпрограмм или операций способа. В иллюстративном примере потоки обработки, в которых реализован способ 800, могут быть синхронизированы (например, с использованием сигнализации, критических секций и/или других механизмов синхронизации потоков). Альтернативно потоки обработки, в которых реализован способ 800, могут быть выполнены асинхронно относительно друг друга.
На этапе 810 вычислительное устройство, выполняющее способ, может обнаружить в электронном документе два или более слоя. В иллюстративном примере вычислительное устройство может анализировать метаданные документа для обнаружения множества слоев, содержащихся в электронном документе.
В некоторых вариантах осуществления вычислительное устройство может комбинировать все обнаруженные в документе текстовые и нетекстовые слои, чтобы разделить электронный документ на два слоя: текстовый слой и слой изображений. Два полученных слоя могут содержать видимую информацию документа (текстовую информацию и изображения). Различные объекты, которые не относятся ни к одному из слоев (например, комментарии, метаданные и/или встроенные файлы), могут быть удалены из полученного электронного документа в ответ на получение команды пользовательского интерфейса.
На этапе 820 вычислительное устройство может обрабатывать каждый из обнаруженных слоев для формирования текста слоя, представляющего один или более объектов, содержащихся в слое. В иллюстративном примере текст, соответствующий текстовому слою, содержащему один или более текстовых объектов, может быть сформирован путем комбинирования одной или более строк символов, содержащихся в слое. Затем в некоторых вариантах осуществления текстовый слой может подвергаться дополнительной обработке путем выполнения автоматической проверки правописания с использованием словаря, проверки правописания с привлечением оператора и/или автоматической проверки кодировки. В другом иллюстративном примере текст, соответствующий растровому или векторному слою, содержащему одно или более графических изображений, может быть сформирован путем выполнения оптического распознавания символов на графических изображениях, содержащихся в слое, как более подробно описано выше в настоящем документе.
На этапе 830 вычислительное устройство может комбинировать сформированные тексты слоев для формирования комбинированного текста электронного документа, в котором будет выполнен поиск вхождений целевой строки символов.
На этапе 840 вычислительное устройство может обнаружить в комбинированном тексте электронного документа одно или более вхождений целевой строки символов.
На этапе 850 вычислительное устройство может удалить из электронного документа обнаруженные вхождения целевой строки символов, как более подробно описано выше в настоящем документе. В некоторых вариантах осуществления вычислительное устройство может дополнительно заменять каждое удаленное вхождение указанной строки символов на некоторую замещающую строку, содержащую последовательность пробелов или других предварительно определенных или настраиваемых символов. Вычислительное устройство может дополнительно графически обозначать положение каждого отредактированного вхождения указанной строки символов в электронных документах, например, отмечая черным цветом первоначальное положение указанной строки символов. В ответ на завершение операций, описанных в настоящем документе выше в отношении этапа 850, способ может прерываться.
На фиг. 9 представлена более подробная схема примера вычислительного устройства 500, в котором может выполняться набор команд, в результате которых вычислительное устройство выполняет любой один или более способов, описанных в настоящем документе. Вычислительное устройство 500 может включать в себя те же компоненты, что и вычислительное устройство 100, изображенное на фиг. 1, а также некоторые дополнительные или различные компоненты, некоторые из которых могут быть вспомогательными и необязательными для обеспечения аспектов настоящего изобретения. Вычислительное устройство может быть соединено с другим вычислительным устройством с помощью локальной сети (LAN), внутренней сети, внешней сети или сети Интернет. Вычислительное устройство может функционировать в качестве серверного или клиентского вычислительного устройства в сетевом окружении «клиент-сервер» или в качестве равноправного вычислительного устройства в одноранговом (или распределенном) сетевом окружении. Вычислительное устройство может быть представлено в виде персонального компьютера (ПК), планшетного ПК, компьютерной приставки к телевизору (STB), карманного персонального компьютера (КПК), мобильного телефона или любого вычислительного устройства, способного выполнять (последовательно или иным способом) набор команд, указывающих на операции, которые необходимо выполнить этому вычислительному устройству. Дополнительно, хотя проиллюстрировано только одно вычислительное устройство, также считается, что термин «вычислительное устройство» должен включать в себя любой набор вычислительных устройств, которые по отдельности или совместно выполняют набор (или множество наборов) команд для выполнения любой одной или более методологий, описанных в настоящем документе.
Пример вычислительного устройства 500 включает в себя процессор 502, основную память 504 (например, постоянную память (ПЗУ) или динамическую оперативную память с произвольным доступом (DRAM)) и устройство хранения данных 518, которые связываются друг с другом по шине 530.
Процессор 502 может представлять собой одно или более процессорных устройств общего назначения, такие как микропроцессор, центральное процессорное устройство и т.п. Более конкретно, процессор 502 может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с ограниченным набором команд (RISC), микропроцессор со сверхдлинным командным словом (VLIW), процессор, реализующий другие наборы команд, или процессоры, реализующие комбинацию наборов команд. Процессор 502 также может представлять собой одно или более процессорных устройств специального назначения, таких как специализированная интегральная схема (ASIC), программируемая пользователем вентильная матрица (ППВМ), цифровой сигнальный процессор (DSP), сетевой процессор и т.п. Процессор 502 выполнен с возможностью выполнять команды 526 для выполнения операций и функций, описанных в настоящем документе.
Вычислительное устройство 500 может дополнительно включать в себя устройство сетевого интерфейса 522, блок отображения видео 510, устройство ввода символов 512 (например, клавиатуру) и устройство ввода с сенсорным экраном 514.
Устройство хранения данных 518 может включать в себя машиночитаемый носитель данных 524, на котором хранится один или более наборов команд 526, воплощающих любую одну или более методологий или функций, описанных в настоящем документе. Команды 526 также могут полностью или по меньшей мере частично находиться в основной памяти 504 и/или в процессоре 502 во время их выполнения вычислительным устройством 500, причем основная память 504 и процессор 502 также образуют машиночитаемый носитель. Команды 526 дополнительно могут передаваться или приниматься по сети 516 по устройству сетевого интерфейса 522.
В некоторых вариантах осуществления команды 526 могут включать в себя команды для способа редактирования некоторого содержимого из электронных документов, который может соответствовать способу 800 и может выполняться приложением 190, изображенным на фиг. 1. Хотя в примере на фиг. 4 машиночитаемый носитель 524 показан в виде одного носителя, также считается, что термин «машиночитаемый носитель» должен включать в себя один носитель или множество носителей (например, централизованная или распределенная база данных и/или связанная кэш-память и сервера), на которых хранится один или более наборов команд. Также считается, что термин «машиночитаемый носитель» включает в себя любой носитель, способный хранить, кодировать или содержать набор команд, предназначенных для выполнения машиной и приводящих к выполнению машиной любой одной или более методологий настоящего изобретения. Соответственно, считается, что термин «машиночитаемый носитель» включает в себя, без ограничений, твердотельные устройства памяти, оптический носитель и магнитный носитель.
Способы, компоненты и элементы, описанные в настоящем документе, могут быть реализованы с помощью отдельных аппаратных компонентов или могут быть встроены в функциональность других аппаратных компонентов, таких как устройства ASIC, ППBM, DSP или аналогичные устройства. Кроме того, способы, компоненты и элементы могут быть реализованы в программно-аппаратных модулях или в функциональной схеме в аппаратных устройствах. Дополнительно способы, компоненты и элементы также могут быть реализованы в любой комбинации аппаратных устройств и программных компонентов или только в программном обеспечении.
В вышеизложенном описании приведено множество деталей. Однако любому среднему специалисту в данной области техники, пользующемуся преимуществами настоящего изобретения, будет очевидно, что настоящее изобретение можно применять на практике без этих конкретных деталей. В некоторых случаях известные структуры и устройства показаны в форме блок-схем без указания деталей во избежание затруднения понимания настоящего изобретения.
Некоторые фрагменты подробного описания представлены в виде алгоритмов и символических представлений операций с битами данных в компьютерной памяти. Эти алгоритмические описания и представления являются средствами, которые специалисты в области обработки данных используют, чтобы максимально эффективно передать суть своей работы другим специалистам в данной области. В данном случае и по существу под алгоритмом понимается самостоятельная последовательность операций, приводящая к желаемому результату. Под операциями понимаются такие операции, которые требуют выполнения физических манипуляций с физическими величинами. Как правило, хотя и не обязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и которыми можно иным образом манипулировать. Практика показала, что иногда, в основном по причине широкого использования, удобно называть эти сигналы битами, значениями, элементами, символами, буквами, терминами, числами и т.п.
Однако следует помнить, что все эти и аналогичные термины ассоциируются с соответствующими физическими величинами и являются лишь удобными обозначениями, применяемыми к этим величинам. Если конкретно не указано иное, как очевидно из приведенного ниже описания, следует понимать, что на протяжении описания использование терминов, таких как «определение», «вычисление», «расчет», «получение», «обнаружение», «модификация» и т.п., относится к действиям или процессам вычислительного устройства или аналогичного электронного вычислительного устройства, которое манипулирует и преобразует данные, представленные в виде физических (например, электронных) величин в регистрах и памяти вычислительного устройства, в другие данные, аналогичным образом представленные в виде физических величин в памяти или регистрах вычислительной системы или других таких устройствах хранения, передачи или отображения информации.
Настоящее изобретение также относится к устройству для выполнения описанных в настоящем документе операций. Это устройство может быть специально создано для требуемых целей, или оно может представлять собой компьютер общего назначения, избирательно активированный или перенастроенный с помощью компьютерной программы, которая хранится в компьютере. Такая компьютерная программа может храниться на машиночитаемом носителе, таком как, без ограничений, диски любого типа, включая гибкие диски, оптические диски, компакт-диски (CD-ROM) и магнитооптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), программируемые ПЗУ, ЭСППЗУ, магнитные или оптические карты или любой тип носителей, подходящих для хранения электронных команд.
Следует понимать, что приведенное выше описание считается иллюстративным, а не ограничивающим. Другие различные варианты осуществления будут очевидны специалистам в данной области техники после прочтения и понимания представленного выше описания. Таким образом, объем изобретения следует определять в отношении приложенных пунктов формулы изобретения, а также по всему объему эквивалентов, на которые распространяются такие пункты формулы изобретения.

Claims (40)

1. Способ поиска целевых строк символов, которые содержат две или более части, относящиеся к разным слоям электронного документа, содержащий:
обнаружение с помощью вычислительного устройства двух или более слоев в электронном документе;
обработку каждого из обнаруженных слоев для формирования текста слоя, представляющего один или более объектов, содержащихся в слое;
комбинирование сформированных текстов слоев для формирования комбинированного текста электронного документа; и
обнаружение в комбинированном тексте электронного документа целевой строки символов, соответствующей с учетом указанной функции поиска указанной строке символов.
2. Способ по п. 1, в котором указанная функция поиска представляет собой одно из: точного поиска, нечеткого поиска, синонимического поиска, поиска с учетом морфологии, семантического поиска или поиска с применением определенного пользователем преобразования.
3. Способ по п. 1, в котором текст слоя содержит одну или более строк символов, содержащихся в слое.
4. Способ по п. 1, в котором текст слоя содержит одну или более строк символов, представляющих одно или более изображений, содержащихся в слое.
5. Способ по п. 4, в котором обработка слоя содержит выполнение оптического распознавания символов на изображениях для получения строк символов и местоположения строк символов в электронном документе.
6. Способ по п. 1, дополнительно содержащий редактирование целевой строки символов из электронного документа.
7. Способ по п. 6, в котором редактирование содержит по меньшей мере одно из: удаления целевой строки символов, замены целевой строки символов на заменяющую строку или замены изображения, соответствующего целевой строке символов, на заполняющее изображение.
8. Способ по п. 1, в котором комбинирование сформированных текстов слоев выполняется с учетом относительного положения текстов слоев в визуальном изображении электронного документа.
9. Способ по п. 1, дополнительно содержащий редактирование целевой строки символов из одного или более из: элемента метаданных, аннотаций или комментариев электронного документа.
10. Способ по п. 1, дополнительно содержащий:
визуальное отображение электронного документа;
визуальное обнаружение подлежащего редактированию содержимого; и
прием входных данных, подтверждающих редактирование целевой строки символов из электронного документа.
11. Вычислительное устройство, предназначенное для поиска целевых строк символов, которые содержат две или более части, относящиеся к разным слоям электронного документа, содержащее:
память;
процессор, соединенный с памятью, для:
обнаружения двух или более слоев в электронном документе;
обработки каждого из обнаруженных слоев для формирования текста слоя, представляющего один или более объектов, содержащихся в слое;
комбинирования сформированных текстов слоев для формирования комбинированного текста электронного документа; и
обнаружения в комбинированном тексте электронного документа целевой строки символов, соответствующей с учетом указанной функции поиска указанной строке символов.
12. Вычислительное устройство по п. 11, в котором указанная функция поиска представляет собой одно из: точного поиска, нечеткого поиска, синонимического поиска, поиска с учетом морфологии, семантического поиска или поиска с применением определенного пользователем преобразования.
13. Вычислительное устройство по п. 11, в котором текст слоя содержит одну или более строк символов, содержащихся в слое.
14. Вычислительное устройство по п. 11, в котором текст слоя содержит одну или более строк символов, представляющих одно или более изображений, содержащихся в слое.
15. Вычислительное устройство по п. 14, в котором обработка слоя содержит выполнение оптического распознавания символов на изображениях для получения строк символов и местоположения строк символов в слое.
16. Вычислительное устройство по п. 11, в котором процессор дополнительно редактирует целевую строку символов из электронного документа.
17. Вычислительное устройство по п. 11, в котором комбинирование сформированных текстов слоев выполняется с учетом относительного положения текстов слоев в визуальном изображении электронного документа.
18. Вычислительное устройство по п. 11, в котором процессор дополнительно:
визуально отображает электронный документ;
визуально обнаруживает подлежащее редактированию содержимое; и
принимает входные данные, подтверждающие редактирование целевой строки символов из комбинированного текста электронного документа.
19. Машиночитаемый носитель данных, содержащий исполняемые команды, которые при выполнении вычислительным устройством направлены на поиск целевых строк символов, которые содержат две или более части, относящиеся к разным слоям электронного документа, и приводят к выполнению вычислительным устройством операций, содержащих:
обнаружение двух или более слоев в электронном документе;
обработку каждого из обнаруженных слоев для формирования текста слоя, представляющего один или более объектов, содержащихся в слое;
комбинирование сформированных текстов слоев для формирования комбинированного текста электронного документа; и
обнаружение в комбинированном тексте электронного документа целевой строки символов, соответствующей с учетом указанной функции поиска указанной строке символов.
20. Машиночитаемый носитель данных по п. 19, в котором указанная функция поиска представляет собой одно из: точного поиска, нечеткого поиска, синонимического поиска, поиска с учетом морфологии, семантического поиска или поиска с применением определенного пользователем преобразования.
RU2014125500A 2014-06-24 2014-06-24 Редактирование содержимого электронного документа RU2656581C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014125500A RU2656581C2 (ru) 2014-06-24 2014-06-24 Редактирование содержимого электронного документа
US14/508,560 US10108815B2 (en) 2014-06-24 2014-10-07 Electronic document content redaction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014125500A RU2656581C2 (ru) 2014-06-24 2014-06-24 Редактирование содержимого электронного документа

Publications (2)

Publication Number Publication Date
RU2014125500A RU2014125500A (ru) 2015-12-27
RU2656581C2 true RU2656581C2 (ru) 2018-06-05

Family

ID=54930690

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014125500A RU2656581C2 (ru) 2014-06-24 2014-06-24 Редактирование содержимого электронного документа

Country Status (2)

Country Link
US (1) US10108815B2 (ru)
RU (1) RU2656581C2 (ru)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436818B1 (en) * 2014-06-30 2016-09-06 II Macio P. Tooley System and method for credential management and identity verification
US9870484B2 (en) * 2015-01-30 2018-01-16 Konica Minolta Laboratory U.S.A., Inc. Document redaction
US10108306B2 (en) 2015-02-24 2018-10-23 Axon Enterprise, Inc. Systems and methods for bulk redaction of recorded data
JP6797610B2 (ja) * 2016-08-31 2020-12-09 キヤノン株式会社 装置、方法、及びプログラム
RU2642409C1 (ru) * 2016-09-28 2018-01-24 Общество с ограниченной ответственностью "Аби Девелопмент" Редактирование текста на изображении документа
US10902147B2 (en) * 2016-11-04 2021-01-26 Intellisist, Inc. System and method for performing screen capture-based sensitive information protection within a call center environment
US10733434B2 (en) 2018-09-24 2020-08-04 International Business Machines Corporation Method and system for accurately detecting, extracting and representing redacted text blocks in a document
US11538123B1 (en) 2019-01-23 2022-12-27 Wells Fargo Bank, N.A. Document review and execution on mobile devices
US20220383650A1 (en) 2021-06-01 2022-12-01 Digital Legal Medical Records, LLC d/b/a Advita, LLC Methods and System of Electronic Image Analysis
US20240119651A1 (en) * 2022-10-10 2024-04-11 International Business Machines Corporation Image creation with positioning of recreated text and shapes
US11949840B1 (en) * 2022-11-11 2024-04-02 Kyocera Document Solutions Inc. Redacting confidential information in a document and reversal thereof
CN116451659A (zh) * 2023-04-07 2023-07-18 汉王科技股份有限公司 电子文件的批注处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
US20020083079A1 (en) * 2000-11-16 2002-06-27 Interlegis, Inc. System and method of managing documents
US20070030528A1 (en) * 2005-07-29 2007-02-08 Cataphora, Inc. Method and apparatus to provide a unified redaction system
RU2012104987A (ru) * 2012-02-14 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ обнаружения текстовых объектов
US20140149363A1 (en) * 2006-10-10 2014-05-29 Adobe Systems Incorporated Methods and apparatus for automated redaction of content in a document

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2045907C (en) * 1991-06-28 1998-12-15 Gerald B. Anderson A method for storing and retrieving annotations and redactions in final form documents
US7428701B1 (en) * 1998-12-18 2008-09-23 Appligent Inc. Method, system and computer program for redaction of material from documents
EP1800223A4 (en) * 2004-10-14 2008-11-19 Onstream Systems Ltd PROCESS FOR THE EDITING OF AN ELECTRICAL DOCUMENT
US7536635B2 (en) * 2005-04-25 2009-05-19 Microsoft Corporation Enabling users to redact portions of a document
US7773822B2 (en) * 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
US8181261B2 (en) * 2005-05-13 2012-05-15 Xerox Corporation System and method for controlling reproduction of documents containing sensitive information
US11769010B2 (en) * 2005-10-06 2023-09-26 Celcorp, Inc. Document management workflow for redacted documents
US10853570B2 (en) * 2005-10-06 2020-12-01 TeraDact Solutions, Inc. Redaction engine for electronic documents with multiple types, formats and/or categories
JP4738180B2 (ja) * 2006-01-17 2011-08-03 株式会社リコー 画像処理装置および電子ファイル生成方法
US20070174766A1 (en) 2006-01-20 2007-07-26 Microsoft Corporation Hidden document data removal
US8494280B2 (en) * 2006-04-27 2013-07-23 Xerox Corporation Automated method for extracting highlighted regions in scanned source
US7876335B1 (en) * 2006-06-02 2011-01-25 Adobe Systems Incorporated Methods and apparatus for redacting content in a document
US9805010B2 (en) * 2006-06-28 2017-10-31 Adobe Systems Incorporated Methods and apparatus for redacting related content in a document
US20090019048A1 (en) * 2007-07-12 2009-01-15 Pendergast Brian S Document lock manager
WO2009018328A1 (en) * 2007-07-30 2009-02-05 Nuance Communications, Inc. Scan-to-redact searchable documents
US8245038B2 (en) * 2008-03-26 2012-08-14 Palo Alto Research Center Incorporated Method and apparatus for verifying integrity of redacted documents
US20090323087A1 (en) * 2008-06-30 2009-12-31 Konica Minolta Systems Laboratory, Inc. Systems and Methods for Document Redaction
US20100046015A1 (en) 2008-08-21 2010-02-25 Craig Thompson Whittle Methods and systems for controlled printing of documents including sensitive information
US8762406B2 (en) * 2011-12-01 2014-06-24 Oracle International Corporation Real-time data redaction in a database management system
US9069982B2 (en) 2012-08-16 2015-06-30 Berkeley Information Technology Pty Ltd Automated redaction of documents based on security-level determination
US9256798B2 (en) * 2013-01-31 2016-02-09 Aurasma Limited Document alteration based on native text analysis and OCR
US9436882B2 (en) * 2013-09-06 2016-09-06 Lighthouse Document Technologies, Inc. Automated redaction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
US20020083079A1 (en) * 2000-11-16 2002-06-27 Interlegis, Inc. System and method of managing documents
US20070030528A1 (en) * 2005-07-29 2007-02-08 Cataphora, Inc. Method and apparatus to provide a unified redaction system
US20140149363A1 (en) * 2006-10-10 2014-05-29 Adobe Systems Incorporated Methods and apparatus for automated redaction of content in a document
RU2012104987A (ru) * 2012-02-14 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ обнаружения текстовых объектов

Also Published As

Publication number Publication date
US10108815B2 (en) 2018-10-23
US20150378973A1 (en) 2015-12-31
RU2014125500A (ru) 2015-12-27

Similar Documents

Publication Publication Date Title
RU2656581C2 (ru) Редактирование содержимого электронного документа
US9754120B2 (en) Document redaction with data retention
AU2014223441B2 (en) Synchronizing annotations between printed documents and electronic documents
US10402496B2 (en) Advanced clause groupings detection
US9256798B2 (en) Document alteration based on native text analysis and OCR
US9436882B2 (en) Automated redaction
US9870484B2 (en) Document redaction
US20160253303A1 (en) Digital processing and completion of form documents
US8781815B1 (en) Non-standard and standard clause detection
AU2017302245B2 (en) Optical character recognition utilizing hashed templates
US8750630B2 (en) Hierarchical and index based watermarks represented as trees
JP2008146605A (ja) 画像処理装置及びその制御方法
KR20150082097A (ko) 클라우드 기반 폰트 서비스 시스템
US20180307696A1 (en) Method and system for file conversion
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
US20170109334A1 (en) Annotation Data Generation and Overlay for Enhancing Readability on Electronic Book Image Stream Service
US20170011013A1 (en) Electronic file structure, non-transitory computer-readable storage medium, electronic file generation apparatus, electronic file generation method, and electronic file
Taleby Ahvanooey et al. An innovative technique for web text watermarking (AITW)
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
WO2021139242A1 (zh) 演示文稿生成方法、装置、设备及存储介质
JP5629908B2 (ja) セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
Li et al. Extracting figures and captions from scientific publications
US9864750B2 (en) Objectification with deep searchability
RU2648636C2 (ru) Сохранение контента в конвертированных документах
US11275776B2 (en) Section-linked document classifiers

Legal Events

Date Code Title Description
HE9A Changing address for correspondence with an applicant
PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311