RU2003126907A - Способ автоматической классификации документов - Google Patents

Способ автоматической классификации документов Download PDF

Info

Publication number
RU2003126907A
RU2003126907A RU2003126907/09A RU2003126907A RU2003126907A RU 2003126907 A RU2003126907 A RU 2003126907A RU 2003126907/09 A RU2003126907/09 A RU 2003126907/09A RU 2003126907 A RU2003126907 A RU 2003126907A RU 2003126907 A RU2003126907 A RU 2003126907A
Authority
RU
Russia
Prior art keywords
document
categories
classification
documents
category
Prior art date
Application number
RU2003126907/09A
Other languages
English (en)
Other versions
RU2254610C2 (ru
Inventor
Александр Владимирович Аграновский (RU)
Александр Владимирович Аграновский
н Роман Эрнстович Арутюн (RU)
Роман Эрнстович Арутюнян
Роман Ахмедович Хади (RU)
Роман Ахмедович Хади
Борис Анатольевич Телеснин (RU)
Борис Анатольевич Телеснин
Original Assignee
Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" (RU)
Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" (RU), Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" filed Critical Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" (RU)
Priority to RU2003126907/09A priority Critical patent/RU2254610C2/ru
Publication of RU2003126907A publication Critical patent/RU2003126907A/ru
Application granted granted Critical
Publication of RU2254610C2 publication Critical patent/RU2254610C2/ru

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Claims (3)

1. Способ автоматической классификации документов, заключающийся в том, что осуществляют преобразование документа из специального формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при необходимости классификации документа осуществляют преобразование его из специального формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий, отличающийся тем, что используют априорную информацию о зависимостях категорий друг от друга.
2. Способ по п.1, отличающийся тем, что зависимость категорий друг от друга задается деревом категорий.
3. Способ по п.1, отличающийся тем, что используют бинарные классификаторы для определения принадлежности документа категориям, после чего осуществляют коррекцию результатов классификации путем анализа для каждой категории принадлежностей документа категориям более высокого уровня.
RU2003126907/09A 2003-09-04 2003-09-04 Способ автоматической классификации документов RU2254610C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2003126907/09A RU2254610C2 (ru) 2003-09-04 2003-09-04 Способ автоматической классификации документов

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2003126907/09A RU2254610C2 (ru) 2003-09-04 2003-09-04 Способ автоматической классификации документов

Publications (2)

Publication Number Publication Date
RU2003126907A true RU2003126907A (ru) 2005-03-10
RU2254610C2 RU2254610C2 (ru) 2005-06-20

Family

ID=35364346

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2003126907/09A RU2254610C2 (ru) 2003-09-04 2003-09-04 Способ автоматической классификации документов

Country Status (1)

Country Link
RU (1) RU2254610C2 (ru)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054006B (zh) * 2009-11-10 2015-01-14 深圳市世纪光速信息技术有限公司 一种从海量数据中提取有效信息的方法及装置
RU2571510C2 (ru) * 2013-12-25 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Метод и устройство, использующие увеличение изображения для подавления визуально заметных дефектов на изображении
RU2546555C1 (ru) * 2013-12-11 2015-04-10 Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ автоматической классификации формализованных документов в системе электронного документооборота
RU2571545C1 (ru) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Классификация изображений документов на основании контента
US9779294B2 (en) 2014-12-31 2017-10-03 Xiaomi Inc. Methods and devices for classifying pictures
CN104615656B (zh) * 2014-12-31 2018-07-31 小米科技有限责任公司 图片分类方法及装置
RU2603495C1 (ru) * 2015-06-16 2016-11-27 Общество с ограниченной ответственностью "Аби Девелопмент" Классификация изображений документов на основе параметров цветовых слоев
RU2647640C2 (ru) * 2015-12-07 2018-03-16 федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота
RU2647670C1 (ru) * 2016-09-27 2018-03-16 Общество с ограниченной ответственностью "Аби Девелопмент" Автоматизированные способы и системы выявления на изображениях, содержащих документы, фрагментов изображений для облегчения извлечения информации из выявленных содержащих документы фрагментов изображений
RU2701995C2 (ru) * 2018-03-23 2019-10-02 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое определение набора категорий для классификации документа
RU2737720C1 (ru) * 2019-11-20 2020-12-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение полей с помощью нейронных сетей без использования шаблонов
RU2726931C1 (ru) * 2019-11-29 2020-07-16 Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М.Штеменко" Министерства обороны Российской Федерации Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием электронных дел
RU2744720C1 (ru) * 2020-05-12 2021-03-15 Андрей Павлович Жураковский Система автоматизированного мониторинга военно-политической обстановки

Also Published As

Publication number Publication date
RU2254610C2 (ru) 2005-06-20

Similar Documents

Publication Publication Date Title
CN109165385B (zh) 一种基于实体关系联合抽取模型的多三元组抽取方法
RU2003126907A (ru) Способ автоматической классификации документов
TWI536364B (zh) 自動語音識別方法和系統
EP1612701A3 (en) Automated taxonomy generation
CN109960804A (zh) 一种题目文本句子向量生成方法及装置
CN106294324B (zh) 一种基于自然语言句法分析树的机器学习情感分析器
CN106934008B (zh) 一种垃圾信息的识别方法及装置
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN105046289B (zh) 一种文字域类型识别方法和文字域类型识别系统
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN106503254A (zh) 语料分类方法、装置及终端
CN108090099B (zh) 一种文本处理方法及装置
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法
CN108717459B (zh) 一种面向用户评论信息的移动应用缺陷定位方法
CN108491512A (zh) 新闻标题的摘要方法及装置
CN107220293B (zh) 基于情绪的文本分类方法
CN109643332A (zh) 一种语句推荐方法及装置
CN109902284A (zh) 基于论辩挖掘的一种无监督论点提取方法
RU2015152418A (ru) Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота
CN108363700A (zh) 新闻标题的质量评估方法及装置
CN108470026A (zh) 新闻标题的句子主干内容提取方法及装置
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160905