RU2003126907A - Способ автоматической классификации документов - Google Patents
Способ автоматической классификации документов Download PDFInfo
- Publication number
- RU2003126907A RU2003126907A RU2003126907/09A RU2003126907A RU2003126907A RU 2003126907 A RU2003126907 A RU 2003126907A RU 2003126907/09 A RU2003126907/09 A RU 2003126907/09A RU 2003126907 A RU2003126907 A RU 2003126907A RU 2003126907 A RU2003126907 A RU 2003126907A
- Authority
- RU
- Russia
- Prior art keywords
- document
- categories
- classification
- documents
- category
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Claims (3)
1. Способ автоматической классификации документов, заключающийся в том, что осуществляют преобразование документа из специального формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа, на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных, при необходимости классификации документа осуществляют преобразование его из специального формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий, отличающийся тем, что используют априорную информацию о зависимостях категорий друг от друга.
2. Способ по п.1, отличающийся тем, что зависимость категорий друг от друга задается деревом категорий.
3. Способ по п.1, отличающийся тем, что используют бинарные классификаторы для определения принадлежности документа категориям, после чего осуществляют коррекцию результатов классификации путем анализа для каждой категории принадлежностей документа категориям более высокого уровня.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2003126907/09A RU2254610C2 (ru) | 2003-09-04 | 2003-09-04 | Способ автоматической классификации документов |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2003126907/09A RU2254610C2 (ru) | 2003-09-04 | 2003-09-04 | Способ автоматической классификации документов |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2003126907A true RU2003126907A (ru) | 2005-03-10 |
RU2254610C2 RU2254610C2 (ru) | 2005-06-20 |
Family
ID=35364346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2003126907/09A RU2254610C2 (ru) | 2003-09-04 | 2003-09-04 | Способ автоматической классификации документов |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2254610C2 (ru) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102054006B (zh) * | 2009-11-10 | 2015-01-14 | 深圳市世纪光速信息技术有限公司 | 一种从海量数据中提取有效信息的方法及装置 |
RU2571510C2 (ru) * | 2013-12-25 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Метод и устройство, использующие увеличение изображения для подавления визуально заметных дефектов на изображении |
RU2546555C1 (ru) * | 2013-12-11 | 2015-04-10 | Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования "ВОЕННАЯ АКАДЕМИЯ СВЯЗИ имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Способ автоматической классификации формализованных документов в системе электронного документооборота |
RU2571545C1 (ru) * | 2014-09-30 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Классификация изображений документов на основании контента |
US9779294B2 (en) | 2014-12-31 | 2017-10-03 | Xiaomi Inc. | Methods and devices for classifying pictures |
CN104615656B (zh) * | 2014-12-31 | 2018-07-31 | 小米科技有限责任公司 | 图片分类方法及装置 |
RU2603495C1 (ru) * | 2015-06-16 | 2016-11-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Классификация изображений документов на основе параметров цветовых слоев |
RU2647640C2 (ru) * | 2015-12-07 | 2018-03-16 | федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерства обороны Российской Федерации | Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота |
RU2647670C1 (ru) * | 2016-09-27 | 2018-03-16 | Общество с ограниченной ответственностью "Аби Девелопмент" | Автоматизированные способы и системы выявления на изображениях, содержащих документы, фрагментов изображений для облегчения извлечения информации из выявленных содержащих документы фрагментов изображений |
RU2701995C2 (ru) * | 2018-03-23 | 2019-10-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Автоматическое определение набора категорий для классификации документа |
RU2737720C1 (ru) * | 2019-11-20 | 2020-12-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение полей с помощью нейронных сетей без использования шаблонов |
RU2726931C1 (ru) * | 2019-11-29 | 2020-07-16 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С.М.Штеменко" Министерства обороны Российской Федерации | Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием электронных дел |
RU2744720C1 (ru) * | 2020-05-12 | 2021-03-15 | Андрей Павлович Жураковский | Система автоматизированного мониторинга военно-политической обстановки |
-
2003
- 2003-09-04 RU RU2003126907/09A patent/RU2254610C2/ru not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
RU2254610C2 (ru) | 2005-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165385B (zh) | 一种基于实体关系联合抽取模型的多三元组抽取方法 | |
RU2003126907A (ru) | Способ автоматической классификации документов | |
TWI536364B (zh) | 自動語音識別方法和系統 | |
EP1612701A3 (en) | Automated taxonomy generation | |
CN109960804A (zh) | 一种题目文本句子向量生成方法及装置 | |
CN106294324B (zh) | 一种基于自然语言句法分析树的机器学习情感分析器 | |
CN106934008B (zh) | 一种垃圾信息的识别方法及装置 | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
CN105046289B (zh) | 一种文字域类型识别方法和文字域类型识别系统 | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN106503254A (zh) | 语料分类方法、装置及终端 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN1758263A (zh) | 基于得分差加权融合的多模态身份识别方法 | |
CN108717459B (zh) | 一种面向用户评论信息的移动应用缺陷定位方法 | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
CN107220293B (zh) | 基于情绪的文本分类方法 | |
CN109643332A (zh) | 一种语句推荐方法及装置 | |
CN109902284A (zh) | 基于论辩挖掘的一种无监督论点提取方法 | |
RU2015152418A (ru) | Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN107704869B (zh) | 一种语料数据抽样方法及模型训练方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20160905 |