RU2020109236A - Иерархические нейронные сети с грануляризированным вниманием - Google Patents
Иерархические нейронные сети с грануляризированным вниманием Download PDFInfo
- Publication number
- RU2020109236A RU2020109236A RU2020109236A RU2020109236A RU2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A
- Authority
- RU
- Russia
- Prior art keywords
- layer
- attention
- network model
- hierarchical network
- document
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Claims (42)
1. Способ, реализуемый с помощью одного или более процессоров, для формирования одной или более классификаций документа, включающий:
получение (102) данных, показательных в отношении документа;
обработку (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое, при этом во время тренировки механизма внимания двойной гранулярности указанные некоторые части встраивают в иерархическую сетевую модель;
обработку (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и
формирование (108) метки классификации из выходных данных второго слоя.
2. Способ по п. 1, в котором два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.
3. Способ по п. 2, в котором два или более слоев иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.
4. Способ по п. 1, в котором формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.
5. Способ по п. 1, в котором механизм внимания двойной гранулярности, также содержит историю внимания и специфичную для предметной области историю внимания, причем история внимания соответствует первому слою иерархической сетевой модели, а специфичная для предметной области история внимания соответствует второму слою иерархической сетевой модели.
6. Способ по п. 5, в котором механизм внимания двойной гранулярности определяют посредством одного или более процессоров с помощью выражений:
7. Способ по п. 6, в котором специфичную для предметной области историю внимания предварительно заполняют вложениями, соответствующими знаниям в конкретной предметной области.
8. Способ по п. 3, в котором слой символов дополнительно содержит слой символов с долгой краткосрочной памятью (LSTM), причем к LSTM-слою символов применяют двухгранулярный механизм, слой слов дополнительно содержит LSTM-слой слов, причем к LSTM-слою слов применяют двухгранулярный механизм, слой предложений дополнительно включает LSTM-слой предложений, причем к LSTM-слою предложений применяют двухгранулярный механизм, и слой разделов дополнительно содержит LSTM-слой разделов, причем к LSTM-слою разделов применяют двухгранулярный механизм.
9. По меньшей мере один некратковременный компьютерочитаемый носитель информации, хранящий машиннообучаемую модель для формирования одной или более классификаций документа, причем модель тренируют с использованием следующего процесса:
получают (202) набор тренировочных данных, показательных в отношении документа;
осуществляют тренировку (206) двух или более слоев иерархической сетевой модели с механизмом внимания двойной гранулярности с использованием набора тренировочных данных, показательных в отношении документа, причем первый слой в механизме внимания двойной гранулярности тренируют с помощью двух или более слоев иерархической сетевой модели, а второй слой в механизме внимания двойной гранулярности предварительно заполняют данными, отражающими специфичные для предметной области знания.
получают (102) данные, показательных в отношении документа;
выполняют обработку (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое;
выполняют обработку (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и
формируют (108) метку классификации из выходных данных второго слоя.
10. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.
11. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 10, в котором два или более слоя иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.
12. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.
13. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором механизм внимания двойной гранулярности определяют посредством одного или более процессоров с помощью выражений:
где - значение внимания, - поддающаяся изучению функция, - первый слой в двухслойной истории внимания, - второй слой в двухслойной истории внимания, который содержит специфичные для предметной области знания, - вектор вероятности, общее количество временных шагов, - время, - время и - взвешенное среднее.
14. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 13, в котором специфичную для предметной области историю внимания предварительно заполняют вложениями, соответствующими знаниям в конкретной предметной области.
15. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 10, в котором слой символов дополнительно содержит слой символов с долгой краткосрочной памятью (LSTM), причем к LSTM-слою символов применяют двухгранулярный механизм, слой слов дополнительно содержит LSTM-слой слов, причем к LSTM-слою слов применяют двухгранулярный механизм, слой предложений дополнительно включает LSTM-слой предложений, причем к LSTM-слою предложений применяют двухгранулярный механизм, и слой разделов дополнительно содержит LSTM-слой разделов, причем к LSTM-слою разделов применяют двухгранулярный механизм.
16. Система, содержащая один или более процессоров и память, выполненную с возможностью функционального соединения с одним или более процессорами для формирования одной или более классификаций документа, причем память хранит инструкции, которые в ответ на их исполнение одним или более процессорами, вызывают выполнение одним или более процессорами следующих операций:
получение (102) данных, показательных в отношении документа;
обработка (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое, при этом во время тренировки механизма внимания двойной гранулярности указанные некоторые части встраивают в иерархическую сетевую модель;
обработка (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и
формирование (108) метки классификации из выходных данных второго слоя.
17. Система по п. 16, в которой два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.
18. Система по п. 17, в которой два или более слоя иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.
19. Система по п. 16, в которой формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.
20. Система по п. 16, в которой механизм внимания двойной гранулярности, также содержит историю внимания и специфичную для предметной области историю внимания, причем история внимания соответствует первому слою иерархической сетевой модели, а специфичная для предметной области история внимания соответствует второму слою иерархической сетевой модели.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762540790P | 2017-08-03 | 2017-08-03 | |
US62/540,790 | 2017-08-03 | ||
US201862699079P | 2018-07-17 | 2018-07-17 | |
US62/699,079 | 2018-07-17 | ||
PCT/EP2018/071158 WO2019025601A1 (en) | 2017-08-03 | 2018-08-03 | HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2020109236A true RU2020109236A (ru) | 2021-09-03 |
RU2020109236A3 RU2020109236A3 (ru) | 2022-03-29 |
Family
ID=63174212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020109236A RU2020109236A (ru) | 2017-08-03 | 2018-08-03 | Иерархические нейронные сети с грануляризированным вниманием |
Country Status (4)
Country | Link |
---|---|
US (1) | US11361569B2 (ru) |
CN (1) | CN111356997B (ru) |
RU (1) | RU2020109236A (ru) |
WO (1) | WO2019025601A1 (ru) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11610667B2 (en) | 2018-11-19 | 2023-03-21 | RAD AI, Inc. | System and method for automated annotation of radiology findings |
CN109918671B (zh) * | 2019-03-12 | 2022-12-20 | 西南交通大学 | 基于卷积循环神经网络的电子病历实体关系抽取方法 |
CN110134868B (zh) * | 2019-05-14 | 2023-04-07 | 辽宁工程技术大学 | 一种基于用户偏好异构性分析的推荐方法 |
CN110414498B (zh) * | 2019-06-14 | 2023-07-11 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN112148832B (zh) * | 2019-06-26 | 2022-11-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN110472238B (zh) * | 2019-07-25 | 2022-11-18 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110728298A (zh) * | 2019-09-05 | 2020-01-24 | 北京三快在线科技有限公司 | 多任务分类模型训练方法、多任务分类方法及装置 |
US11342055B2 (en) | 2019-09-13 | 2022-05-24 | RAD AI, Inc. | Method and system for automatically generating a section in a radiology report |
CN112751686B (zh) * | 2019-10-29 | 2022-10-18 | 中国移动通信集团浙江有限公司 | 局数据脚本生成方法、装置、计算设备及计算机存储介质 |
CN111028913A (zh) * | 2019-11-29 | 2020-04-17 | 北京工业大学 | 血液透析治疗方案辅助决策方法 |
CN111309200B (zh) * | 2020-01-17 | 2021-11-12 | 百度在线网络技术(北京)有限公司 | 一种扩展阅读内容的确定方法、装置、设备及存储介质 |
CN111666977B (zh) * | 2020-05-09 | 2023-02-28 | 西安电子科技大学 | 一种单色图像的阴影检测方法 |
CN111784303B (zh) * | 2020-07-06 | 2023-08-22 | 泰康保险集团股份有限公司 | 核保信息处理方法、装置、计算机存储介质及电子设备 |
CN111814453B (zh) * | 2020-07-09 | 2023-08-08 | 重庆大学 | 基于BiLSTM-TextCNN的细粒度情感分析方法 |
CN111797266B (zh) * | 2020-07-10 | 2022-02-08 | 北京字节跳动网络技术有限公司 | 图像处理方法和装置、存储介质和电子设备 |
US11354904B2 (en) * | 2020-07-10 | 2022-06-07 | International Business Machines Corporation | Spatial-temporal graph-to-sequence learning based grounded video descriptions |
CN112883724A (zh) * | 2021-02-03 | 2021-06-01 | 虎博网络技术(上海)有限公司 | 文本数据增强处理方法、装置、电子设备和可读存储介质 |
CN112818931A (zh) * | 2021-02-26 | 2021-05-18 | 中国矿业大学 | 基于多粒度深度特征融合的多尺度行人重识别方法 |
US11615890B2 (en) | 2021-03-09 | 2023-03-28 | RAD AI, Inc. | Method and system for the computer-assisted implementation of radiology recommendations |
US20220318499A1 (en) * | 2021-03-31 | 2022-10-06 | Microsoft Technology Licensing, Llc | Assisted electronic message composition |
CN113393120B (zh) * | 2021-06-11 | 2024-10-18 | 国网北京市电力公司 | 能源消耗数据的确定方法及装置 |
CN113344146B (zh) * | 2021-08-03 | 2021-11-02 | 武汉大学 | 基于双重注意力机制的图像分类方法、系统及电子设备 |
CN113935502B (zh) * | 2021-10-15 | 2022-04-22 | 河海大学 | 基于双重注意力机制的面向大坝应急工况事件抽取方法 |
CN117235619A (zh) * | 2023-08-14 | 2023-12-15 | 杭州瑞成信息技术股份有限公司 | 会议纪要分类方法、装置、计算机设备和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930788A (en) * | 1997-07-17 | 1999-07-27 | Oracle Corporation | Disambiguation of themes in a document classification system |
EP1212699A4 (en) * | 1999-05-05 | 2006-01-11 | West Publishing Co | SYSTEM, METHOD AND SOFTWARE FOR CLASSIFYING DOCUMENTS |
US6606620B1 (en) * | 2000-07-24 | 2003-08-12 | International Business Machines Corporation | Method and system for classifying semi-structured documents |
US8145636B1 (en) * | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
US20110137898A1 (en) * | 2009-12-07 | 2011-06-09 | Xerox Corporation | Unstructured document classification |
US20120065987A1 (en) | 2010-09-09 | 2012-03-15 | Siemens Medical Solutions Usa, Inc. | Computer-Based Patient Management for Healthcare |
US8484245B2 (en) * | 2011-02-08 | 2013-07-09 | Xerox Corporation | Large scale unsupervised hierarchical document categorization using ontological guidance |
US10127229B2 (en) * | 2014-04-23 | 2018-11-13 | Elsevier B.V. | Methods and computer-program products for organizing electronic documents |
US9390086B2 (en) * | 2014-09-11 | 2016-07-12 | Palantir Technologies Inc. | Classification system with methodology for efficient verification |
US10657186B2 (en) * | 2015-05-29 | 2020-05-19 | Dell Products, L.P. | System and method for automatic document classification and grouping based on document topic |
CN106383815B (zh) * | 2016-09-20 | 2019-03-01 | 清华大学 | 结合用户和产品信息的神经网络情感分析方法 |
CN106777011A (zh) * | 2016-12-07 | 2017-05-31 | 中山大学 | 一种基于深度多任务学习的文本分类方法 |
-
2018
- 2018-08-03 CN CN201880064676.3A patent/CN111356997B/zh active Active
- 2018-08-03 US US16/634,624 patent/US11361569B2/en active Active
- 2018-08-03 RU RU2020109236A patent/RU2020109236A/ru unknown
- 2018-08-03 WO PCT/EP2018/071158 patent/WO2019025601A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20210089765A1 (en) | 2021-03-25 |
RU2020109236A3 (ru) | 2022-03-29 |
CN111356997B (zh) | 2024-04-09 |
US11361569B2 (en) | 2022-06-14 |
CN111356997A (zh) | 2020-06-30 |
WO2019025601A1 (en) | 2019-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2020109236A (ru) | Иерархические нейронные сети с грануляризированным вниманием | |
US11755885B2 (en) | Joint learning of local and global features for entity linking via neural networks | |
Wang et al. | Augmenting language models with long-term memory | |
US11853879B2 (en) | Generating vector representations of documents | |
US11657231B2 (en) | Capturing rich response relationships with small-data neural networks | |
Chen et al. | Structure-aware abstractive conversation summarization via discourse and action graphs | |
US20220004879A1 (en) | Regularized neural network architecture search | |
US11443170B2 (en) | Semi-supervised training of neural networks | |
US20220198145A1 (en) | Generating author vectors | |
Baziotis et al. | Ntua-slp at semeval-2018 task 3: Tracking ironic tweets using ensembles of word and character level attentive rnns | |
Goel et al. | Prayas at emoint 2017: An ensemble of deep neural architectures for emotion intensity prediction in tweets | |
Irsoy et al. | Opinion mining with deep recurrent neural networks | |
CN113519001A (zh) | 利用语言模型生成常识解释 | |
CN108733837A (zh) | 一种病历文本的自然语言结构化方法及装置 | |
US11010664B2 (en) | Augmenting neural networks with hierarchical external memory | |
EP3371747A1 (en) | Augmenting neural networks with external memory | |
RU2015141340A (ru) | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования | |
CN109992788A (zh) | 基于未登录词处理的深度文本匹配方法及装置 | |
Yuan et al. | Twitter sentiment analysis with recursive neural networks | |
Wan | Sentiment analysis of Weibo comments based on deep neural network | |
Zhang et al. | Let's be Humorous: Knowledge Enhanced Humor Generation | |
Yang et al. | Learning topic-oriented word embedding for query classification | |
RU2015141339A (ru) | Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования | |
Singh et al. | Structured multi-label biomedical text tagging via attentive neural tree decoding | |
Prusa et al. | Deep neural network architecture for character-level learning on short text |