RU2020109236A - Иерархические нейронные сети с грануляризированным вниманием - Google Patents

Иерархические нейронные сети с грануляризированным вниманием Download PDF

Info

Publication number
RU2020109236A
RU2020109236A RU2020109236A RU2020109236A RU2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A RU 2020109236 A RU2020109236 A RU 2020109236A
Authority
RU
Russia
Prior art keywords
layer
attention
network model
hierarchical network
document
Prior art date
Application number
RU2020109236A
Other languages
English (en)
Other versions
RU2020109236A3 (ru
Inventor
Юань ЛИН
Шейх Садид АЛЬ ХАСАН
Оладимеджи Фейисетан ФАРРИ
Цзюньи ЛЮ
Original Assignee
Конинклейке Филипс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Н.В. filed Critical Конинклейке Филипс Н.В.
Publication of RU2020109236A publication Critical patent/RU2020109236A/ru
Publication of RU2020109236A3 publication Critical patent/RU2020109236A3/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Claims (42)

1. Способ, реализуемый с помощью одного или более процессоров, для формирования одной или более классификаций документа, включающий:
получение (102) данных, показательных в отношении документа;
обработку (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое, при этом во время тренировки механизма внимания двойной гранулярности указанные некоторые части встраивают в иерархическую сетевую модель;
обработку (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и
формирование (108) метки классификации из выходных данных второго слоя.
2. Способ по п. 1, в котором два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.
3. Способ по п. 2, в котором два или более слоев иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.
4. Способ по п. 1, в котором формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.
5. Способ по п. 1, в котором механизм внимания двойной гранулярности, также содержит историю внимания и специфичную для предметной области историю внимания, причем история внимания соответствует первому слою иерархической сетевой модели, а специфичная для предметной области история внимания соответствует второму слою иерархической сетевой модели.
6. Способ по п. 5, в котором механизм внимания двойной гранулярности определяют посредством одного или более процессоров с помощью выражений:
Figure 00000001
Figure 00000002
Figure 00000003
где
Figure 00000004
- значение внимания,
Figure 00000005
- поддающаяся изучению функция,
Figure 00000006
- история внимания,
Figure 00000007
- специфичная для предметной области история внимания,
Figure 00000008
- вектор вероятности,
Figure 00000009
- общее количество временных шагов,
Figure 00000010
- время,
Figure 00000011
- время и
Figure 00000012
- взвешенное среднее.
7. Способ по п. 6, в котором специфичную для предметной области историю внимания предварительно заполняют вложениями, соответствующими знаниям в конкретной предметной области.
8. Способ по п. 3, в котором слой символов дополнительно содержит слой символов с долгой краткосрочной памятью (LSTM), причем к LSTM-слою символов применяют двухгранулярный механизм, слой слов дополнительно содержит LSTM-слой слов, причем к LSTM-слою слов применяют двухгранулярный механизм, слой предложений дополнительно включает LSTM-слой предложений, причем к LSTM-слою предложений применяют двухгранулярный механизм, и слой разделов дополнительно содержит LSTM-слой разделов, причем к LSTM-слою разделов применяют двухгранулярный механизм.
9. По меньшей мере один некратковременный компьютерочитаемый носитель информации, хранящий машиннообучаемую модель для формирования одной или более классификаций документа, причем модель тренируют с использованием следующего процесса:
получают (202) набор тренировочных данных, показательных в отношении документа;
осуществляют тренировку (206) двух или более слоев иерархической сетевой модели с механизмом внимания двойной гранулярности с использованием набора тренировочных данных, показательных в отношении документа, причем первый слой в механизме внимания двойной гранулярности тренируют с помощью двух или более слоев иерархической сетевой модели, а второй слой в механизме внимания двойной гранулярности предварительно заполняют данными, отражающими специфичные для предметной области знания.
получают (102) данные, показательных в отношении документа;
выполняют обработку (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое;
выполняют обработку (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и
формируют (108) метку классификации из выходных данных второго слоя.
10. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.
11. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 10, в котором два или более слоя иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.
12. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.
13. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором механизм внимания двойной гранулярности определяют посредством одного или более процессоров с помощью выражений:
Figure 00000001
Figure 00000002
Figure 00000003
где
Figure 00000004
- значение внимания,
Figure 00000005
- поддающаяся изучению функция,
Figure 00000006
- первый слой в двухслойной истории внимания,
Figure 00000007
- второй слой в двухслойной истории внимания, который содержит специфичные для предметной области знания,
Figure 00000008
- вектор вероятности,
Figure 00000013
общее количество временных шагов,
Figure 00000010
- время,
Figure 00000011
- время и
Figure 00000012
- взвешенное среднее.
14. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 13, в котором специфичную для предметной области историю внимания предварительно заполняют вложениями, соответствующими знаниям в конкретной предметной области.
15. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 10, в котором слой символов дополнительно содержит слой символов с долгой краткосрочной памятью (LSTM), причем к LSTM-слою символов применяют двухгранулярный механизм, слой слов дополнительно содержит LSTM-слой слов, причем к LSTM-слою слов применяют двухгранулярный механизм, слой предложений дополнительно включает LSTM-слой предложений, причем к LSTM-слою предложений применяют двухгранулярный механизм, и слой разделов дополнительно содержит LSTM-слой разделов, причем к LSTM-слою разделов применяют двухгранулярный механизм.
16. Система, содержащая один или более процессоров и память, выполненную с возможностью функционального соединения с одним или более процессорами для формирования одной или более классификаций документа, причем память хранит инструкции, которые в ответ на их исполнение одним или более процессорами, вызывают выполнение одним или более процессорами следующих операций:
получение (102) данных, показательных в отношении документа;
обработка (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое, при этом во время тренировки механизма внимания двойной гранулярности указанные некоторые части встраивают в иерархическую сетевую модель;
обработка (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и
формирование (108) метки классификации из выходных данных второго слоя.
17. Система по п. 16, в которой два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.
18. Система по п. 17, в которой два или более слоя иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.
19. Система по п. 16, в которой формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.
20. Система по п. 16, в которой механизм внимания двойной гранулярности, также содержит историю внимания и специфичную для предметной области историю внимания, причем история внимания соответствует первому слою иерархической сетевой модели, а специфичная для предметной области история внимания соответствует второму слою иерархической сетевой модели.
RU2020109236A 2017-08-03 2018-08-03 Иерархические нейронные сети с грануляризированным вниманием RU2020109236A (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762540790P 2017-08-03 2017-08-03
US62/540,790 2017-08-03
US201862699079P 2018-07-17 2018-07-17
US62/699,079 2018-07-17
PCT/EP2018/071158 WO2019025601A1 (en) 2017-08-03 2018-08-03 HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED

Publications (2)

Publication Number Publication Date
RU2020109236A true RU2020109236A (ru) 2021-09-03
RU2020109236A3 RU2020109236A3 (ru) 2022-03-29

Family

ID=63174212

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020109236A RU2020109236A (ru) 2017-08-03 2018-08-03 Иерархические нейронные сети с грануляризированным вниманием

Country Status (4)

Country Link
US (1) US11361569B2 (ru)
CN (1) CN111356997B (ru)
RU (1) RU2020109236A (ru)
WO (1) WO2019025601A1 (ru)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610667B2 (en) 2018-11-19 2023-03-21 RAD AI, Inc. System and method for automated annotation of radiology findings
CN109918671B (zh) * 2019-03-12 2022-12-20 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110134868B (zh) * 2019-05-14 2023-04-07 辽宁工程技术大学 一种基于用户偏好异构性分析的推荐方法
CN110414498B (zh) * 2019-06-14 2023-07-11 华南理工大学 一种基于交叉注意力机制的自然场景文本识别方法
CN112148832B (zh) * 2019-06-26 2022-11-29 天津大学 一种基于标签感知的双重自注意力网络的事件检测方法
CN110472238B (zh) * 2019-07-25 2022-11-18 昆明理工大学 基于层级交互注意力的文本摘要方法
CN110728298A (zh) * 2019-09-05 2020-01-24 北京三快在线科技有限公司 多任务分类模型训练方法、多任务分类方法及装置
WO2021051091A1 (en) * 2019-09-13 2021-03-18 Rad Al, Inc. Method and system for automatically generating a section in a radiology report
CN112751686B (zh) * 2019-10-29 2022-10-18 中国移动通信集团浙江有限公司 局数据脚本生成方法、装置、计算设备及计算机存储介质
CN111028913A (zh) * 2019-11-29 2020-04-17 北京工业大学 血液透析治疗方案辅助决策方法
CN111309200B (zh) * 2020-01-17 2021-11-12 百度在线网络技术(北京)有限公司 一种扩展阅读内容的确定方法、装置、设备及存储介质
CN111666977B (zh) * 2020-05-09 2023-02-28 西安电子科技大学 一种单色图像的阴影检测方法
CN111784303B (zh) * 2020-07-06 2023-08-22 泰康保险集团股份有限公司 核保信息处理方法、装置、计算机存储介质及电子设备
CN111814453B (zh) * 2020-07-09 2023-08-08 重庆大学 基于BiLSTM-TextCNN的细粒度情感分析方法
CN111797266B (zh) * 2020-07-10 2022-02-08 北京字节跳动网络技术有限公司 图像处理方法和装置、存储介质和电子设备
US11354904B2 (en) * 2020-07-10 2022-06-07 International Business Machines Corporation Spatial-temporal graph-to-sequence learning based grounded video descriptions
CN112883724A (zh) * 2021-02-03 2021-06-01 虎博网络技术(上海)有限公司 文本数据增强处理方法、装置、电子设备和可读存储介质
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
US11615890B2 (en) 2021-03-09 2023-03-28 RAD AI, Inc. Method and system for the computer-assisted implementation of radiology recommendations
US20220318499A1 (en) * 2021-03-31 2022-10-06 Microsoft Technology Licensing, Llc Assisted electronic message composition
CN113344146B (zh) * 2021-08-03 2021-11-02 武汉大学 基于双重注意力机制的图像分类方法、系统及电子设备
CN113935502B (zh) * 2021-10-15 2022-04-22 河海大学 基于双重注意力机制的面向大坝应急工况事件抽取方法
CN117235619A (zh) * 2023-08-14 2023-12-15 杭州瑞成信息技术股份有限公司 会议纪要分类方法、装置、计算机设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930788A (en) * 1997-07-17 1999-07-27 Oracle Corporation Disambiguation of themes in a document classification system
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6606620B1 (en) * 2000-07-24 2003-08-12 International Business Machines Corporation Method and system for classifying semi-structured documents
US8145636B1 (en) * 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
US20110137898A1 (en) 2009-12-07 2011-06-09 Xerox Corporation Unstructured document classification
US20120065987A1 (en) 2010-09-09 2012-03-15 Siemens Medical Solutions Usa, Inc. Computer-Based Patient Management for Healthcare
US8484245B2 (en) * 2011-02-08 2013-07-09 Xerox Corporation Large scale unsupervised hierarchical document categorization using ontological guidance
US10127229B2 (en) * 2014-04-23 2018-11-13 Elsevier B.V. Methods and computer-program products for organizing electronic documents
US9390086B2 (en) * 2014-09-11 2016-07-12 Palantir Technologies Inc. Classification system with methodology for efficient verification
US10657186B2 (en) * 2015-05-29 2020-05-19 Dell Products, L.P. System and method for automatic document classification and grouping based on document topic
CN106383815B (zh) * 2016-09-20 2019-03-01 清华大学 结合用户和产品信息的神经网络情感分析方法
CN106777011A (zh) * 2016-12-07 2017-05-31 中山大学 一种基于深度多任务学习的文本分类方法

Also Published As

Publication number Publication date
CN111356997B (zh) 2024-04-09
US20210089765A1 (en) 2021-03-25
WO2019025601A1 (en) 2019-02-07
US11361569B2 (en) 2022-06-14
RU2020109236A3 (ru) 2022-03-29
CN111356997A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
RU2020109236A (ru) Иерархические нейронные сети с грануляризированным вниманием
US11755885B2 (en) Joint learning of local and global features for entity linking via neural networks
Goularas et al. Evaluation of deep learning techniques in sentiment analysis from twitter data
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
US11657231B2 (en) Capturing rich response relationships with small-data neural networks
US20200349450A1 (en) Projection neural networks
US11868724B2 (en) Generating author vectors
US20220004879A1 (en) Regularized neural network architecture search
Baziotis et al. Ntua-slp at semeval-2018 task 3: Tracking ironic tweets using ensembles of word and character level attentive rnns
US10366327B2 (en) Generating vector representations of documents
US11443170B2 (en) Semi-supervised training of neural networks
CN113519001A (zh) 利用语言模型生成常识解释
EP3371747A1 (en) Augmenting neural networks with external memory
RU2015141340A (ru) Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
Wan Sentiment analysis of Weibo comments based on deep neural network
Li et al. Text classification method based on convolution neural network
Xu et al. Convolutional neural network using a threshold predictor for multi-label speech act classification
Zhang et al. Let's be Humorous: Knowledge Enhanced Humor Generation
Onose et al. SC-UPB at the VarDial 2019 evaluation campaign: Moldavian vs. Romanian cross-dialect topic identification
Yang et al. Learning topic-oriented word embedding for query classification
RU2015141339A (ru) Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
Singh et al. Structured multi-label biomedical text tagging via attentive neural tree decoding
Prusa et al. Deep neural network architecture for character-level learning on short text
Soni et al. Deep learning, wordnet, and spacy based hybrid method for detection of implicit aspects for sentiment analysis
Soutner et al. Continuous distributed representations of words as input of LSTM network language model