RU2019141908A - Идентификация блоков связанных слов в документах сложной структуры - Google Patents

Идентификация блоков связанных слов в документах сложной структуры Download PDF

Info

Publication number
RU2019141908A
RU2019141908A RU2019141908A RU2019141908A RU2019141908A RU 2019141908 A RU2019141908 A RU 2019141908A RU 2019141908 A RU2019141908 A RU 2019141908A RU 2019141908 A RU2019141908 A RU 2019141908A RU 2019141908 A RU2019141908 A RU 2019141908A
Authority
RU
Russia
Prior art keywords
block
level
vectors
document
character sequences
Prior art date
Application number
RU2019141908A
Other languages
English (en)
Other versions
RU2765884C2 (ru
RU2019141908A3 (ru
Inventor
Станислав Владимирович Семенов
Original Assignee
Общество с ограниченной ответственностью «Аби Продакшн»
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью «Аби Продакшн» filed Critical Общество с ограниченной ответственностью «Аби Продакшн»
Priority to RU2019141908A priority Critical patent/RU2765884C2/ru
Priority to US16/719,776 priority patent/US11232299B2/en
Publication of RU2019141908A publication Critical patent/RU2019141908A/ru
Publication of RU2019141908A3 publication Critical patent/RU2019141908A3/ru
Priority to US17/575,502 priority patent/US11741734B2/en
Application granted granted Critical
Publication of RU2765884C2 publication Critical patent/RU2765884C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Claims (26)

1. Способ идентификации блоков связанных слов в документах сложной структуры, включающий
получение множества последовательностей символов документа, где в документе имеется первый блок связанных последовательностей символов, включающий две или более последовательностей символов из множества последовательностей символов;
определение множества векторов, при этом вектор из множества векторов представляет одну из множества последовательностей символов;
обработку устройством обработки данных множества векторов с использованием первой нейронной сети для:
получения множества пересчитанных векторов, при этом каждый из множества пересчитанных векторов пересчитывается на основе значений множества векторов; и
определения множества значений связанности, при этом каждое из множества значений связанности соответствует одному из множества соединений между по меньшей мере двумя последовательностями символов из множества последовательностей символов; и
определения устройством обработки первого блока связанных последовательностей символов с использованием множества пересчитанных векторов и множества значений связанности.
2. Способ по п. 1, отличающийся тем, что определение первого блока связанных последовательностей символов включает в себя генерацию множества гипотез уровня блока, причем каждая из множества гипотез уровня блока включает в себя: потенциальную связь подмножества из множества пересчитанных векторов; и значение уровня блока, представляющее вероятность наличия потенциальной связи, причем значение уровня блока определяется с использованием одного или более значений связанности, соответствующих соединениям между последовательностями символов, представленных подмножеством пересчитанных векторов.
3. Способ по п. 2, дополнительно содержащий определение, с помощью множества гипотез уровня блока, второго блока связанных последовательностей символов из множества последовательностей символов в документе.
4. Способ по п. 3, отличающийся тем, что определение второго блока связанных последовательностей символов включает в себя генерацию множества гипотез уровня документа, причем каждая из множества гипотез уровня документа включает первую гипотезу уровня блока из множества гипотез уровня блока, где первая гипотеза уровня блока включает первую потенциальную связь первого подмножества из множества пересчитанных векторов; и вторую гипотезу уровня блока из множества гипотез уровня блока, вторая гипотеза уровня блока включает вторую потенциальную связь второго подмножества из множества пересчитанных векторов.
5. Способ по п. 4, отличающийся тем, что определение первого блока связанных последовательностей символов и второго блока связанных последовательностей символов включает определение значения вероятности уровня документа для каждой из множества гипотез уровня документа на основе значения уровня блока для первой гипотезы уровня блока и значения уровня блока для второй гипотезы уровня блока; и выбор наиболее вероятной гипотезы уровня документа из множества гипотез уровня документа, основываясь на значениях вероятности уровня документа для каждой из множества гипотез уровня документа.
6. Способ по п. 1, отличающийся тем, что обработка множества векторов с использованием первой нейронной сети включает в себя определение класса для каждого подмножества последовательностей символов в документе, и при этом определение первого блока связанных последовательностей символов дополнительно основывается на классе для каждого из подмножеств последовательностей символов.
7. Способ по п. 1, отличающийся тем, что получение множества последовательностей символов документа включает выполнение оптического распознавания символов (OCR) изображения документа для получения распознанного текста документа; а также разбиение распознанного текста на множество последовательностей символов.
8. Способ по п. 1, отличающийся тем, что определение множества векторов, представляющих множество последовательностей символов, включает определение, с использованием второй нейронной сети, вектора представления слова для каждой из множества последовательностей символов.
9. Способ по п. 1, отличающийся тем, что первая нейронная сеть включает множество подсетей, каждая из подсетей содержит по меньшей мере один скрытый слой нейронов.
10. Способ по п. 9, отличающийся тем, что первая подсеть из множества подсетей должна пересчитывать множество векторов в направлении увеличения или уменьшения горизонтальных координат векторов, и при этом вторая подсеть из множества подсетей должна пересчитывать множество векторов в направлении увеличения или уменьшения вертикальных координат векторов.
11. Способ по п.1, дополнительно включающий определение местоположений последовательностей символов первого блока связанных последовательностей символов; и сохранение определенного местоположения в хранилище данных.
12. Способ по п. 11, дополнительно содержащий получение следующего документа; получение последовательности символов следующего документа; определение того, что последовательность символов следующего документа имеет местоположение в следующем документе, которое совпадает, с заданной точностью, с одним из местоположений последовательностей символов первого блока из связанных последовательностей символов; и связывание последовательности символов следующего документа с первым блоком.
13. Постоянный машиночитаемый носитель данных, содержащий инструкции, которые при обращении к ним обрабатывающего устройства приводят к выполнению операций обрабатывающим устройством, включает получение множества последовательностей символов из документа, в документе имеется первый блок связанных последовательностей символов, первый блок включает в себя две или более последовательностей символов из множества последовательностей символов; определение множества векторов, при этом вектор из множества векторов представляет одну из множества последовательностей символов; обработку множества векторов с использованием первой нейронной сети для: получения множества пересчитанных векторов, при этом каждый из множества пересчитанных векторов пересчитывается на основе значений множества векторов; и определения множества значений связанности, при этом каждое из множества значений связанности соответствует одному из множества соединений между по меньшей мере двумя последовательностями символов из множества последовательностей символов; и определения первого блока связанных последовательностей символов с использованием множества пересчитанных векторов и множества значений связанности.
14. Постоянный носитель данных по п. 13, отличающийся тем, что для определения первого блока связанных последовательностей символов используются команды, которые заставляют устройство обработки данных генерировать множество гипотез уровня блока, причем каждая из множества гипотез уровня блока содержит потенциальную связь подмножества из множества пересчитанных векторов; и значение уровня блока, представляющее вероятность наличия этой потенциальной связи, причем значение уровня блока определяется с использованием одного или более значений связанности, соответствующих соединениям между последовательностями символов, представленных подмножеством пересчитанных векторов.
15. Постоянный носитель данных по п. 14, отличающийся тем, что команды дополнительно заставляют устройство обработки данных определить, используя множество гипотез уровня блока, второй блок связанных последовательностей символов из множества последовательностей символов в документе.
16. Постоянный носитель данных по п. 15, отличающийся тем, что для того, чтобы устройство обработки данных определило второй блок связанных последовательностей символов, имеются команды, вызывающие генерацию устройством обработки множества гипотез уровня документа, причем каждая из гипотез уровня документа включает первую гипотезу уровня блока из множества гипотез уровня блока, где первая гипотеза уровня блока включает первую потенциальную связь первого подмножества из множества пересчитанных векторов; и вторую гипотезу уровня блока из множества гипотез уровня блока, вторая гипотеза уровня блока включает вторую потенциальную связь второго подмножества из множества пересчитанных векторов.
17. Постоянный носитель данных по п. 16, отличающийся тем, что для определения первого блока связанных последовательностей символов и второго блока связанных последовательностей символов имеются команды, вызывающие следующие действия устройства обработки: определение значения вероятности уровня документа для каждой из множества гипотез уровня документа на основе значения уровня блока для первой гипотезы уровня блока и значения уровня блока для второй гипотезы уровня блока; и выбор наиболее вероятной гипотезы уровня документа из множества гипотез уровня документа, основываясь на значениях вероятности уровня документа для каждой из множества гипотез уровня документа.
18. Постоянный носитель данных по п. 13, отличающийся тем, что для обработки множества векторов с помощью первой нейронной сети имеются инструкции, заставляющие устройство обработки данных определить класс для каждого подмножества последовательностей символов в документе, и при этом определение первого блока связанных последовательностей символов дополнительно основывается на классе для каждого из подмножеств последовательностей символов.
19. Система, содержащая следующие компоненты: запоминающее устройство; и устройство обработки, функционально связанное с запоминающим устройством и предназначенное для: получения множества последовательностей символов из документа, в документе имеется первый блок связанных последовательностей символов, первый блок включает в себя две или более последовательностей символов из множества последовательностей символов; определения множества векторов, при этом вектор из множества векторов представляет одну из множества последовательностей символов; обработки множества векторов с использованием первого нейронного блока для: получения множества пересчитанных векторов, при этом каждый из множества пересчитанных векторов пересчитывается на основе значений множества векторов; и определения множества значений связанности, при этом каждое из множества значений связанности соответствует одному из множества соединений между по меньшей мере двумя последовательностями символов из множества последовательностей символов; и определения первого блока связанных последовательностей символов с использованием множества пересчитанных векторов и множества значений связанности.
20. Система по п. 19, отличающаяся тем, что для определения первого блока связанных последовательностей символов устройство обработки генерирует множество гипотез уровня блока, причем каждая из множества гипотез уровня блока включает в себя: потенциальную связь подмножества из множества пересчитанных векторов; и значение уровня блока, представляющее вероятность наличия этой потенциальной связи, причем значение уровня блока определяется с использованием одного или более значений связанности, соответствующих соединениям между последовательностями символов, представленных подмножеством пересчитанных векторов.
RU2019141908A 2019-12-17 2019-12-17 Идентификация блоков связанных слов в документах сложной структуры RU2765884C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2019141908A RU2765884C2 (ru) 2019-12-17 2019-12-17 Идентификация блоков связанных слов в документах сложной структуры
US16/719,776 US11232299B2 (en) 2019-12-17 2019-12-18 Identification of blocks of associated words in documents with complex structures
US17/575,502 US11741734B2 (en) 2019-12-17 2022-01-13 Identification of blocks of associated words in documents with complex structures

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019141908A RU2765884C2 (ru) 2019-12-17 2019-12-17 Идентификация блоков связанных слов в документах сложной структуры

Publications (3)

Publication Number Publication Date
RU2019141908A true RU2019141908A (ru) 2021-06-17
RU2019141908A3 RU2019141908A3 (ru) 2021-07-06
RU2765884C2 RU2765884C2 (ru) 2022-02-04

Family

ID=76318112

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019141908A RU2765884C2 (ru) 2019-12-17 2019-12-17 Идентификация блоков связанных слов в документах сложной структуры

Country Status (2)

Country Link
US (2) US11232299B2 (ru)
RU (1) RU2765884C2 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282779A (zh) * 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 图像搜索方法、装置、设备
US11436851B2 (en) 2020-05-22 2022-09-06 Bill.Com, Llc Text recognition for a neural network
WO2022177447A1 (en) * 2021-02-18 2022-08-25 Xero Limited Systems and methods for generating document numerical representations
US11989733B2 (en) * 2021-10-15 2024-05-21 Adp, Inc. Multi-model system for electronic transaction authorization and fraud detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7817857B2 (en) 2006-05-31 2010-10-19 Microsoft Corporation Combiner for improving handwriting recognition
CN105988567B (zh) * 2015-02-12 2023-03-28 北京三星通信技术研究有限公司 手写信息的识别方法和装置
US10169871B2 (en) 2016-01-21 2019-01-01 Elekta, Inc. Systems and methods for segmentation of intra-patient medical images
US10936862B2 (en) * 2016-11-14 2021-03-02 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks
US20190258925A1 (en) * 2018-02-20 2019-08-22 Adobe Inc. Performing attribute-aware based tasks via an attention-controlled neural network
RU2695489C1 (ru) * 2018-03-23 2019-07-23 Общество с ограниченной ответственностью "Аби Продакшн" Идентификация полей на изображении с использованием искусственного интеллекта
US10878269B2 (en) * 2018-06-19 2020-12-29 Sap Se Data extraction using neural networks
US11328524B2 (en) * 2019-07-08 2022-05-10 UiPath Inc. Systems and methods for automatic data extraction from document images
US11481605B2 (en) * 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor

Also Published As

Publication number Publication date
US11741734B2 (en) 2023-08-29
US20210182550A1 (en) 2021-06-17
US11232299B2 (en) 2022-01-25
RU2765884C2 (ru) 2022-02-04
RU2019141908A3 (ru) 2021-07-06
US20220139098A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
RU2019141908A (ru) Идентификация блоков связанных слов в документах сложной структуры
US11062133B2 (en) Data structure generation for tabular information in scanned images
Santos et al. Attentive pooling networks
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
US20230385409A1 (en) Unstructured text classification
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
KR101939209B1 (ko) 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN113590784B (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
JP7252009B2 (ja) 人工ニューラルネットワークを用いたocrシステムのための、線認識最大-最小プーリングを用いたテキスト画像の処理
US8335750B1 (en) Associative pattern memory with vertical sensors, amplitude sampling, adjacent hashes and fuzzy hashes
CN109948140B (zh) 一种词向量嵌入方法及装置
CN111125408B (zh) 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112633423B (zh) 文本识别模型的训练方法、文本识别方法、装置及设备
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
KR20200044208A (ko) 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
Leifert et al. Two semi-supervised training approaches for automated text recognition
CN112711944B (zh) 一种分词方法、系统、分词器生成方法及系统
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN111126059B (zh) 一种短文文本的生成方法、生成装置及可读存储介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN116433474A (zh) 模型训练方法、字体迁移方法、装置及介质
US20230130662A1 (en) Method and apparatus for analyzing multimodal data
CN111079823A (zh) 验证码图像生成方法及系统