RU2019141908A

RU2019141908A - Идентификация блоков связанных слов в документах сложной структуры

Info

Publication number: RU2019141908A
Application number: RU2019141908A
Authority: RU
Inventors: Станислав Владимирович Семенов
Original assignee: Общество с ограниченной ответственностью «Аби Продакшн»
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2021-06-17
Also published as: US11741734B2; US11232299B2; US20220139098A1; RU2019141908A3; US20210182550A1; RU2765884C2

Claims

1. Способ идентификации блоков связанных слов в документах сложной структуры, включающий

получение множества последовательностей символов документа, где в документе имеется первый блок связанных последовательностей символов, включающий две или более последовательностей символов из множества последовательностей символов;

определение множества векторов, при этом вектор из множества векторов представляет одну из множества последовательностей символов;

обработку устройством обработки данных множества векторов с использованием первой нейронной сети для:

получения множества пересчитанных векторов, при этом каждый из множества пересчитанных векторов пересчитывается на основе значений множества векторов; и

определения множества значений связанности, при этом каждое из множества значений связанности соответствует одному из множества соединений между по меньшей мере двумя последовательностями символов из множества последовательностей символов; и

определения устройством обработки первого блока связанных последовательностей символов с использованием множества пересчитанных векторов и множества значений связанности.

2. Способ по п. 1, отличающийся тем, что определение первого блока связанных последовательностей символов включает в себя генерацию множества гипотез уровня блока, причем каждая из множества гипотез уровня блока включает в себя: потенциальную связь подмножества из множества пересчитанных векторов; и значение уровня блока, представляющее вероятность наличия потенциальной связи, причем значение уровня блока определяется с использованием одного или более значений связанности, соответствующих соединениям между последовательностями символов, представленных подмножеством пересчитанных векторов.

3. Способ по п. 2, дополнительно содержащий определение, с помощью множества гипотез уровня блока, второго блока связанных последовательностей символов из множества последовательностей символов в документе.

4. Способ по п. 3, отличающийся тем, что определение второго блока связанных последовательностей символов включает в себя генерацию множества гипотез уровня документа, причем каждая из множества гипотез уровня документа включает первую гипотезу уровня блока из множества гипотез уровня блока, где первая гипотеза уровня блока включает первую потенциальную связь первого подмножества из множества пересчитанных векторов; и вторую гипотезу уровня блока из множества гипотез уровня блока, вторая гипотеза уровня блока включает вторую потенциальную связь второго подмножества из множества пересчитанных векторов.

5. Способ по п. 4, отличающийся тем, что определение первого блока связанных последовательностей символов и второго блока связанных последовательностей символов включает определение значения вероятности уровня документа для каждой из множества гипотез уровня документа на основе значения уровня блока для первой гипотезы уровня блока и значения уровня блока для второй гипотезы уровня блока; и выбор наиболее вероятной гипотезы уровня документа из множества гипотез уровня документа, основываясь на значениях вероятности уровня документа для каждой из множества гипотез уровня документа.

6. Способ по п. 1, отличающийся тем, что обработка множества векторов с использованием первой нейронной сети включает в себя определение класса для каждого подмножества последовательностей символов в документе, и при этом определение первого блока связанных последовательностей символов дополнительно основывается на классе для каждого из подмножеств последовательностей символов.

7. Способ по п. 1, отличающийся тем, что получение множества последовательностей символов документа включает выполнение оптического распознавания символов (OCR) изображения документа для получения распознанного текста документа; а также разбиение распознанного текста на множество последовательностей символов.

8. Способ по п. 1, отличающийся тем, что определение множества векторов, представляющих множество последовательностей символов, включает определение, с использованием второй нейронной сети, вектора представления слова для каждой из множества последовательностей символов.

9. Способ по п. 1, отличающийся тем, что первая нейронная сеть включает множество подсетей, каждая из подсетей содержит по меньшей мере один скрытый слой нейронов.

10. Способ по п. 9, отличающийся тем, что первая подсеть из множества подсетей должна пересчитывать множество векторов в направлении увеличения или уменьшения горизонтальных координат векторов, и при этом вторая подсеть из множества подсетей должна пересчитывать множество векторов в направлении увеличения или уменьшения вертикальных координат векторов.

11. Способ по п.1, дополнительно включающий определение местоположений последовательностей символов первого блока связанных последовательностей символов; и сохранение определенного местоположения в хранилище данных.

12. Способ по п. 11, дополнительно содержащий получение следующего документа; получение последовательности символов следующего документа; определение того, что последовательность символов следующего документа имеет местоположение в следующем документе, которое совпадает, с заданной точностью, с одним из местоположений последовательностей символов первого блока из связанных последовательностей символов; и связывание последовательности символов следующего документа с первым блоком.

13. Постоянный машиночитаемый носитель данных, содержащий инструкции, которые при обращении к ним обрабатывающего устройства приводят к выполнению операций обрабатывающим устройством, включает получение множества последовательностей символов из документа, в документе имеется первый блок связанных последовательностей символов, первый блок включает в себя две или более последовательностей символов из множества последовательностей символов; определение множества векторов, при этом вектор из множества векторов представляет одну из множества последовательностей символов; обработку множества векторов с использованием первой нейронной сети для: получения множества пересчитанных векторов, при этом каждый из множества пересчитанных векторов пересчитывается на основе значений множества векторов; и определения множества значений связанности, при этом каждое из множества значений связанности соответствует одному из множества соединений между по меньшей мере двумя последовательностями символов из множества последовательностей символов; и определения первого блока связанных последовательностей символов с использованием множества пересчитанных векторов и множества значений связанности.

14. Постоянный носитель данных по п. 13, отличающийся тем, что для определения первого блока связанных последовательностей символов используются команды, которые заставляют устройство обработки данных генерировать множество гипотез уровня блока, причем каждая из множества гипотез уровня блока содержит потенциальную связь подмножества из множества пересчитанных векторов; и значение уровня блока, представляющее вероятность наличия этой потенциальной связи, причем значение уровня блока определяется с использованием одного или более значений связанности, соответствующих соединениям между последовательностями символов, представленных подмножеством пересчитанных векторов.

15. Постоянный носитель данных по п. 14, отличающийся тем, что команды дополнительно заставляют устройство обработки данных определить, используя множество гипотез уровня блока, второй блок связанных последовательностей символов из множества последовательностей символов в документе.

16. Постоянный носитель данных по п. 15, отличающийся тем, что для того, чтобы устройство обработки данных определило второй блок связанных последовательностей символов, имеются команды, вызывающие генерацию устройством обработки множества гипотез уровня документа, причем каждая из гипотез уровня документа включает первую гипотезу уровня блока из множества гипотез уровня блока, где первая гипотеза уровня блока включает первую потенциальную связь первого подмножества из множества пересчитанных векторов; и вторую гипотезу уровня блока из множества гипотез уровня блока, вторая гипотеза уровня блока включает вторую потенциальную связь второго подмножества из множества пересчитанных векторов.

17. Постоянный носитель данных по п. 16, отличающийся тем, что для определения первого блока связанных последовательностей символов и второго блока связанных последовательностей символов имеются команды, вызывающие следующие действия устройства обработки: определение значения вероятности уровня документа для каждой из множества гипотез уровня документа на основе значения уровня блока для первой гипотезы уровня блока и значения уровня блока для второй гипотезы уровня блока; и выбор наиболее вероятной гипотезы уровня документа из множества гипотез уровня документа, основываясь на значениях вероятности уровня документа для каждой из множества гипотез уровня документа.

18. Постоянный носитель данных по п. 13, отличающийся тем, что для обработки множества векторов с помощью первой нейронной сети имеются инструкции, заставляющие устройство обработки данных определить класс для каждого подмножества последовательностей символов в документе, и при этом определение первого блока связанных последовательностей символов дополнительно основывается на классе для каждого из подмножеств последовательностей символов.

19. Система, содержащая следующие компоненты: запоминающее устройство; и устройство обработки, функционально связанное с запоминающим устройством и предназначенное для: получения множества последовательностей символов из документа, в документе имеется первый блок связанных последовательностей символов, первый блок включает в себя две или более последовательностей символов из множества последовательностей символов; определения множества векторов, при этом вектор из множества векторов представляет одну из множества последовательностей символов; обработки множества векторов с использованием первого нейронного блока для: получения множества пересчитанных векторов, при этом каждый из множества пересчитанных векторов пересчитывается на основе значений множества векторов; и определения множества значений связанности, при этом каждое из множества значений связанности соответствует одному из множества соединений между по меньшей мере двумя последовательностями символов из множества последовательностей символов; и определения первого блока связанных последовательностей символов с использованием множества пересчитанных векторов и множества значений связанности.

20. Система по п. 19, отличающаяся тем, что для определения первого блока связанных последовательностей символов устройство обработки генерирует множество гипотез уровня блока, причем каждая из множества гипотез уровня блока включает в себя: потенциальную связь подмножества из множества пересчитанных векторов; и значение уровня блока, представляющее вероятность наличия этой потенциальной связи, причем значение уровня блока определяется с использованием одного или более значений связанности, соответствующих соединениям между последовательностями символов, представленных подмножеством пересчитанных векторов.