WO2023092211A1 - Método para extração e estruturação de informações - Google Patents

Método para extração e estruturação de informações Download PDF

Info

Publication number
WO2023092211A1
WO2023092211A1 PCT/BR2022/050465 BR2022050465W WO2023092211A1 WO 2023092211 A1 WO2023092211 A1 WO 2023092211A1 BR 2022050465 W BR2022050465 W BR 2022050465W WO 2023092211 A1 WO2023092211 A1 WO 2023092211A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
information
synthetic
text
documents
Prior art date
Application number
PCT/BR2022/050465
Other languages
English (en)
French (fr)
Inventor
Fabio Correa CORDEIRO
Diogo da Silva Magalhães GOMES
Régis Kruel ROMEU
Antonio Marcelo Azevedo ALEXANDRE
Vitor Alcantara BATISTA
Max de Castro RODRIGUES
Leonardo Alfredo Forero MENDOZA
Jose Eduardo Ruiz ROSERO
Renato Sayão Crystallino DA ROCHA
Marco Aurélio Cavalcanti PACHECO
Cristian Enrique Munoz VILLALLOBOS
Original Assignee
Petróleo Brasileiro S.A. - Petrobras
Faculdades Catolicas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from BR102021023977-8A external-priority patent/BR102021023977A2/pt
Application filed by Petróleo Brasileiro S.A. - Petrobras, Faculdades Catolicas filed Critical Petróleo Brasileiro S.A. - Petrobras
Priority to CN202280067231.7A priority Critical patent/CN118076982A/zh
Priority to EP22896898.8A priority patent/EP4439494A1/en
Publication of WO2023092211A1 publication Critical patent/WO2023092211A1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Definitions

  • the present invention is related to the area of information retrieval in documents of interest to the oil and gas (O&G) industry. Information from technical documents is extracted with the invention, subsequently this information can be enriched with metadata of interest in the domain, indexed and searched by search engines.
  • O&G oil and gas
  • Extraction and structuring of information is an automatic task, performed by a computer, and composed of several subprocesses.
  • different challenges arise for this type of task. For example, it may be necessary to extract information from a page correctly without cluttering up text, images and tables; or even, structure images or tables and relate them to their descriptive captions.
  • O&G oil and gas
  • Document US20200167558A1 discloses a system and method for using one or more computing devices to categorize text regions of an electronic document into types of document objects based on a combination of semantic information and appearance information of the electronic document .
  • Document US20210158093A1 discloses a system that creates computer-generated synthetic documents with precisely labeled page elements.
  • the synthetic document generation system determines layout parameters for a plurality of image layouts.
  • Document CN110334346B discloses a method and device to extract information from a PDF file, based on marking positions of images and texts.
  • the aim of the process is to structure textual information into key and value collections, organized hierarchically based on document layouts.
  • the method for extracting text regions uses an abstraction of line segments, based on the extraction of character coordinates, data that is immediately available from the internal structure of PDF files, and therefore cannot be applied to documents that require OCR. Therefore, it distances itself from the more general method based on computer vision by neural networks that is used in this invention.
  • Document CN111259830A reveals a method for obtaining training data from PDF documents after manual labeling, using these data to train a convolutional neural network, and using the corresponding model of this trained network to extract information from PDF documents in the field of international agricultural trade.
  • it includes a method for obtaining training data from real PDF documents and the subsequent training of the convolutional neural network for classifying PDF file content fragments.
  • it differs fundamentally from this invention in the way of obtaining data for training, which in the case of this invention are synthetic documents, which means a much greater potential for using training examples for the neural network, and therefore greater accuracy. provided for the object detection model.
  • Document CN113343658A reveals a method, device and calculation method for extracting information from tables in PDF files.
  • the information in a PDF file is mainly divided into paragraphs of text, tables and images. Extracting images is relatively simple, while extracting paragraphs and text tables is more complicated, especially extracting complex nested tables.
  • the method works by extracting the simplest form possible from a table, and proceeds recursively through the table finding the nested tables, until extracting the complete table.
  • the document alleges that the method has "advantages of being simple to implement, having high extraction efficiency, high speed and the ability to retain the internal logical relationships of complex tables". It is only specialized in extracting information from tables in PDF files, therefore it is not applicable to extracting images and subtitles.
  • the invention aims to automatically extract textual data, images and tables from scanned documents in different formats.
  • the method uses computational models of artificial intelligence developed specifically to meet the particularities of the specialized domain of the oil and gas (O&G) industry.
  • the invention was designed to support execution in a supercomputing environment, offering support for high processing parallelism, in order to allow the efficient extraction of a large amount of unstructured documents.
  • the invention proposes a method that receives a set of unstructured documents at the input, extracts and structures their information, reorganizes and makes this information available in files so that they can be consumed by other systems.
  • the method for extracting and structuring information comprises: (1) PDF page separator, (2) block detection and segmentation model, (3) table extractor, ( 4) image extractor, (5) image classification model, (6) text extractor, (7) computer vision model to improve text image quality, (8) optical character recognition model, (9 ) model for spelling correction, (10) models for semantic text enrichment, (11 ) output file organizer, (12) metadata aggregator for information enrichment.
  • the invention proposes a complementary process for generating synthetic documents that emulate real documents, used to train and update the artificial intelligence models used in the main process of information extraction.
  • the method for generating synthetic documents and training the artificial intelligence models comprises: (1) Generating synthetic documents, (2) Training/Tuning of computer vision and classification models, (3) Quality control of models under synthetic and real sets, (4) Evaluation of extraction result in the oil and gas (O&G) domain, (5) Identification of new formats or changes in existing formats, (6) Adjustment of parameters / Configuration of new synthetic formats.
  • FIG. 1 illustrates a flowchart of the method for extracting and structuring information.
  • FIG. 2 represents a diagram that describes the iterative process that comprises the generation of synthetic documents, the training of models based on these generated documents and the quality control of the model, until the point where the model is able to be used in the extraction of documents in the field of oil and gas (O&G), with acceptable performance.
  • O&G oil and gas
  • FIG. 3 presents an example of segmentation into blocks from a document, the classification of blocks according to the type of content, and the processing for extracting information according to the respective classification of each block (text, image or table).
  • the method for extracting and structuring information is a process that receives an unstructured document at the input, extracts its information, reorganizes and makes this information available in files that can be consumed by other systems.
  • the method proposed here as illustrated in the diagram in Figure 1, comprises: (1) document page separator, (2) block detection and segmentation model, (3) table extractor, (4) image extractor, ( 5) image classification model, (6) text extractor, (7) computer vision model to improve text image quality, (8) optical character recognition model, (09) model for spelling correction, ( 10) models for semantic text enrichment, (11) output file organizer and (12) metadata aggregator for information enrichment.
  • the first step of the method consists of (1 ) transforming the document pages into images and using (2) artificial intelligence models based on convolutional neural networks to identify the main blocks that make up these pages, segmenting them into text blocks, images and tables.
  • the detection, delimitation and classification of these blocks can be done using typical deep neural networks for this type of application, such as Mask R-CNN, but not limited to these.
  • each block receives the respectively most appropriate treatment.
  • the blocks identified as tables are processed by one (3) table extractor, so that the information contained in the tables is structured in a file in CSV format.
  • the images with their respective captions are submitted to one (4) image extractor, recorded in individual files and processed by one (5) image classification model.
  • Blocks identified as text, list or equation are submitted to a (6) text extractor and, if it is not possible to recover the information directly from the main file, they are pre-processed by (7) computer vision models to improve the quality of the image, to reduce noise, geometric deformations, or irregularities in the background of the text image.
  • Such models can be, for example, but without loss of generality, based on convolutional neural networks coupled to conditional generative adversarial networks (CNN+GAN), which learn to map an input image with low quality to a corresponding image with more readable text. .
  • Figure 5 shows the text treatment flow from left to right, it can be seen that the system is divided into four processes: the text alignment corrector; then a neural network that improves image quality, named as TextCleaner-Net; then the optical character recognition (OCR) model, effectively; and finally, the classifier to determine the source type of each word based on the MobileNet neural network.
  • the text alignment corrector a neural network that improves image quality, named as TextCleaner-Net
  • OCR optical character recognition
  • the alignment corrector is composed of a convolutional neural network (CNN) that estimates the angle of inclination of the text in the image, followed by a geometric transformation matrix that rotates the image in the opposite direction to the angle estimated by the network.
  • the TextCleanerNet network is a Generative Adversarial Network (GANs) that takes an image as input and produces a clean version of it.
  • GANs Generative Adversarial Network
  • the OCR algorithm selected was Tesseract 5, which represents the state of the art in the area, and which, in addition, has multi-language support through low computational cost.
  • the font detector is a classifier based on a MobileNet network, which is used to determine the font type of each word preceded by OCR. To do this, the classifier takes advantage of the boxes detected by OCR to extract the clippings of images used as input for the classifier.
  • B) Use the (2) block detection model to identify the main elements of each page, segmenting them into blocks of texts, images and tables;
  • textual content is also subjected to steps of (9) spelling correction considering the oil and gas (O&G) domain vocabulary and (10) enrichment with semantic metadata (including processes for recognizing named entities, relationship identification and Part of Speech Tagging), being stored in XML files;
  • O&G oil and gas
  • semantic metadata including processes for recognizing named entities, relationship identification and Part of Speech Tagging
  • the method for generating synthetic documents and training the artificial intelligence models comprises: (1) Generating synthetic documents, (2) Training/Tuning of computer vision and classification models, (3) Quality control of models under synthetic and real sets, (4) Evaluation of extraction result in the oil and gas (O&G) domain, (5) Identification of new formats or changes in existing formats, (6) Adjustment of parameters / Configuration of new synthetic formats.
  • Some of the parameters to be adjusted, and which are associated with synthetic document formats, are: coordinates and dimensions of objects on the page; synthetic annotation label to identify the object type (text, equation, image, table, line); object grouping - enabling sorting of figure captions, table captions and equation captions; font (typography), style and font size of the text.
  • values for these parameters are randomly chosen according to ranges with predefined probabilities for the formats, and fragments of synthesized objects are positioned on the page obeying the chosen values for these parameters.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A invenção propõe um método que recebe um documento não estruturado na entrada, extrai as suas informações, reorganiza e disponibiliza essas informações em arquivos que possam ser consumidos por outros sistemas. O método para extração e estruturação de informações compreende um modelo (1) separador de páginas do documento, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11) organizador dos arquivos de saída e (12) agregador de metadados para enriquecimento da informação. Também faz parte da invenção um gerador de documentos sintéticos que servem para criar uma base de treinamento composta por milhões de documentos sintéticos, que emulam documentos reais comumente utilizados pela indústria de O&G em diferentes variações de layouts. Esses documentos sintéticos são utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo de principal de extração da informação. Sendo assim, compreende as seguintes etapas: (1) geração de documentos sintéticos, em diferentes configurações de layout; (2) treinamento/Sintonização de modelos de visão computacional e classificação; (3) controle da qualidade dos modelos sob conjuntos sintéticos e reais; (4) avaliação de resultado de extração no domínio de O&G; (5) identificação de novos formatos ou alterações em formatos existentes; (6) ajuste de parâmetros e configuração de novos formatos sintéticos.

Description

“MÉTODO PARA EXTRAÇÃO E ESTRUTURAÇÃO DE INFORMAÇÕES” Campo da Invenção
[1] A presente invenção está relacionada com a área de recuperação da informação em documentos de interesse da indústria de óleo e gás (O&G). As informações dos documentos técnicos são extraídas com a invenção, na sequência essas informações podem ser enriquecidas com metadados de interesse no domínio, indexadas e buscadas por motores de busca.
Descrição do Estado da Técnica
[2] Extração e estruturação da informação é uma tarefa automática, executada por um computador, e composta por vários subprocessos. De acordo com a aplicação, diferentes desafios se apresentam para esse tipo de tarefa. Por exemplo, pode ser necessário extrair as informações de uma página corretamente sem confundir os textos, as imagens e as tabelas; ou ainda, estruturar imagens ou tabelas e relacioná-las com as suas legendas descritivas. Existem diferentes abordagens de forma a obter um resultado otimizado e viável dentro de determinadas restrições de recursos computacionais. Adicionalmente, para maximizar a qualidade das informações processadas, é crucial considerar as particularidades semânticas inerentes ao domínio específico de óleo e gás (O&G), contemplando, inclusive, o seu vocabulário especializado e expressões técnicas, além dos principais formatos e diagramação visual dos tipos de documentos comumente adotados por essa indústria.
[3] As abordagens atuais extraem dos documentos apenas um tipo de informação por vez - texto ou imagem. Além disso, é comum que os textos no interior das imagens e tabelas fiquem misturados ao conteúdo dos parágrafos. Portanto, é desejável fazer uso de métodos multimodais que contemplem diferentes modalidades de texto, combinando informações textuais e de imagens para prover uma melhor qualidade da informação extraída.
[4] Os sistemas de busca atualmente utilizados pelas empresas do setor de óleo e gás (O&G), recuperam apenas os documentos nos quais as informações estejam nativamente disponíveis no formato texto, ou seja, cujo conteúdo seja possível de ser acessado por algoritmos simples de leitura de textos. É muito comum a presença de documentos antigos que foram digitalizados com uma tecnologia obsoleta e que possuem muitas imagens, diagramas e tabelas. Se considerarmos o conteúdo informacional interno dos documentos, eles praticamente não são recuperáveis pelos sistemas de busca existentes.
[5] Técnicas de inteligência artificial têm sido aplicadas na indústria para resolver os desafios impostos para a extração de informação de documentos técnicos. No entanto, a maior parte dessas técnicas demandam a existência de conjuntos de dados anotados por especialistas no domínio, de forma a viabilizar o treinamento de modelos usando esses algoritmos. Entretanto, a escassa disponibilidade de dados anotados para o domínio de óleo e gás (O&G) e os altos custos para anotação por especialistas são uma restrição importante para a implementação dos sistemas de extração da informação.
[6] O documento US20200167558A1 revela um sistema e um método para usar um ou mais dispositivos de computação para categorizar regiões de texto de um documento eletrônico em tipos de objetos de documento com base em uma combinação de informações semânticas e informações de aparência do documento eletrônico.
[7] O documento US20210158093A1 revela um sistema que cria documentos sintéticos gerados por computador com elementos de página etiquetados com precisão. O sistema de geração de documentos sintéticos determina parâmetros de layout para uma pluralidade de layouts de imagem.
[8] Os documentos US20200167558A1 e US20210158093A1 não apresentam a capacidade de extrair múltiplas modalidades de informações, como texto, imagens e tabelas, a partir de documentos não estruturados, além de não contemplar as particularidades semânticas inerentes ao domínio de óleo e gás (O&G).
[9] O documento US2019080164A1 revela modelos de aprendizagem de máquina que podem ser aplicados a diagramas de processo e instrumentação para extrair componentes gráficos, tais como símbolos e loops de processo representando o transporte de componentes químicos ou componentes físicos, ou processos de controle, a fim de superar as deficiências das soluções existentes baseadas em OCR e de categorização manual. Apesar do potencial de aplicação em diagramas de processo no domínio de óleo e gás (O&G), tem sua aplicação restrita a documentos contendo esse tipo de diagrama.
[10] O documento CN110334346B revela um método e dispositivo para extrair informações de um arquivo PDF, com base na marcação de posições de imagens e textos. O objetivo do processo é estruturar as informações textuais em coleções de chave e valor, organizadas de forma hierárquica com base nos layouts dos documentos. Neste caso, o método para extração de regiões de textos utiliza uma abstração de segmentos de linhas, a partir da extração das coordenadas dos caracteres, dados esses imediatamente disponíveis a partir da estrutura interna dos arquivos PDF, e, portanto, não podendo ser aplicados a documentos que necessitam de OCR. Distancia-se, portanto, do método mais geral baseado em visão computacional por redes neurais que é utilizado nesta invenção.
[11] O documento CN111259830A revela um método para obtenção de dados de treinamento a partir de documentos PDF após rotulagem manual, a utilização desses dados para treinamento de uma rede neural convolucional, e a utilização do modelo correspondente dessa rede treinada para extração de informações de documentos em PDF no domínio de comércio internacional agrícola. Neste caso inclui método para obtenção de dados de treinamento a partir de documentos PDF reais e o posterior treinamento da rede neural convolucional para classificação de fragmentos de conteúdo de arquivos PDF. Entretanto, difere-se fundamentalmente desta invenção na forma de obtenção dos dados para treinamento, que no caso desta invenção são documentos sintéticos, o que significa um potencial muito maior de utilização de exemplos de treinamento para a rede neural, e, portanto, maior acurácia prevista para o modelo de detecção de objetos. [12] O documento CN113343658A revela um método, dispositivo e forma de cálculo de extração de informações de tabelas de arquivos PDF. As informações em um arquivo PDF são divididas principalmente em parágrafos de texto, tabelas e imagens. A extração de imagens é relativamente simples, enquanto a extração de parágrafos e tabelas de texto é mais complicada, especialmente a extração de tabelas aninhadas complexas. Visando a extração completa da tabela do wireframe no arquivo PDF, atualmente é normalmente realizada de baixo para cima. O método atua extraindo a forma mais simples possível de uma tabela, e prossegue recursivamente na tabela encontrando as tabelas aninhadas, até extrair a tabela completa. O documento alega que o método tem "vantagens por ser de implementação simples, ter alta eficiência de extração, alta velocidade e capacidade de reter as relações lógicas internas de tabelas complexas". É apenas especializada na extração de informações de tabelas em arquivos PDF, não sendo aplicável, portanto, a extrações de imagens e legendas.
[13] Diante das limitações presentes no estado da técnica citado acima, surge a necessidade de desenvolver um método capaz de ler documentos que não estejam no formato editável, ou seja, que foram digitalizados e seu conteúdo não é acessível por algoritmos simples. O estado da técnica citado acima não possui as características únicas que serão apresentadas detalhadamente a seguir.
Objetivo da invenção
[14] A invenção tem por objetivo extrair automaticamente dados textuais, imagens e tabelas a partir documentos digitalizados em diferentes formatos. O método utiliza modelos computacionais de inteligência artificial desenvolvidos especificamente para atender às particularidades do domínio especializado da indústria de óleo e gás (O&G). A invenção foi projetada para suportar a execução em ambiente de supercomputação, oferecendo suporte para alto paralelismo de processamento, de forma a permitir a extração eficiente de uma grande quantidade de documentos não estruturados.
Descrição Resumida da Invenção [15] A invenção propõe um método que recebe um conjunto de documentos não estruturados na entrada, extrai e estrutura as suas informações, reorganiza e disponibiliza essas informações em arquivos para que possam ser consumidos por outros sistemas.
[16] O método para extração e estruturação de informações, conforme ilustrado no diagrama da Figura 1 , compreende: (1 ) separador de páginas de PDF, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (9) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11 ) organizador dos arquivos de saída, (12) agregador de metadados para enriquecimento da informação.
[17] Além do processo principal de extração descrito acima, a invenção propõe um processo complementar para geração de documentos sintéticos que emulam documentos reais, utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo principal de extração da informação. O método para geração dos documentos sintéticos e treinamento dos modelos de inteligência artificial, conforme ilustrado no diagrama da Figura 2, compreende: (1 ) Geração de documentos sintéticos, (2) Treinamento/Sintonização de modelos de visão computacional e classificação, (3) Controle da qualidade dos modelos sob conjuntos sintéticos e reais, (4) Avaliação de resultado de extração no domínio de óleo e gás (O&G), (5) Identificação de novos formatos ou alterações em formatos existentes, (6) Ajuste de parâmetros / Configuração de novos formatos sintéticos.
Breve Descrição dos Desenhos
[18] A presente invenção será descrita com mais detalhes a seguir, com referência às figuras em anexo que, de uma forma esquemática e não limitativa do escopo inventivo, representam exemplos de realização da mesma. Nos desenhos, têm-se:
- A Figura 1 ilustra um fluxograma do método para extração e estruturação de informações.
- A Figura 2 representa um diagrama que descreve o processo iterativo que compreende a geração de documentos sintéticos, o treinamento dos modelos baseados nesses documentos gerados e o controle de qualidade do modelo, até o ponto em que o modelo esteja apto a ser usado na extração de documentos no domínio de óleo e gás (O&G), com performance aceitável.
- A Figura 3 apresenta um exemplo de segmentação em blocos a partir de um documento, a classificação dos blocos conforme o tipo de conteúdo, e o processamento para extração da informação conforme a respectiva classificação de cada bloco (texto, imagem ou tabela).
- A Figura 4 representa as anomalias encontradas comumente em imagens de texto.
- A Figura 5 apresenta uma abordagem para melhorar a performance dos algoritmos de OCR.
Descrição Detalhada da Invenção
[19] Abaixo segue descrição detalhada de uma concretização preferida da presente invenção, de cunho exemplificativo e de forma nenhuma limitativo. Não obstante, ficará claro para um técnico no assunto, a partir da leitura desta descrição, possíveis concretizações adicionais da presente invenção ainda compreendidas pelas características essenciais e opcionais abaixo.
[20] Com a utilização da invenção, foi possível separar textos, tabelas e imagens de documentos, tomando possível o armazenamento e estruturação desses artefatos em formato inteligível por máquina. Com os artefatos informacionais persistidos, acessíveis e passíveis de leitura por máquina, é possível a indexação e subsequente recuperação desses documentos através de motores de busca. A invenção abre o caminho que documentos até então opacos para os sistemas informacionais, tenham seu conteúdo interno acessado e passível de consulta. Uma outra vantagem dessa abordagem é que foi possível dar um melhor tratamento às imagens e tabelas. Além disso, a inovação apresenta recursos para enriquecimento das informações extraídas, considerando a especificidade do domínio de óleo e gás (O&G), realizada a partir de extratores de metadados e de modelos computacionais de aprendizagem automática especializados, contemplando modelos para classificação de imagens, correção ortográfica e identificação de entidades nomeadas do domínio.
[21] O método para extração e estruturação de informações é um processo que recebe um documento não estruturado na entrada, extrai as suas informações, reorganiza e disponibiliza essas informações em arquivos que possam ser consumidos por outros sistemas. O método aqui proposto, conforme ilustrado no diagrama da Figura 1 , compreende: (1 ) separador de páginas do documento, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11 ) organizador dos arquivos de saída e (12) agregador de metadados para enriquecimento da informação.
[22] A primeira etapa do método consiste em (1 ) transformar as páginas dos documentos em imagens e utilizar (2) modelos de inteligência artificial baseados em redes neurais convolucionais para identificar os blocos principais que compõem essas páginas, segmentando em blocos de textos, imagens e tabelas. A título de exemplificação, a detecção, delimitação e classificação desses blocos podem ser feitas usando redes neurais profundas típicas para esse tipo de aplicação, como Mask R-CNN, mas não limitadas a estas. [23] Com isso, cada bloco recebe o tratamento respectivamente mais adequado. Os blocos identificados como tabelas são processados por um (3) extrator de tabelas, de forma que as informações contidas nas tabelas são estruturadas em um arquivo no formato CSV. As imagens com as suas respectivas legendas são submetidas a um (4) extrator de imagens, gravadas em arquivos individuais e processadas por um (5) modelo de classificação de imagens. Os blocos identificados como texto, lista ou equação são submetidos a um (6) extrator de texto e, caso não seja possível recuperar a informação diretamente do arquivo principal, são pré-processados por (7) modelos de visão computacional para melhoria da qualidade da imagem, para redução de ruído, deformações geométricas, ou irregularidades no fundo da imagem do texto. Tais modelos podem ser, por exemplo, mas sem perda de generalidade, baseados em redes neurais convolucionais acopladas a redes adversárias gerativas condicionais (CNN+GAN), que aprendem a mapear uma imagem de entrada com pouca qualidade a uma imagem correspondente com texto mais legível.
[24] Posteriormente, dessas imagens processadas, são extraídos os textos a partir de um (8) modelo de reconhecimento ótico de caracteres (OCR). Embora o problema tenha sido amplamente estudado há anos e que existam muitos algoritmos de OCR com alto desempenho, o assunto continua em desenvolvimento devido ao fato de que a maioria dos algoritmos não são robustos a anomalias presentes na imagem, tais como ruído, fundo irregular, inclinação de texto, deformações, caligrafia variada, entre outras. Exemplos são apresentados na figura 4. Normalmente, essas anomalias produzem uma ampla variedade de erros que vão desde a inclusão de acentos inexistentes até a identificação errônea dos caracteres. Por exemplo, um texto não alinhado pode causar que se misturem caracteres entre palavras de duas linhas consecutivas; uma imagem de texto borrado pode fazer com que se confundam caracteres semelhantes, etc. A Figura 5, mostra o fluxo de tratamento do texto da esquerda para a direita, pode-se observar que o sistema está dividido em quatro processos: o corretor de alinhamento do texto; em seguida uma rede neural que melhora a qualidade da imagem, nomeada como TextCleaner-Net; depois o modelo de reconhecimento ótico de caracteres (OCR), efetivamente; e finalmente, o classificador para determinar o tipo de fonte de cada palavra baseado na rede neural MobileNet.
[25] O corretor de alinhamento está composto por uma rede neural convolucional (CNN) que faz uma estimativa do ângulo de inclinação do texto na imagem, seguido de uma matriz de transformação geométrica que rotaciona a imagem na orientação contrária ao angulo estimado pela rede. A rede TextCleanerNet é uma rede Generativa Adversarial (GANs) que recebe como entrada uma imagem e produz uma versão limpa da mesma. O algoritmo de OCR selecionado foi o Tesseract 5, que representa o estado da arte na área, e que, além disso, possui suporte para multi-linguagem através de baixo custo computacional. Por fim, o detetor de fonte é um classificador baseado numa rede MobileNet, que é usada para determinar o tipo de fonte de cada palavra precedida pelo OCR. Para fazer isto, o classificador aproveita os boxes detectados pelo OCR para extrair os recortes de imagens utilizadas como input para o classificador.
[26] E m seguida, o conteúdo textual passa por etapas de (9) correção ortográfica considerando o vocabulário de domínio de óleo e gás (O&G) e (10) enriquecimento com metadados semânticos (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging), sendo armazenado em arquivos XML. Por fim, toda informação extraída é (11 ) organizada no organizador dos arquivos de saída e (12) agregadas novas informações de metadados. Resumidamente, as etapas do método são:
A) Transformar todas as páginas do documento em imagens (1 );
B) Utilizar o (2) modelo de detecção de blocos para identificar os elementos principais de cada página, segmentando em blocos de textos, imagens e tabelas; C) Extrair (3) tabela se o bloco for classificado como tabela, de forma que as informações nela contidas são estruturadas e armazenadas em um arquivo no formato CSV;
D) Extrair (4) imagens e suas respectivas legendas, caso o bloco seja identificado como imagem, gravadas em arquivos individuais e processadas por um (5) modelo de classificação de imagens para agregação de metadados adicionais;
E) Extrair (6) conteúdo se for texto, lista ou equação. Caso não seja possível recuperar a informação textual diretamente do arquivo principal, são pré- processados por (7) modelos de visão computacional para melhoria da qualidade da imagem, e posteriormente extraídos a partir de um (8) modelo de reconhecimento ótico de caracteres (OCR);
F) Para blocos do formato texto, conteúdo textual é também submetido a etapas de (9) correção ortográfica considerando o vocabulário de domínio de óleo e gás (O&G) e (10) enriquecimento com metadados semânticos (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging), sendo armazenado em arquivos XML;
G) Toda informação extraída pelo método é (11 ) organizada no organizador dos arquivos de saída e (12) agregadas novas informações para enriquecimento de metadados.
[27] E m geral, algoritmos de inteligência artificial, em especial os algoritmos de aprendizagem de máquinas utilizado nessa invenção, possuem duas etapas. Primeiro, são usados dados reais para treinar um modelo (por exemplo, são apresentadas páginas de documentos segmentadas em blocos para que o modelo "aprenda" a reconhecer os blocos). Na segunda fase - conhecida como inferência - o modelo já treinado é usado para realizar a mesma tarefa em documentos que ele nunca teve acesso. Quanto mais documentos para treinamento, melhor fica o resultado final. Nesse ponto que entra o gerador de documentos sintéticos. De maneira bastante simples é possível gerar milhões de documentos para treinamento do modelo e melhorar a sua qualidade final. [28] Por esse motivo, além do processo principal de extração descrito acima, existe um processo complementar de geração de documentos sintéticos, utilizado para criar milhares, ou até milhões, de documentos sintéticos que emulam documentos reais. Esses documentos sintéticos são utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo principal de extração da informação. O método para geração dos documentos sintéticos e treinamento dos modelos de inteligência artificial, conforme ilustrado no diagrama da Figura 2, compreende: (1) Geração de documentos sintéticos, (2) Treinamento/Sintonização de modelos de visão computacional e classificação, (3) Controle da qualidade dos modelos sob conjuntos sintéticos e reais, (4) Avaliação de resultado de extração no domínio de óleo e gás (O&G), (5) Identificação de novos formatos ou alterações em formatos existentes, (6) Ajuste de parâmetros / Configuração de novos formatos sintéticos.
[29] Alguns dos parâmetros a serem ajustados, e que estão associados aos formatos de documentos sintéticos, são: coordenadas e dimensões dos objetos na página; rótulo da anotação sintética para identificação do tipo do objeto (texto, equação, imagem, tabela, linha); agrupamento de objetos - possibilitando classificação de legendas de figuras, legendas de tabelas e legendas de equações; fonte (tipografia), estilo e tamanho da letra do texto. Durante a geração dos documentos sintéticos, valores para esses parâmetros são escolhidos de forma aleatória de acordo com faixas com probabilidades predefinidas para os formatos, e fragmentos de objetos sintetizados são posicionados na página obedecendo os valores escolhidos para esses parâmetros.

Claims

Reivindicações
1) MÉTODO PARA EXTRAÇÃO E ESTRUTURAÇÃO DE INFORMAÇÕES, caracterizado por compreender: (1 ) separador de páginas de PDF, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11 ) organizador dos arquivos de saída e (12) agregador de metadados para enriquecimento da informação, algoritmo para geração de documentos sintéticos e modelos de Inteligência Artificial.
2) MÉTODO, de acordo com a reivindicação 1 , caracterizado por compreender as seguintes etapas: a) Transformar todas as páginas do documento em imagens (1 ); b) Utilizar o (2) modelo de detecção de blocos para identificar os elementos principais de cada página, segmentando em blocos de textos, imagens e tabelas; c) Extrair (3) tabela se o bloco for classificado como tabela, de forma que as informações nela contidas são estruturadas e armazenadas em um arquivo no formato CSV; d) Extrair (4) imagens e suas respectivas legendas, caso o bloco seja identificado como imagem, gravadas em arquivos individuais e processadas por um (5) modelo de classificação de imagens para agregação de metadados adicionais; e) Extrair (6) conteúdo se for texto, lista ou equação, mas caso não seja possível recuperar a informação textual diretamente do arquivo principal, são pré-processados por (7) modelos de visão computacional para melhoria da qualidade da imagem, e posteriormente extraídos a partir de um (8) modelo de reconhecimento ótico de caracteres (OCR); f) Para blocos do formato texto, conteúdo textual é também submetido a etapas de (9) correção ortográfica considerando o vocabulário de domínio de óleo e gás (O&G) e (10) enriquecimento com metadados semânticos (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging), sendo armazenado em arquivos XML; g) Toda informação extraída é (11 ) organizada no organizador dos arquivos de saída e (12) agregadas novas informações para enriquecimento de metadados.
3) MÉTODO, conforme a reivindicação 1 e 2, caracterizado pelo algoritmo de geração de documentos sintéticos para criar uma base de treinamento composta por milhões de documentos sintéticos, que emulam documentos reais comumente utilizados pela indústria de óleo e gás (O&G) em diferentes variações de layouts, através do gerador de documentos sintéticos.
4) MÉTODO, conforme a reivindicação 3, caracterizado pelos documentos sintéticos serem utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo principal de extração da informação.
5) MÉTODO, conforme a reivindicação 3 ou 4, caracterizado por compreender as seguintes etapas: a) Geração de documentos sintéticos (1 ), em diferentes configurações de layout; b) Treinamento/Sintonização de modelos de visão computacional e classificação (2); c) Controle da qualidade dos modelos sob conjuntos sintéticos e reais (3); d) Avaliação de resultado de extração no domínio de óleo e gás (O&G) (4); e) Identificação de novos formatos ou alterações em formatos existentes (5); f) Ajuste de parâmetros / Configuração de novos formatos sintéticos (6).
6) MÉTODO, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo treinamento e atualização de todos os modelos de inteligência artificial empregados no método serem contemplados nas etapas , de (2) modelo 14 de detecção e segmentação em blocos, (5) modelo de classificação de imagens, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres OCR, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging).
PCT/BR2022/050465 2021-11-26 2022-11-28 Método para extração e estruturação de informações WO2023092211A1 (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280067231.7A CN118076982A (zh) 2021-11-26 2022-11-28 信息提取和结构化方法
EP22896898.8A EP4439494A1 (en) 2021-11-26 2022-11-28 Method for extracting and structuring information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BRBR102021023977-8 2021-11-26
BR102021023977-8A BR102021023977A2 (pt) 2021-11-26 Método para extração e estruturação de informações

Publications (1)

Publication Number Publication Date
WO2023092211A1 true WO2023092211A1 (pt) 2023-06-01

Family

ID=86538468

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/BR2022/050465 WO2023092211A1 (pt) 2021-11-26 2022-11-28 Método para extração e estruturação de informações

Country Status (3)

Country Link
EP (1) EP4439494A1 (pt)
CN (1) CN118076982A (pt)
WO (1) WO2023092211A1 (pt)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080164A1 (en) 2017-09-14 2019-03-14 Chevron U.S.A. Inc. Classification of character strings using machine-learning
CN110334346A (zh) 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
US20200167558A1 (en) 2017-07-21 2020-05-28 Adobe Inc. Semantic page segmentation of vector graphics documents
CN111259830A (zh) 2020-01-19 2020-06-09 中国农业科学院农业信息研究所 一种海外农业pdf文档内容碎片化方法及系统
CN111291619A (zh) * 2020-01-14 2020-06-16 支付宝(杭州)信息技术有限公司 一种在线识别理赔单据中文字的方法、装置及客户端
US20210117667A1 (en) * 2019-10-17 2021-04-22 Adobe Inc. Document structure identification using post-processing error correction
US20210158093A1 (en) 2019-11-21 2021-05-27 Adobe Inc. Automatically generating labeled synthetic documents
CN113343658A (zh) 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167558A1 (en) 2017-07-21 2020-05-28 Adobe Inc. Semantic page segmentation of vector graphics documents
US20190080164A1 (en) 2017-09-14 2019-03-14 Chevron U.S.A. Inc. Classification of character strings using machine-learning
CN110334346A (zh) 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
US20210117667A1 (en) * 2019-10-17 2021-04-22 Adobe Inc. Document structure identification using post-processing error correction
US20210158093A1 (en) 2019-11-21 2021-05-27 Adobe Inc. Automatically generating labeled synthetic documents
CN111291619A (zh) * 2020-01-14 2020-06-16 支付宝(杭州)信息技术有限公司 一种在线识别理赔单据中文字的方法、装置及客户端
CN111259830A (zh) 2020-01-19 2020-06-09 中国农业科学院农业信息研究所 一种海外农业pdf文档内容碎片化方法及系统
CN113343658A (zh) 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备

Also Published As

Publication number Publication date
EP4439494A1 (en) 2024-10-02
CN118076982A (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
TWI682302B (zh) 風險地址識別方法、裝置以及電子設備
WO2017097166A1 (zh) 识别领域命名实体的方法及装置
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
Fernández-Mota et al. Bh2m: The barcelona historical, handwritten marriages database
Chen et al. Information extraction from resume documents in pdf format
US11769341B2 (en) System and method to extract information from unstructured image documents
Rausch et al. Docparser: Hierarchical document structure parsing from renderings
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN114118053A (zh) 一种合同信息提取方法及装置
Zharikov et al. DDI-100: dataset for text detection and recognition
Tkaczyk New methods for metadata extraction from scientific literature
Naoum et al. Article segmentation in digitised newspapers with a 2d markov model
Boukhers et al. Mexpub: Deep transfer learning for metadata extraction from german publications
Ghosh et al. R-phoc: segmentation-free word spotting using cnn
Francois et al. Text detection and post-OCR correction in engineering documents
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
Soykan et al. A comprehensive gold standard and benchmark for comics text detection and recognition
Fernández et al. Contextual word spotting in historical manuscripts using markov logic networks
Feild Improving text recognition in images of natural scenes
Rusiñol et al. Symbol Spotting in Digital Libraries
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
WO2023092211A1 (pt) Método para extração e estruturação de informações
BR102021023977A2 (pt) Método para extração e estruturação de informações
Silcock et al. A massive scale semantic similarity dataset of historical english

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22896898

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280067231.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022896898

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022896898

Country of ref document: EP

Effective date: 20240626