WO2023092211A1

WO2023092211A1 - Método para extração e estruturação de informações

Info

Publication number: WO2023092211A1
Application number: PCT/BR2022/050465
Authority: WO
Inventors: Fabio Correa CORDEIRO; Diogo da Silva Magalhães GOMES; Régis Kruel ROMEU; Antonio Marcelo Azevedo ALEXANDRE; Vitor Alcantara BATISTA; Max de Castro RODRIGUES; Leonardo Alfredo Forero MENDOZA; Jose Eduardo Ruiz ROSERO; Renato Sayão Crystallino DA ROCHA; Marco Aurélio Cavalcanti PACHECO; Cristian Enrique Munoz VILLALLOBOS
Original assignee: Petróleo Brasileiro S.A. - Petrobras; Faculdades Catolicas
Priority date: 2021-11-26
Filing date: 2022-11-28
Publication date: 2023-06-01
Also published as: EP4439494A1; CN118076982A

Abstract

A invenção propõe um método que recebe um documento não estruturado na entrada, extrai as suas informações, reorganiza e disponibiliza essas informações em arquivos que possam ser consumidos por outros sistemas. O método para extração e estruturação de informações compreende um modelo (1) separador de páginas do documento, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11) organizador dos arquivos de saída e (12) agregador de metadados para enriquecimento da informação. Também faz parte da invenção um gerador de documentos sintéticos que servem para criar uma base de treinamento composta por milhões de documentos sintéticos, que emulam documentos reais comumente utilizados pela indústria de O&G em diferentes variações de layouts. Esses documentos sintéticos são utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo de principal de extração da informação. Sendo assim, compreende as seguintes etapas: (1) geração de documentos sintéticos, em diferentes configurações de layout; (2) treinamento/Sintonização de modelos de visão computacional e classificação; (3) controle da qualidade dos modelos sob conjuntos sintéticos e reais; (4) avaliação de resultado de extração no domínio de O&G; (5) identificação de novos formatos ou alterações em formatos existentes; (6) ajuste de parâmetros e configuração de novos formatos sintéticos.

Description

“MÉTODO PARA EXTRAÇÃO E ESTRUTURAÇÃO DE INFORMAÇÕES” Campo da Invenção

[1] A presente invenção está relacionada com a área de recuperação da informação em documentos de interesse da indústria de óleo e gás (O&G). As informações dos documentos técnicos são extraídas com a invenção, na sequência essas informações podem ser enriquecidas com metadados de interesse no domínio, indexadas e buscadas por motores de busca.

Descrição do Estado da Técnica

[2] Extração e estruturação da informação é uma tarefa automática, executada por um computador, e composta por vários subprocessos. De acordo com a aplicação, diferentes desafios se apresentam para esse tipo de tarefa. Por exemplo, pode ser necessário extrair as informações de uma página corretamente sem confundir os textos, as imagens e as tabelas; ou ainda, estruturar imagens ou tabelas e relacioná-las com as suas legendas descritivas. Existem diferentes abordagens de forma a obter um resultado otimizado e viável dentro de determinadas restrições de recursos computacionais. Adicionalmente, para maximizar a qualidade das informações processadas, é crucial considerar as particularidades semânticas inerentes ao domínio específico de óleo e gás (O&G), contemplando, inclusive, o seu vocabulário especializado e expressões técnicas, além dos principais formatos e diagramação visual dos tipos de documentos comumente adotados por essa indústria.

[3] As abordagens atuais extraem dos documentos apenas um tipo de informação por vez - texto ou imagem. Além disso, é comum que os textos no interior das imagens e tabelas fiquem misturados ao conteúdo dos parágrafos. Portanto, é desejável fazer uso de métodos multimodais que contemplem diferentes modalidades de texto, combinando informações textuais e de imagens para prover uma melhor qualidade da informação extraída.

[4] Os sistemas de busca atualmente utilizados pelas empresas do setor de óleo e gás (O&G), recuperam apenas os documentos nos quais as informações estejam nativamente disponíveis no formato texto, ou seja, cujo conteúdo seja possível de ser acessado por algoritmos simples de leitura de textos. É muito comum a presença de documentos antigos que foram digitalizados com uma tecnologia obsoleta e que possuem muitas imagens, diagramas e tabelas. Se considerarmos o conteúdo informacional interno dos documentos, eles praticamente não são recuperáveis pelos sistemas de busca existentes.

[5] Técnicas de inteligência artificial têm sido aplicadas na indústria para resolver os desafios impostos para a extração de informação de documentos técnicos. No entanto, a maior parte dessas técnicas demandam a existência de conjuntos de dados anotados por especialistas no domínio, de forma a viabilizar o treinamento de modelos usando esses algoritmos. Entretanto, a escassa disponibilidade de dados anotados para o domínio de óleo e gás (O&G) e os altos custos para anotação por especialistas são uma restrição importante para a implementação dos sistemas de extração da informação.

[6] O documento US20200167558A1 revela um sistema e um método para usar um ou mais dispositivos de computação para categorizar regiões de texto de um documento eletrônico em tipos de objetos de documento com base em uma combinação de informações semânticas e informações de aparência do documento eletrônico.

[7] O documento US20210158093A1 revela um sistema que cria documentos sintéticos gerados por computador com elementos de página etiquetados com precisão. O sistema de geração de documentos sintéticos determina parâmetros de layout para uma pluralidade de layouts de imagem.

[8] Os documentos US20200167558A1 e US20210158093A1 não apresentam a capacidade de extrair múltiplas modalidades de informações, como texto, imagens e tabelas, a partir de documentos não estruturados, além de não contemplar as particularidades semânticas inerentes ao domínio de óleo e gás (O&G).

[9] O documento US2019080164A1 revela modelos de aprendizagem de máquina que podem ser aplicados a diagramas de processo e instrumentação para extrair componentes gráficos, tais como símbolos e loops de processo representando o transporte de componentes químicos ou componentes físicos, ou processos de controle, a fim de superar as deficiências das soluções existentes baseadas em OCR e de categorização manual. Apesar do potencial de aplicação em diagramas de processo no domínio de óleo e gás (O&G), tem sua aplicação restrita a documentos contendo esse tipo de diagrama.

[10] O documento CN110334346B revela um método e dispositivo para extrair informações de um arquivo PDF, com base na marcação de posições de imagens e textos. O objetivo do processo é estruturar as informações textuais em coleções de chave e valor, organizadas de forma hierárquica com base nos layouts dos documentos. Neste caso, o método para extração de regiões de textos utiliza uma abstração de segmentos de linhas, a partir da extração das coordenadas dos caracteres, dados esses imediatamente disponíveis a partir da estrutura interna dos arquivos PDF, e, portanto, não podendo ser aplicados a documentos que necessitam de OCR. Distancia-se, portanto, do método mais geral baseado em visão computacional por redes neurais que é utilizado nesta invenção.

[11] O documento CN111259830A revela um método para obtenção de dados de treinamento a partir de documentos PDF após rotulagem manual, a utilização desses dados para treinamento de uma rede neural convolucional, e a utilização do modelo correspondente dessa rede treinada para extração de informações de documentos em PDF no domínio de comércio internacional agrícola. Neste caso inclui método para obtenção de dados de treinamento a partir de documentos PDF reais e o posterior treinamento da rede neural convolucional para classificação de fragmentos de conteúdo de arquivos PDF. Entretanto, difere-se fundamentalmente desta invenção na forma de obtenção dos dados para treinamento, que no caso desta invenção são documentos sintéticos, o que significa um potencial muito maior de utilização de exemplos de treinamento para a rede neural, e, portanto, maior acurácia prevista para o modelo de detecção de objetos. [12] O documento CN113343658A revela um método, dispositivo e forma de cálculo de extração de informações de tabelas de arquivos PDF. As informações em um arquivo PDF são divididas principalmente em parágrafos de texto, tabelas e imagens. A extração de imagens é relativamente simples, enquanto a extração de parágrafos e tabelas de texto é mais complicada, especialmente a extração de tabelas aninhadas complexas. Visando a extração completa da tabela do wireframe no arquivo PDF, atualmente é normalmente realizada de baixo para cima. O método atua extraindo a forma mais simples possível de uma tabela, e prossegue recursivamente na tabela encontrando as tabelas aninhadas, até extrair a tabela completa. O documento alega que o método tem "vantagens por ser de implementação simples, ter alta eficiência de extração, alta velocidade e capacidade de reter as relações lógicas internas de tabelas complexas". É apenas especializada na extração de informações de tabelas em arquivos PDF, não sendo aplicável, portanto, a extrações de imagens e legendas.

[13] Diante das limitações presentes no estado da técnica citado acima, surge a necessidade de desenvolver um método capaz de ler documentos que não estejam no formato editável, ou seja, que foram digitalizados e seu conteúdo não é acessível por algoritmos simples. O estado da técnica citado acima não possui as características únicas que serão apresentadas detalhadamente a seguir.

Objetivo da invenção

[14] A invenção tem por objetivo extrair automaticamente dados textuais, imagens e tabelas a partir documentos digitalizados em diferentes formatos. O método utiliza modelos computacionais de inteligência artificial desenvolvidos especificamente para atender às particularidades do domínio especializado da indústria de óleo e gás (O&G). A invenção foi projetada para suportar a execução em ambiente de supercomputação, oferecendo suporte para alto paralelismo de processamento, de forma a permitir a extração eficiente de uma grande quantidade de documentos não estruturados.

Descrição Resumida da Invenção [15] A invenção propõe um método que recebe um conjunto de documentos não estruturados na entrada, extrai e estrutura as suas informações, reorganiza e disponibiliza essas informações em arquivos para que possam ser consumidos por outros sistemas.

[16] O método para extração e estruturação de informações, conforme ilustrado no diagrama da Figura 1 , compreende: (1 ) separador de páginas de PDF, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (9) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11 ) organizador dos arquivos de saída, (12) agregador de metadados para enriquecimento da informação.

[17] Além do processo principal de extração descrito acima, a invenção propõe um processo complementar para geração de documentos sintéticos que emulam documentos reais, utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo principal de extração da informação. O método para geração dos documentos sintéticos e treinamento dos modelos de inteligência artificial, conforme ilustrado no diagrama da Figura 2, compreende: (1 ) Geração de documentos sintéticos, (2) Treinamento/Sintonização de modelos de visão computacional e classificação, (3) Controle da qualidade dos modelos sob conjuntos sintéticos e reais, (4) Avaliação de resultado de extração no domínio de óleo e gás (O&G), (5) Identificação de novos formatos ou alterações em formatos existentes, (6) Ajuste de parâmetros / Configuração de novos formatos sintéticos.

Breve Descrição dos Desenhos

[18] A presente invenção será descrita com mais detalhes a seguir, com referência às figuras em anexo que, de uma forma esquemática e não limitativa do escopo inventivo, representam exemplos de realização da mesma. Nos desenhos, têm-se:

- A Figura 1 ilustra um fluxograma do método para extração e estruturação de informações.

- A Figura 2 representa um diagrama que descreve o processo iterativo que compreende a geração de documentos sintéticos, o treinamento dos modelos baseados nesses documentos gerados e o controle de qualidade do modelo, até o ponto em que o modelo esteja apto a ser usado na extração de documentos no domínio de óleo e gás (O&G), com performance aceitável.

- A Figura 3 apresenta um exemplo de segmentação em blocos a partir de um documento, a classificação dos blocos conforme o tipo de conteúdo, e o processamento para extração da informação conforme a respectiva classificação de cada bloco (texto, imagem ou tabela).

- A Figura 4 representa as anomalias encontradas comumente em imagens de texto.

- A Figura 5 apresenta uma abordagem para melhorar a performance dos algoritmos de OCR.

Descrição Detalhada da Invenção

[19] Abaixo segue descrição detalhada de uma concretização preferida da presente invenção, de cunho exemplificativo e de forma nenhuma limitativo. Não obstante, ficará claro para um técnico no assunto, a partir da leitura desta descrição, possíveis concretizações adicionais da presente invenção ainda compreendidas pelas características essenciais e opcionais abaixo.

[20] Com a utilização da invenção, foi possível separar textos, tabelas e imagens de documentos, tomando possível o armazenamento e estruturação desses artefatos em formato inteligível por máquina. Com os artefatos informacionais persistidos, acessíveis e passíveis de leitura por máquina, é possível a indexação e subsequente recuperação desses documentos através de motores de busca. A invenção abre o caminho que documentos até então opacos para os sistemas informacionais, tenham seu conteúdo interno acessado e passível de consulta. Uma outra vantagem dessa abordagem é que foi possível dar um melhor tratamento às imagens e tabelas. Além disso, a inovação apresenta recursos para enriquecimento das informações extraídas, considerando a especificidade do domínio de óleo e gás (O&G), realizada a partir de extratores de metadados e de modelos computacionais de aprendizagem automática especializados, contemplando modelos para classificação de imagens, correção ortográfica e identificação de entidades nomeadas do domínio.

[21] O método para extração e estruturação de informações é um processo que recebe um documento não estruturado na entrada, extrai as suas informações, reorganiza e disponibiliza essas informações em arquivos que possam ser consumidos por outros sistemas. O método aqui proposto, conforme ilustrado no diagrama da Figura 1 , compreende: (1 ) separador de páginas do documento, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11 ) organizador dos arquivos de saída e (12) agregador de metadados para enriquecimento da informação.

[22] A primeira etapa do método consiste em (1 ) transformar as páginas dos documentos em imagens e utilizar (2) modelos de inteligência artificial baseados em redes neurais convolucionais para identificar os blocos principais que compõem essas páginas, segmentando em blocos de textos, imagens e tabelas. A título de exemplificação, a detecção, delimitação e classificação desses blocos podem ser feitas usando redes neurais profundas típicas para esse tipo de aplicação, como Mask R-CNN, mas não limitadas a estas. [23] Com isso, cada bloco recebe o tratamento respectivamente mais adequado. Os blocos identificados como tabelas são processados por um (3) extrator de tabelas, de forma que as informações contidas nas tabelas são estruturadas em um arquivo no formato CSV. As imagens com as suas respectivas legendas são submetidas a um (4) extrator de imagens, gravadas em arquivos individuais e processadas por um (5) modelo de classificação de imagens. Os blocos identificados como texto, lista ou equação são submetidos a um (6) extrator de texto e, caso não seja possível recuperar a informação diretamente do arquivo principal, são pré-processados por (7) modelos de visão computacional para melhoria da qualidade da imagem, para redução de ruído, deformações geométricas, ou irregularidades no fundo da imagem do texto. Tais modelos podem ser, por exemplo, mas sem perda de generalidade, baseados em redes neurais convolucionais acopladas a redes adversárias gerativas condicionais (CNN+GAN), que aprendem a mapear uma imagem de entrada com pouca qualidade a uma imagem correspondente com texto mais legível.

[24] Posteriormente, dessas imagens processadas, são extraídos os textos a partir de um (8) modelo de reconhecimento ótico de caracteres (OCR). Embora o problema tenha sido amplamente estudado há anos e que existam muitos algoritmos de OCR com alto desempenho, o assunto continua em desenvolvimento devido ao fato de que a maioria dos algoritmos não são robustos a anomalias presentes na imagem, tais como ruído, fundo irregular, inclinação de texto, deformações, caligrafia variada, entre outras. Exemplos são apresentados na figura 4. Normalmente, essas anomalias produzem uma ampla variedade de erros que vão desde a inclusão de acentos inexistentes até a identificação errônea dos caracteres. Por exemplo, um texto não alinhado pode causar que se misturem caracteres entre palavras de duas linhas consecutivas; uma imagem de texto borrado pode fazer com que se confundam caracteres semelhantes, etc. A Figura 5, mostra o fluxo de tratamento do texto da esquerda para a direita, pode-se observar que o sistema está dividido em quatro processos: o corretor de alinhamento do texto; em seguida uma rede neural que melhora a qualidade da imagem, nomeada como TextCleaner-Net; depois o modelo de reconhecimento ótico de caracteres (OCR), efetivamente; e finalmente, o classificador para determinar o tipo de fonte de cada palavra baseado na rede neural MobileNet.

[25] O corretor de alinhamento está composto por uma rede neural convolucional (CNN) que faz uma estimativa do ângulo de inclinação do texto na imagem, seguido de uma matriz de transformação geométrica que rotaciona a imagem na orientação contrária ao angulo estimado pela rede. A rede TextCleanerNet é uma rede Generativa Adversarial (GANs) que recebe como entrada uma imagem e produz uma versão limpa da mesma. O algoritmo de OCR selecionado foi o Tesseract 5, que representa o estado da arte na área, e que, além disso, possui suporte para multi-linguagem através de baixo custo computacional. Por fim, o detetor de fonte é um classificador baseado numa rede MobileNet, que é usada para determinar o tipo de fonte de cada palavra precedida pelo OCR. Para fazer isto, o classificador aproveita os boxes detectados pelo OCR para extrair os recortes de imagens utilizadas como input para o classificador.

[26] E m seguida, o conteúdo textual passa por etapas de (9) correção ortográfica considerando o vocabulário de domínio de óleo e gás (O&G) e (10) enriquecimento com metadados semânticos (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging), sendo armazenado em arquivos XML. Por fim, toda informação extraída é (11 ) organizada no organizador dos arquivos de saída e (12) agregadas novas informações de metadados. Resumidamente, as etapas do método são:

A) Transformar todas as páginas do documento em imagens (1 );

B) Utilizar o (2) modelo de detecção de blocos para identificar os elementos principais de cada página, segmentando em blocos de textos, imagens e tabelas; C) Extrair (3) tabela se o bloco for classificado como tabela, de forma que as informações nela contidas são estruturadas e armazenadas em um arquivo no formato CSV;

D) Extrair (4) imagens e suas respectivas legendas, caso o bloco seja identificado como imagem, gravadas em arquivos individuais e processadas por um (5) modelo de classificação de imagens para agregação de metadados adicionais;

E) Extrair (6) conteúdo se for texto, lista ou equação. Caso não seja possível recuperar a informação textual diretamente do arquivo principal, são pré- processados por (7) modelos de visão computacional para melhoria da qualidade da imagem, e posteriormente extraídos a partir de um (8) modelo de reconhecimento ótico de caracteres (OCR);

F) Para blocos do formato texto, conteúdo textual é também submetido a etapas de (9) correção ortográfica considerando o vocabulário de domínio de óleo e gás (O&G) e (10) enriquecimento com metadados semânticos (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging), sendo armazenado em arquivos XML;

G) Toda informação extraída pelo método é (11 ) organizada no organizador dos arquivos de saída e (12) agregadas novas informações para enriquecimento de metadados.

[27] E m geral, algoritmos de inteligência artificial, em especial os algoritmos de aprendizagem de máquinas utilizado nessa invenção, possuem duas etapas. Primeiro, são usados dados reais para treinar um modelo (por exemplo, são apresentadas páginas de documentos segmentadas em blocos para que o modelo "aprenda" a reconhecer os blocos). Na segunda fase - conhecida como inferência - o modelo já treinado é usado para realizar a mesma tarefa em documentos que ele nunca teve acesso. Quanto mais documentos para treinamento, melhor fica o resultado final. Nesse ponto que entra o gerador de documentos sintéticos. De maneira bastante simples é possível gerar milhões de documentos para treinamento do modelo e melhorar a sua qualidade final. [28] Por esse motivo, além do processo principal de extração descrito acima, existe um processo complementar de geração de documentos sintéticos, utilizado para criar milhares, ou até milhões, de documentos sintéticos que emulam documentos reais. Esses documentos sintéticos são utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo principal de extração da informação. O método para geração dos documentos sintéticos e treinamento dos modelos de inteligência artificial, conforme ilustrado no diagrama da Figura 2, compreende: (1) Geração de documentos sintéticos, (2) Treinamento/Sintonização de modelos de visão computacional e classificação, (3) Controle da qualidade dos modelos sob conjuntos sintéticos e reais, (4) Avaliação de resultado de extração no domínio de óleo e gás (O&G), (5) Identificação de novos formatos ou alterações em formatos existentes, (6) Ajuste de parâmetros / Configuração de novos formatos sintéticos.

[29] Alguns dos parâmetros a serem ajustados, e que estão associados aos formatos de documentos sintéticos, são: coordenadas e dimensões dos objetos na página; rótulo da anotação sintética para identificação do tipo do objeto (texto, equação, imagem, tabela, linha); agrupamento de objetos - possibilitando classificação de legendas de figuras, legendas de tabelas e legendas de equações; fonte (tipografia), estilo e tamanho da letra do texto. Durante a geração dos documentos sintéticos, valores para esses parâmetros são escolhidos de forma aleatória de acordo com faixas com probabilidades predefinidas para os formatos, e fragmentos de objetos sintetizados são posicionados na página obedecendo os valores escolhidos para esses parâmetros.

Claims

Reivindicações

1) MÉTODO PARA EXTRAÇÃO E ESTRUTURAÇÃO DE INFORMAÇÕES, caracterizado por compreender: (1 ) separador de páginas de PDF, (2) modelo de detecção e segmentação de blocos, (3) extrator de tabelas, (4) extrator de imagens, (5) modelo de classificação de imagens, (6) extrator de texto, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto, (11 ) organizador dos arquivos de saída e (12) agregador de metadados para enriquecimento da informação, algoritmo para geração de documentos sintéticos e modelos de Inteligência Artificial.

2) MÉTODO, de acordo com a reivindicação 1 , caracterizado por compreender as seguintes etapas: a) Transformar todas as páginas do documento em imagens (1 ); b) Utilizar o (2) modelo de detecção de blocos para identificar os elementos principais de cada página, segmentando em blocos de textos, imagens e tabelas; c) Extrair (3) tabela se o bloco for classificado como tabela, de forma que as informações nela contidas são estruturadas e armazenadas em um arquivo no formato CSV; d) Extrair (4) imagens e suas respectivas legendas, caso o bloco seja identificado como imagem, gravadas em arquivos individuais e processadas por um (5) modelo de classificação de imagens para agregação de metadados adicionais; e) Extrair (6) conteúdo se for texto, lista ou equação, mas caso não seja possível recuperar a informação textual diretamente do arquivo principal, são pré-processados por (7) modelos de visão computacional para melhoria da qualidade da imagem, e posteriormente extraídos a partir de um (8) modelo de reconhecimento ótico de caracteres (OCR); f) Para blocos do formato texto, conteúdo textual é também submetido a etapas de (9) correção ortográfica considerando o vocabulário de domínio de óleo e gás (O&G) e (10) enriquecimento com metadados semânticos (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging), sendo armazenado em arquivos XML; g) Toda informação extraída é (11 ) organizada no organizador dos arquivos de saída e (12) agregadas novas informações para enriquecimento de metadados.

3) MÉTODO, conforme a reivindicação 1 e 2, caracterizado pelo algoritmo de geração de documentos sintéticos para criar uma base de treinamento composta por milhões de documentos sintéticos, que emulam documentos reais comumente utilizados pela indústria de óleo e gás (O&G) em diferentes variações de layouts, através do gerador de documentos sintéticos.

4) MÉTODO, conforme a reivindicação 3, caracterizado pelos documentos sintéticos serem utilizados para treinar e atualizar os modelos de inteligência artificial usados no processo principal de extração da informação.

5) MÉTODO, conforme a reivindicação 3 ou 4, caracterizado por compreender as seguintes etapas: a) Geração de documentos sintéticos (1 ), em diferentes configurações de layout; b) Treinamento/Sintonização de modelos de visão computacional e classificação (2); c) Controle da qualidade dos modelos sob conjuntos sintéticos e reais (3); d) Avaliação de resultado de extração no domínio de óleo e gás (O&G) (4); e) Identificação de novos formatos ou alterações em formatos existentes (5); f) Ajuste de parâmetros / Configuração de novos formatos sintéticos (6).

6) MÉTODO, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo treinamento e atualização de todos os modelos de inteligência artificial empregados no método serem contemplados nas etapas , de (2) modelo 14 de detecção e segmentação em blocos, (5) modelo de classificação de imagens, (7) modelo de visão computacional para melhoria da qualidade da imagem dos textos, (8) modelo de reconhecimento ótico de caracteres OCR, (09) modelo para correção ortográfica, (10) modelos para enriquecimento semântico do texto (incluindo processos para reconhecimento de entidades nomeadas, identificação de relações e Part of Speech Tagging).