WO2022020915A1

WO2022020915A1 - Sistema computacional para compressão de dados de tipos diferentes e independentes entre si

Info

Publication number: WO2022020915A1
Application number: PCT/BR2020/050307
Authority: WO
Inventors: Leonardo MELO
Original assignee: Melo Leonardo
Priority date: 2020-07-26
Filing date: 2020-08-07
Publication date: 2022-02-03
Also published as: BR102020015189A2

Abstract

Sistema computacional para compressão de qualquer tipo de arquivo, capaz de escolher os melhores algoritmos para compactação de cada arquivo, em função de seu tipo e sua origem. O sistema inclui um método de aprendizado baseado em Machine Learning e utiliza ferramentas de High Processing Computing, realizando processamento paralelizado.

Description

SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES

E INDEPENDENTES ENTRE SI

CAMPO DA INVENÇÃO

[01] Dados digitais são criados de formas diferentes e a todo tempo, normalmente sem controle, supervisão ou administração. Esse grande volume de dados digitais gerados, a necessidade de seu armazenamento e a demanda por sua transmissão para disponibilização em ambientes físicos distintos e longínquos têm se constituído num dos grandes problemas tecnológicos para a humanidade já há algum tempo.

[02] Uma das soluções adotadas para superar tais problemas consiste na compactação dos arquivos originais através de algoritmos matemáticos aplicados computacionalmente. Isso propicia tanto uma economia no hardware usado para o armazenamento de tais arquivos, quanto permite uma maior velocidade de transmissão desses arquivos. Entretanto, algumas técnicas utilizadas para a compressão de dados não permitem sua recuperação exata, ocasionando perdas de qualidade de inúmeras naturezas, como perdas de resolução, no caso de imagens, perdas de qualidade, no caso de áudios e de vídeos etc. Tais perdas podem inclusive provocar erros fatais, como no caso de imagens usadas para a realização de diagnósticos médicos.

[03] Por outro lado, é comum que mídias de áudios, imagens e vídeos sejam geradas em resoluções superiores àquelas possíveis de serem reproduzidas pelos periféricos de saída, e até mesmo superiores à capacidade humana de interpretá-las, o que constitui um desperdício se tais mídias forem destinadas à reprodução em periféricos, exclusivamente para apreciação humana.

[04] Outro problema é que existem milhares de formatos distintos de arquivos digitais e vários algoritmos para compactação, estando a eficiência de um algoritmo de compactação diretamente associada ao formato de arquivo a ser compactado. Assim, alguns algoritmos obtêm maiores taxas de compactação em arquivos de imagens, outros em arquivos de texto, outros são dedicados a um formato proprietário específico etc.

[05] Por fim, o processo de leitura dos arquivos compactados também pode ser um gargalo tecnológico na etapa de disponibilização dos arquivos, quando a compactação os transforma em um novo formato de arquivo, impedindo sua leitura sem antes proceder a uma descompactação para retorno ao seu formato original.

[06] Isto posto, conclui-se que reduzir o volume de geração de dados digitais desnecessários, otimizar o armazenamento de arquivos extensos, viabilizar sua transmissão e oportunizar sua recuperação remota de maneira fidedigna e em tempo hábil para sua manipulação e para tomada de decisões têm sido desafios enfrentados dia a dia por tecnologistas. Mas pela infinidade de formatos de arquivos, a criação de um modelo universal de algoritmo para compactação de arquivos, capaz de ser eficiente para qualquer formato de arquivo e passível de ser transmitido de maneira otimizada por quaisquer meios de comunicação, está longe de se tornar uma realidade próxima.

ESTADO DA TÉCNICA

[07] Ao avaliar as soluções inerentes aos problemas ora expostos, as quais compõem o atual estado da técnica, percebe-se uma concentração nos IPCs G06K-009/36 e H04N-019/00. Também são usualmente encontradas propostas de soluções igualmente aplicáveis nos IPCs G06T-009/00 e H03M-007/00, estando as patentes que mais se aproximam de solucionar tais problemas, as listadas a seguir.

[08] WO201970345 - "General-purpose lossless data compression using a recurrent neural network"; EP3304746 - "Methods, devices and Systems for hybrid data compression and decompression"; US9953436 - "Low delay low complexity lossless compression system"; EP2700234 - "Method and device for lossy compres s-encoding data"; US9436991 - "Method, device and system for obtaining a medicai image data set"; US9317932 - "Method and apparatus for medicai data compression for data processing in a cloud system"; US7899262 - "Data compression apparatus and data compressing program storage médium"; US20080285866 - " Apparatus and method for image data compression"; US20110075943 - "Image processing apparatus"; US8160372 - "Optimized backward reference selection with reduced entropy for image compression"; EP2334237 - "Adaptive compression of computed tomography projection data"; e US7884742 - "System and method for efficient compression of digital data"

[09] Entre as empresas de base tecnológica que mais avançaram em soluções concernentes aos problemas aqui destacados, as quais figuram inclusive como titulares de algumas das patentes listadas anteriormente, estão: Google; Siemens Healthcare; GE; Texas Instruments; Intel; Samsung; Konica Minolta; Cannon; Dropbox; Fuji Film; Microsoft; Philips Healthcare; Adobe e AWS. Ao analisar a fundo as soluções propostas por tais empresas, observa-se o seguinte:

[10] A taxa máxima de compressão de dados sem perdas obtida na compactação de imagens, sejam imagens médicas, imagens de origem analógica ou imagens de origem digital é de 50% nas tecnologias desenvolvidas pela GE, Konica Minolta, Cannon, Fuji e Philips Healthcare. As tecnologias de compactação apresentadas por tais empresas permitem a recuperação dos arquivos diretamente em seu formato original.

[11] As tecnologias aplicadas à compactação de arquivos dos tipos Imagens 3D, Streaming de Video, Audio, documentos XMF e PDF apresentam perdas após a compactação e não permitem a recuperação direta do arquivo compactado, por alterá-lo para um novo formato.

[12] Pelo exposto, o atual estado da técnica ainda carece de solucionar de uma só vez os problemas elencados inicialmente.

SOFUÇÃO PROPOSTA

[13] A Invenção aqui descrita compreende um sistema de compressão para qualquer tipo de informação entregue, analiticamente. Todo o processo de compressão é feito observando a que se destina o dado que será comprimido. O objetivo é comprimir o dado o máximo possível, em função do seu destino, seja esse o armazenamento, a exibição, a transmissão ou a disponibilização remota, de forma a otimizar as próximas etapas de uso de tais dados, mitigando possíveis perdas.

[14] As características técnicas principais, não encontradas simultaneamente em outros sistemas que se propõem a compactar dados digitais são: a identificação individual do tipo de arquivo, entre os mais de 2100 (dois mil e cem) tipos de arquivos existentes hoje, com previsão da ampliação quando da criação de novos tipos de arquivos; e a definição de qual método de compressão será o mais adequado, entre mais de uma dezena existentes atualmente, em função do tipo de arquivo a ser comprimido e da sua destinação, seja ela a de armazenamento, de observação ou de transmissão, prevendo a inserção de novos algoritmos de compactação.

[15] Para tal, foi desenvolvido um método de aprendizado em Machine Learning, capaz de avaliar entre diversas ferramentas matemáticas convencionais, qual delas melhor se adapta à natureza do dado, bem como à sua destinação, objetivando alcançar a melhor taxa de compressão sem perdas. Dessa forma, à medida que o sistema vai sendo utilizado, a eficiência da compressão é reavaliada, oportunizando uma aprendizagem de máquina, a qual será acrescida ao processo de decisão das demandas futuras.

[16] No intuito de obter maior celeridade à compressão ou descompressão dos dados que estão sendo manipulados, o sistema utiliza ferramentas de High Processing Computing, realizando processamento paralelizado, visando a comprimir ou descomprimir cada arquivo. Trata-se de um contexto de “Máquina de Processos”, onde as necessidades vão sendo encaminhadas para processamento conforme a demanda de cada tipo unitário de serviço.

[17] O sistema conta com três tipos de processos para compressão, em função: do arquivo a ser compactado já ter sido processado anteriormente ou não pelo sistema; da origem do arquivo; do formato do arquivo; das características do arquivo, como por exemplo, se possui características lineares, se é vetorial, se é textual, se é apenas um dado binário, entre outras análises. Tais processos para compressão, denominados Compressão Tipo A, Compressão Tipo B e Compressão Tipo C, tem como principais características as descritas a seguir.

[18] O processo de Compressão Tipo A, é aplicado quando os arquivos a serem compactados são novos para o sistema, nunca tendo sido identificados anteriormente, e cujo método de compressão mais eficiente ainda não foi determinado. Para arquivos já processados anteriormente pelo sistema e cujo método de compressão mais eficiente já fora determinado, fazendo parte do acervo de conhecimento do sistema, poderão ser utilizados os processos de Compressão Tipo B ou Tipo C.

[19] O que diferencia os processos de Compressão Tipo B e C é o tipo de arquivo resultante da compressão. No processo de Compressão Tipo B o arquivo final possui o mesmo formato do arquivo original podendo ser aberto diretamente para leitura. Já no processo de Compressão Tipo C o formato do arquivo final é alterado, necessitando ser descompactado antes de proceder à sua leitura.

[20] Apesar do ideal ser a manutenção do arquivo em seu formato original, nem sempre esse procedimento é possível, ou nem sempre obtém-se a maior compactação. Portanto, nos casos em que o ganho efetivo na compactação por mudança de formato do arquivo original é suficientemente mais interessante para seu armazenamento e transmissão do que a elevação de seu tempo de disponibilização remota ou local, pela necessidade de sua descompactação, a opção pelo processo de Compressão Tipo C torna-se a melhor saída.

[21] Como premissas do sistema, servindo de fundamento para a construção dos códigos, estão: utilização de arquivos temporários, ora exclusivos ao programa, outras, resultados parciais ou finais do processo de outros códigos; todos os dados são temporários, com exclusão ao final da operação do processo do sistema, após confecção do resultado esperado; todos são chamados por um contexto de Máquina de Processos, onde o servidor executa a aplicação e fiscaliza seu processamento, gerando relatórios; os subprocessos são construídos conforme essa visualização, sendo que cada subprocesso fiscaliza os seus processos-filhos; cada processo é dotado de capacidade para criar, utilizar e apagar diretórios e subdiretórios contendo seus processos e, ao seu final, devem ser apagados regularmente; o processo correto, realiza criação e desconstrução de todo seu contexto e ao final deve gerar relatório em log para avaliação do processo e retornos; o objetivo de cada código é especificado no início de sua confecção, sendo que caso alguma informação possa ser colocada em segundo plano ou tornada paralela à mesma, é separado o código e construído um processo-filho independente, meramente chamado por ele e se em revisão puder ser separado do processo pai, torna-se independente, fazendo parte da Máquina de Processos; os códigos podem gerar novos códigos de execução, sempre com a premissa do paralelismo; dentro do processo de avaliação de logs, encontram-se os tempos de construção das informações mediante as necessidades. Finalmente, é avaliado se o código precisa ser remodelado, conforme o tempo de retomo do mesmo, em comparação aos tempos anteriormente gastos para processos semelhantes.

[22] As bibliotecas utilizadas pelo sistema são catalogadas conforme níveis, seguindo a literatura: quanto mais utilizada ela for, mais próxima ela deverá estar do kernel do sistema operacional; caso esteja muito próxima, mas não se possa inseri-la diretamente, há que se obter um local físico para armazenamento de massa que seja o mais próximo da velocidade do Kernel, como por exemplo, optando por discos de estado sólido (SSDs), ao invés de discos rígidos (HDs), mitigando possíveis perdas de desempenho no acesso a tais bibliotecas.

[23] Quanto aos arquivos temporários: aqueles de utilização mais imediata, devem ser inseridos em local físico para armazenamento de massa que trabalhe o mais próximo da velocidade do Kernel, como por exemplo, discos de estado sólido (SSDs); os que representarem bufferização e não tiverem necessidades maiores, poderão ser inseridos em hardware de mais baixa velocidade; por fim, aqueles com utilização mais rara, devem ser colocados em ambientes de data center remotos, com custos mais baixos de guarda, com recuperação através de sistemas de arquivos, com processos de cópia por sincronia e chaves de criptografia para utilização. Cabe destacar que qualquer processo que envolver transferência de arquivos deverá lançar mão de sistemas de comunicação previamente desenhados para tal finalidade.

[24] As macro etapas do sistema são descritas a seguir.

[25] O arquivo é transferido para o sistema de compressão em lotes ou singularmente, sendo sua compressão realizada item a item.

[26] O sistema de compressão proposto possui listas de compressão da biblioteca de identificação, que contém informações dos melhores resultados obtidos na compressão de arquivos já processados anteriormente pelo sistema.

[27] Caso o arquivo analisado seja identificado, o sistema o comprime lançando mão de estudos prévios de métodos e processos conhecidos dos tipos "A", "B" e "C".

[28] Caso o arquivo não tenha sido identificado nas listas de compressão da biblioteca de identificação, será avaliada: a origem dos dados; se ele possui características lineares; e se pode ser identificado como arquivo de multimídia (foto, áudio ou vídeo) através de uma biblioteca de identificação de multimídias com mais de 160 tipos de mídias.

[29] Caso não seja linear, a compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "C".

[30] Sendo um arquivo de mídia é então possível convertê-lo em uma modelagem padronizada e conhecida em processos anteriores (imagem: PNG; áudio:MP3; vídeo: MP4) prosseguindo assim para a compressão do arquivo.

[31] Não sendo identificado como arquivo de mídia o arquivo será lido por visualizadores tipo "B " que analisarão a conversão utilizando processos conhecidos e caso seja um arquivo de dados vetoriais (autocad, lidar etc) a compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "A". O arquivo será convertido em modo textual ASCII com conversores tradicionais entre 10 processos contextualizados anteriormente por bibliotecas de compressão convencionais.

[32] Não sendo identificado como arquivo vetorial o arquivo será analisado como arquivo binário, cuja compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "A".

[33] Sendo identificado como arquivo vetorial o arquivo será convertido para hexadecimal com conversores tradicionais entre 10 processos contextualizados anteriormente por bibliotecas de compressão convencionais.

[34] Não sendo identificado como arquivo binário o arquivo será analisado como arquivo textual (doc, pdf etc). Sendo identificado como arquivo textual em uma biblioteca de avaliação de documentos com mais de 20 origens, o arquivo será convertido para Schema XML e comprimido pelo processo de compressão de dados XML podendo ser lido diretamente por visualizadores tipo "BI".

[35] Não sendo identificado como arquivo textual a compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "A".

[36] Em casos de aplicação dos processos tipos "A" e "B", o sistema analisará a possibilidade de compactar novamente através de processo tipo "C" realizando nova compactação antes de armazenar o arquivo, liberar o arquivo para a transferência e finalizar o processo.

[37] Após definido o tipo de compressão a ser utilizada, o sistema processará o arquivo para a rotina de compressão adequada, cujos subprocessos estão detalhados a seguir.

PROCESSO DE COMPRESSÃO TIPO A

[38] Inicialmente é realizada uma análise do dado, objetivando enquadrá-lo num dos tipos conhecidos de compressão. Os dois possíveis formatos são: linear e não linear. No formato linear o arquivo é utilizado diretamente. Quem tiver o melhor resultado de compressão, em forma paralela, é escolhida como modelo; é feita uma análise entre os algoritmos de compressão mapeados e teorizados (Deflate, Burrows-Wheeler”, Lempel-Ziv-Markov Chin”, LZ77, PAQ6 etc).

[39] Já no formato não-linear, o arquivo passa por processo mapeado de embaralhamento: quem tiver o melhor resultado de compressão, em forma paralela, é escolhido como modelo. Em seguida é feita a análise entre os algoritmos de compressão mapeados e teorizados (Deflate, Burrows- Wheeler”, Lempel-Ziv-Markov Chin”, LZ77, PAQ6 etc).

[40] Ao final do processo o algoritmo encontrado, identificado como o mais adequado, é armazenado nas tabelas de identificação, gerando um acervo de conhecimento que passará a fazer parte do aprendizado da máquina, que é o sistema em si.

PROCESSO DE COMPRESSÃO TIPO B

[41] Inicialmente os arquivos são identificados segundo seu tipo e agrupados para tratamento diferenciado. Documentos (planilhas, apresentações de slides, documentos de texto e outros): converte-se em padrão XML e em seguida é feito o mapeamento e avaliação de compressão interna.

[42] Arquivos de vídeo e áudio são analisados e convertidos dentro de biblítocas pré-analisadas para conversão (H264, MP4 etc).

[43] Arquivos de imagens Fotográgicas tem seu padrão alterado para tipo geral PNG, e reaplicando bibliotecas de compressão, de duas formas distintas, em função da origem de tais imagens: No caso de imagens oriundas de câmeras fotográficas (DPI < 150), procede-se à conversão para JPEG e retorna-se ao formato original; já no caso de imagens reconstruídas (DPI => 150), usa-se a Transformada de Fourier e Lógica Fuzzy para sua compressão para, em seguida, retorná-la ao formato original.

[44] Os arquivos no formato PDF originários de digitalização passam por um ajuste de sua resolução DPI (por exemplo para 150 DPI) para que seja possível sua leitura tradicional, posto que tais arquivos deverão ser exclusivamente exibidos em periféricos de saída, para contemplação e análise por pessoas. Já os arquivos no formato PDF originários da integração de imagens serão analisados como fotos, seguindo a modelagem anteriormente descrita para tal. [45] Para os arquivos do tipo Imagem médica (por exemplo no padrão DICOM), dever-se-á obter o arquivo gerado originalmente em formato RAW. Posteriormente, proceder-se-á a uma análise da origem do arquivo (tipo e fabricante de equipamento gerador), para então convertê-la conforme avaliação de qualidade de imagem. Caso esteja em alta resolução, utilizar o mesmo método aplicado a foto de imagens reconstruídas, descrito anteriormente.

[45] Imagem TIFF (3D): analisar imagem a imagem, descontruindo a informação e, dependendo da origem do dado, procede-se a uma análise vetorial ou uma análise por imagem, onde analisa-se utilizando o mesmo padrão aplicado à Fotos, e reconstrói-se.

[47] Para arquivos compactados conhecido, procede-se à reabertura dos arquivos, visando descompactação interna dos dados conforme modelagem conhecidas ou não conhecidas.

[48] Por fim, avalia-se se quem for ler o arquivo poderá fazê-lo após processo de descompressão: quando a transferência é feita para um ambiente externo, mas dentro do sistema, que poderá realizar descompressão antes da entrega.Se sim, aplica-se após processo B com os compressores mapeados.

PROCESSO DE COMPRESSÃO TIPO C

[49] Procede-se à identificação prévia de linear ou não linear, e executa-se a compactação conforme tipo e histórico já conhecido pelo sistema.

Claims

REIVINDICAÇÕES

1. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, caracterizado por receber arquivos individuais ou em lote, identificar o tipo de cada arquivo, por exemplo através de sua assinatura digital, e escolher entre os algoritmos de compressão existentes qual é o mais adequado para obter a maior compactação possível.

2. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com a reivindicação 1, caracterizado por categorizar os arquivos e agrupá-los por tipo de algoritmo de compressão mais eficiente, salvando tal resultado em bibliotecas que comporão um histórico do sistema para auxiliar a tomada de decisões futuras.

3. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com as reivindicações 1 e 2, caracterizado por lançar mão de um método de aprendizado em Machine Learning, para acelerar o processo de escolha do algoritmo de compressão mais eficaz, por usar o aprendizado de máquina, o qual incrementa as bibliotecas do sistema a cada teste previamente realizado, salvando cada decisão tomada.

4. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com a reivindicação 1, caracterizado por utilizar ferramentas de High Processing Computing, realizando processamento paralelizado, visando a comprimir ou descomprimir cada arquivo, num contexto de “Máquina de Processos”, onde as necessidades vão sendo encaminhadas para processamento conforme a demanda de cada tipo unitário de serviço.

5. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com a reivindicação 1, 2 e 3, caracterizado por utilizar-se de testes de performance dos algoritmos de compactação existentes, aplicando-os a cada arquivo a ser compactado, salvando o resultado bibliotecas, que coporão a base de conhecimento do sistema.