WO2022020915A1 - Sistema computacional para compressão de dados de tipos diferentes e independentes entre si - Google Patents

Sistema computacional para compressão de dados de tipos diferentes e independentes entre si Download PDF

Info

Publication number
WO2022020915A1
WO2022020915A1 PCT/BR2020/050307 BR2020050307W WO2022020915A1 WO 2022020915 A1 WO2022020915 A1 WO 2022020915A1 BR 2020050307 W BR2020050307 W BR 2020050307W WO 2022020915 A1 WO2022020915 A1 WO 2022020915A1
Authority
WO
WIPO (PCT)
Prior art keywords
compression
file
type
compressing data
computational system
Prior art date
Application number
PCT/BR2020/050307
Other languages
English (en)
French (fr)
Inventor
Leonardo MELO
Original Assignee
Melo Leonardo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Melo Leonardo filed Critical Melo Leonardo
Publication of WO2022020915A1 publication Critical patent/WO2022020915A1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264

Definitions

  • the process of reading the compressed files can also be a technological bottleneck in the stage of making the files available, when the compression transforms them into a new file format, preventing its reading without first decompressing it to return to its original format.
  • the invention described herein comprises a compression system for any type of information delivered analytically.
  • the entire compression process is carried out by observing what the data to be compressed is intended for.
  • the objective is to compress the data as much as possible, depending on its destination, be it storage, display, transmission or remote availability, in order to optimize the next steps in the use of such data, mitigating possible losses.
  • the system uses High Processing Computing tools, performing parallel processing, in order to compress or decompress each file. It is a context of "Process Machine", where the needs are being forwarded for processing according to the demand of each unitary type of service.
  • the system has three types of compression processes, depending on whether the file to be compressed has already been processed previously or not by the system; from the source of the file; the file format; the characteristics of the file, such as if it has linear characteristics, if it is vectorial, if it is textual, if it is just a binary data, among other analyses.
  • Such compression processes called Type A Compression, Type B Compression and Type C Compression, have as main characteristics those described below.
  • the Type A Compression process is applied when the files to be compressed are new to the system, never having been previously identified, and whose most efficient compression method has not yet been determined. For files previously processed by the system and whose most efficient compression method has already been determined, forming part of the system's knowledge collection, the Type B or Type C Compression processes can be used.
  • Type B Compression process the final file has the same format as the original file and can be opened directly for reading.
  • Type C Compression process the final file format is changed, needing to be decompressed before proceeding with its reading.
  • the libraries used by the system are cataloged according to levels, following the literature: the more used it is, the closer it should be to the operating system kernel; if it is very close, but it cannot be inserted directly, it is necessary to obtain a physical location for mass storage that is as close to the kernel speed as possible, for example, opting for solid state disks (SSDs), instead of instead of hard disks (HDs), mitigating possible performance losses in accessing such libraries.
  • SSDs solid state disks
  • HDs hard disks
  • the file is transferred to the compression system in batches or singly, and its compression is performed item by item.
  • the proposed compression system has compression lists of the identification library, which contains information on the best results obtained in the compression of files previously processed by the system.
  • the file has not been identified in the compression lists of the identification library, the following will be evaluated: the origin of the data; whether it has linear characteristics; and whether it can be identified as a multimedia file (photo, audio or video) through a multimedia identification library with more than 160 types of media.
  • the file will be read by type "B" viewers that will analyze the conversion using known processes and if it is a vector data file (autocad, lidar etc) the final compression cannot be opened directly by reading, only by type "A" decompression process.
  • the file will be converted into textual ASCII mode with traditional converters between 10 processes previously contextualized by conventional compression libraries.
  • the file will be analyzed as a textual file (doc, pdf etc). Being identified as a textual file in a document evaluation library with more than 20 sources, the file will be converted to XML Schema and compressed by the XML data compression process and can be read directly by "BI" type viewers.
  • the file goes through a mapped scrambling process: whoever has the best compression result, in parallel form, is chosen as the model. Then, an analysis is made between the mapped and theorized compression algorithms (Deflate, Burrows-Wheeler”, Lempel-Ziv-Markov Chin”, LZ77, PAQ6 etc).
  • the algorithm found, identified as the most suitable is stored in the identification tables, generating a body of knowledge that will become part of the machine learning, which is the system itself.
  • Video and audio files are parsed and converted into pre-parsed scripts for conversion (H264, MP4 etc).
  • the files in PDF format originating from digitalization undergo an adjustment of their DPI resolution (for example to 150 DPI) so that their traditional reading is possible, since such files must be exclusively displayed on output peripherals, for contemplation and analysis by people.
  • the files in PDF format originating from the integration of images will be analyzed as photos, following the modeling previously described for this purpose.
  • the original generated file For files of the Medical Image type (for example in the DICOM standard), the original generated file must be obtained in RAW format. Subsequently, an analysis of the origin of the file (type and manufacturer of generating equipment) will be carried out, in order to then convert it according to the image quality assessment. If it is in high resolution, use the same method applied to the photo of reconstructed images, described above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Sistema computacional para compressão de qualquer tipo de arquivo, capaz de escolher os melhores algoritmos para compactação de cada arquivo, em função de seu tipo e sua origem. O sistema inclui um método de aprendizado baseado em Machine Learning e utiliza ferramentas de High Processing Computing, realizando processamento paralelizado.

Description

SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES
E INDEPENDENTES ENTRE SI
CAMPO DA INVENÇÃO
[01] Dados digitais são criados de formas diferentes e a todo tempo, normalmente sem controle, supervisão ou administração. Esse grande volume de dados digitais gerados, a necessidade de seu armazenamento e a demanda por sua transmissão para disponibilização em ambientes físicos distintos e longínquos têm se constituído num dos grandes problemas tecnológicos para a humanidade já há algum tempo.
[02] Uma das soluções adotadas para superar tais problemas consiste na compactação dos arquivos originais através de algoritmos matemáticos aplicados computacionalmente. Isso propicia tanto uma economia no hardware usado para o armazenamento de tais arquivos, quanto permite uma maior velocidade de transmissão desses arquivos. Entretanto, algumas técnicas utilizadas para a compressão de dados não permitem sua recuperação exata, ocasionando perdas de qualidade de inúmeras naturezas, como perdas de resolução, no caso de imagens, perdas de qualidade, no caso de áudios e de vídeos etc. Tais perdas podem inclusive provocar erros fatais, como no caso de imagens usadas para a realização de diagnósticos médicos.
[03] Por outro lado, é comum que mídias de áudios, imagens e vídeos sejam geradas em resoluções superiores àquelas possíveis de serem reproduzidas pelos periféricos de saída, e até mesmo superiores à capacidade humana de interpretá-las, o que constitui um desperdício se tais mídias forem destinadas à reprodução em periféricos, exclusivamente para apreciação humana.
[04] Outro problema é que existem milhares de formatos distintos de arquivos digitais e vários algoritmos para compactação, estando a eficiência de um algoritmo de compactação diretamente associada ao formato de arquivo a ser compactado. Assim, alguns algoritmos obtêm maiores taxas de compactação em arquivos de imagens, outros em arquivos de texto, outros são dedicados a um formato proprietário específico etc.
[05] Por fim, o processo de leitura dos arquivos compactados também pode ser um gargalo tecnológico na etapa de disponibilização dos arquivos, quando a compactação os transforma em um novo formato de arquivo, impedindo sua leitura sem antes proceder a uma descompactação para retorno ao seu formato original.
[06] Isto posto, conclui-se que reduzir o volume de geração de dados digitais desnecessários, otimizar o armazenamento de arquivos extensos, viabilizar sua transmissão e oportunizar sua recuperação remota de maneira fidedigna e em tempo hábil para sua manipulação e para tomada de decisões têm sido desafios enfrentados dia a dia por tecnologistas. Mas pela infinidade de formatos de arquivos, a criação de um modelo universal de algoritmo para compactação de arquivos, capaz de ser eficiente para qualquer formato de arquivo e passível de ser transmitido de maneira otimizada por quaisquer meios de comunicação, está longe de se tornar uma realidade próxima.
ESTADO DA TÉCNICA
[07] Ao avaliar as soluções inerentes aos problemas ora expostos, as quais compõem o atual estado da técnica, percebe-se uma concentração nos IPCs G06K-009/36 e H04N-019/00. Também são usualmente encontradas propostas de soluções igualmente aplicáveis nos IPCs G06T-009/00 e H03M-007/00, estando as patentes que mais se aproximam de solucionar tais problemas, as listadas a seguir.
[08] WO201970345 - "General-purpose lossless data compression using a recurrent neural network"; EP3304746 - "Methods, devices and Systems for hybrid data compression and decompression"; US9953436 - "Low delay low complexity lossless compression system"; EP2700234 - "Method and device for lossy compres s-encoding data"; US9436991 - "Method, device and system for obtaining a medicai image data set"; US9317932 - "Method and apparatus for medicai data compression for data processing in a cloud system"; US7899262 - "Data compression apparatus and data compressing program storage médium"; US20080285866 - " Apparatus and method for image data compression"; US20110075943 - "Image processing apparatus"; US8160372 - "Optimized backward reference selection with reduced entropy for image compression"; EP2334237 - "Adaptive compression of computed tomography projection data"; e US7884742 - "System and method for efficient compression of digital data"
[09] Entre as empresas de base tecnológica que mais avançaram em soluções concernentes aos problemas aqui destacados, as quais figuram inclusive como titulares de algumas das patentes listadas anteriormente, estão: Google; Siemens Healthcare; GE; Texas Instruments; Intel; Samsung; Konica Minolta; Cannon; Dropbox; Fuji Film; Microsoft; Philips Healthcare; Adobe e AWS. Ao analisar a fundo as soluções propostas por tais empresas, observa-se o seguinte:
[10] A taxa máxima de compressão de dados sem perdas obtida na compactação de imagens, sejam imagens médicas, imagens de origem analógica ou imagens de origem digital é de 50% nas tecnologias desenvolvidas pela GE, Konica Minolta, Cannon, Fuji e Philips Healthcare. As tecnologias de compactação apresentadas por tais empresas permitem a recuperação dos arquivos diretamente em seu formato original.
[11] As tecnologias aplicadas à compactação de arquivos dos tipos Imagens 3D, Streaming de Video, Audio, documentos XMF e PDF apresentam perdas após a compactação e não permitem a recuperação direta do arquivo compactado, por alterá-lo para um novo formato.
[12] Pelo exposto, o atual estado da técnica ainda carece de solucionar de uma só vez os problemas elencados inicialmente.
SOFUÇÃO PROPOSTA
[13] A Invenção aqui descrita compreende um sistema de compressão para qualquer tipo de informação entregue, analiticamente. Todo o processo de compressão é feito observando a que se destina o dado que será comprimido. O objetivo é comprimir o dado o máximo possível, em função do seu destino, seja esse o armazenamento, a exibição, a transmissão ou a disponibilização remota, de forma a otimizar as próximas etapas de uso de tais dados, mitigando possíveis perdas.
[14] As características técnicas principais, não encontradas simultaneamente em outros sistemas que se propõem a compactar dados digitais são: a identificação individual do tipo de arquivo, entre os mais de 2100 (dois mil e cem) tipos de arquivos existentes hoje, com previsão da ampliação quando da criação de novos tipos de arquivos; e a definição de qual método de compressão será o mais adequado, entre mais de uma dezena existentes atualmente, em função do tipo de arquivo a ser comprimido e da sua destinação, seja ela a de armazenamento, de observação ou de transmissão, prevendo a inserção de novos algoritmos de compactação.
[15] Para tal, foi desenvolvido um método de aprendizado em Machine Learning, capaz de avaliar entre diversas ferramentas matemáticas convencionais, qual delas melhor se adapta à natureza do dado, bem como à sua destinação, objetivando alcançar a melhor taxa de compressão sem perdas. Dessa forma, à medida que o sistema vai sendo utilizado, a eficiência da compressão é reavaliada, oportunizando uma aprendizagem de máquina, a qual será acrescida ao processo de decisão das demandas futuras.
[16] No intuito de obter maior celeridade à compressão ou descompressão dos dados que estão sendo manipulados, o sistema utiliza ferramentas de High Processing Computing, realizando processamento paralelizado, visando a comprimir ou descomprimir cada arquivo. Trata-se de um contexto de “Máquina de Processos”, onde as necessidades vão sendo encaminhadas para processamento conforme a demanda de cada tipo unitário de serviço.
[17] O sistema conta com três tipos de processos para compressão, em função: do arquivo a ser compactado já ter sido processado anteriormente ou não pelo sistema; da origem do arquivo; do formato do arquivo; das características do arquivo, como por exemplo, se possui características lineares, se é vetorial, se é textual, se é apenas um dado binário, entre outras análises. Tais processos para compressão, denominados Compressão Tipo A, Compressão Tipo B e Compressão Tipo C, tem como principais características as descritas a seguir.
[18] O processo de Compressão Tipo A, é aplicado quando os arquivos a serem compactados são novos para o sistema, nunca tendo sido identificados anteriormente, e cujo método de compressão mais eficiente ainda não foi determinado. Para arquivos já processados anteriormente pelo sistema e cujo método de compressão mais eficiente já fora determinado, fazendo parte do acervo de conhecimento do sistema, poderão ser utilizados os processos de Compressão Tipo B ou Tipo C.
[19] O que diferencia os processos de Compressão Tipo B e C é o tipo de arquivo resultante da compressão. No processo de Compressão Tipo B o arquivo final possui o mesmo formato do arquivo original podendo ser aberto diretamente para leitura. Já no processo de Compressão Tipo C o formato do arquivo final é alterado, necessitando ser descompactado antes de proceder à sua leitura.
[20] Apesar do ideal ser a manutenção do arquivo em seu formato original, nem sempre esse procedimento é possível, ou nem sempre obtém-se a maior compactação. Portanto, nos casos em que o ganho efetivo na compactação por mudança de formato do arquivo original é suficientemente mais interessante para seu armazenamento e transmissão do que a elevação de seu tempo de disponibilização remota ou local, pela necessidade de sua descompactação, a opção pelo processo de Compressão Tipo C torna-se a melhor saída.
[21] Como premissas do sistema, servindo de fundamento para a construção dos códigos, estão: utilização de arquivos temporários, ora exclusivos ao programa, outras, resultados parciais ou finais do processo de outros códigos; todos os dados são temporários, com exclusão ao final da operação do processo do sistema, após confecção do resultado esperado; todos são chamados por um contexto de Máquina de Processos, onde o servidor executa a aplicação e fiscaliza seu processamento, gerando relatórios; os subprocessos são construídos conforme essa visualização, sendo que cada subprocesso fiscaliza os seus processos-filhos; cada processo é dotado de capacidade para criar, utilizar e apagar diretórios e subdiretórios contendo seus processos e, ao seu final, devem ser apagados regularmente; o processo correto, realiza criação e desconstrução de todo seu contexto e ao final deve gerar relatório em log para avaliação do processo e retornos; o objetivo de cada código é especificado no início de sua confecção, sendo que caso alguma informação possa ser colocada em segundo plano ou tornada paralela à mesma, é separado o código e construído um processo-filho independente, meramente chamado por ele e se em revisão puder ser separado do processo pai, torna-se independente, fazendo parte da Máquina de Processos; os códigos podem gerar novos códigos de execução, sempre com a premissa do paralelismo; dentro do processo de avaliação de logs, encontram-se os tempos de construção das informações mediante as necessidades. Finalmente, é avaliado se o código precisa ser remodelado, conforme o tempo de retomo do mesmo, em comparação aos tempos anteriormente gastos para processos semelhantes.
[22] As bibliotecas utilizadas pelo sistema são catalogadas conforme níveis, seguindo a literatura: quanto mais utilizada ela for, mais próxima ela deverá estar do kernel do sistema operacional; caso esteja muito próxima, mas não se possa inseri-la diretamente, há que se obter um local físico para armazenamento de massa que seja o mais próximo da velocidade do Kernel, como por exemplo, optando por discos de estado sólido (SSDs), ao invés de discos rígidos (HDs), mitigando possíveis perdas de desempenho no acesso a tais bibliotecas.
[23] Quanto aos arquivos temporários: aqueles de utilização mais imediata, devem ser inseridos em local físico para armazenamento de massa que trabalhe o mais próximo da velocidade do Kernel, como por exemplo, discos de estado sólido (SSDs); os que representarem bufferização e não tiverem necessidades maiores, poderão ser inseridos em hardware de mais baixa velocidade; por fim, aqueles com utilização mais rara, devem ser colocados em ambientes de data center remotos, com custos mais baixos de guarda, com recuperação através de sistemas de arquivos, com processos de cópia por sincronia e chaves de criptografia para utilização. Cabe destacar que qualquer processo que envolver transferência de arquivos deverá lançar mão de sistemas de comunicação previamente desenhados para tal finalidade.
[24] As macro etapas do sistema são descritas a seguir.
[25] O arquivo é transferido para o sistema de compressão em lotes ou singularmente, sendo sua compressão realizada item a item.
[26] O sistema de compressão proposto possui listas de compressão da biblioteca de identificação, que contém informações dos melhores resultados obtidos na compressão de arquivos já processados anteriormente pelo sistema.
[27] Caso o arquivo analisado seja identificado, o sistema o comprime lançando mão de estudos prévios de métodos e processos conhecidos dos tipos "A", "B" e "C".
[28] Caso o arquivo não tenha sido identificado nas listas de compressão da biblioteca de identificação, será avaliada: a origem dos dados; se ele possui características lineares; e se pode ser identificado como arquivo de multimídia (foto, áudio ou vídeo) através de uma biblioteca de identificação de multimídias com mais de 160 tipos de mídias.
[29] Caso não seja linear, a compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "C".
[30] Sendo um arquivo de mídia é então possível convertê-lo em uma modelagem padronizada e conhecida em processos anteriores (imagem: PNG; áudio:MP3; vídeo: MP4) prosseguindo assim para a compressão do arquivo.
[31] Não sendo identificado como arquivo de mídia o arquivo será lido por visualizadores tipo "B " que analisarão a conversão utilizando processos conhecidos e caso seja um arquivo de dados vetoriais (autocad, lidar etc) a compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "A". O arquivo será convertido em modo textual ASCII com conversores tradicionais entre 10 processos contextualizados anteriormente por bibliotecas de compressão convencionais.
[32] Não sendo identificado como arquivo vetorial o arquivo será analisado como arquivo binário, cuja compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "A".
[33] Sendo identificado como arquivo vetorial o arquivo será convertido para hexadecimal com conversores tradicionais entre 10 processos contextualizados anteriormente por bibliotecas de compressão convencionais.
[34] Não sendo identificado como arquivo binário o arquivo será analisado como arquivo textual (doc, pdf etc). Sendo identificado como arquivo textual em uma biblioteca de avaliação de documentos com mais de 20 origens, o arquivo será convertido para Schema XML e comprimido pelo processo de compressão de dados XML podendo ser lido diretamente por visualizadores tipo "BI".
[35] Não sendo identificado como arquivo textual a compressão final não poderá ser aberta diretamente por leitura, somente por processo de descompressão tipo "A".
[36] Em casos de aplicação dos processos tipos "A" e "B", o sistema analisará a possibilidade de compactar novamente através de processo tipo "C" realizando nova compactação antes de armazenar o arquivo, liberar o arquivo para a transferência e finalizar o processo.
[37] Após definido o tipo de compressão a ser utilizada, o sistema processará o arquivo para a rotina de compressão adequada, cujos subprocessos estão detalhados a seguir.
PROCESSO DE COMPRESSÃO TIPO A
[38] Inicialmente é realizada uma análise do dado, objetivando enquadrá-lo num dos tipos conhecidos de compressão. Os dois possíveis formatos são: linear e não linear. No formato linear o arquivo é utilizado diretamente. Quem tiver o melhor resultado de compressão, em forma paralela, é escolhida como modelo; é feita uma análise entre os algoritmos de compressão mapeados e teorizados (Deflate, Burrows-Wheeler”, Lempel-Ziv-Markov Chin”, LZ77, PAQ6 etc).
[39] Já no formato não-linear, o arquivo passa por processo mapeado de embaralhamento: quem tiver o melhor resultado de compressão, em forma paralela, é escolhido como modelo. Em seguida é feita a análise entre os algoritmos de compressão mapeados e teorizados (Deflate, Burrows- Wheeler”, Lempel-Ziv-Markov Chin”, LZ77, PAQ6 etc).
[40] Ao final do processo o algoritmo encontrado, identificado como o mais adequado, é armazenado nas tabelas de identificação, gerando um acervo de conhecimento que passará a fazer parte do aprendizado da máquina, que é o sistema em si.
PROCESSO DE COMPRESSÃO TIPO B
[41] Inicialmente os arquivos são identificados segundo seu tipo e agrupados para tratamento diferenciado. Documentos (planilhas, apresentações de slides, documentos de texto e outros): converte-se em padrão XML e em seguida é feito o mapeamento e avaliação de compressão interna.
[42] Arquivos de vídeo e áudio são analisados e convertidos dentro de biblítocas pré-analisadas para conversão (H264, MP4 etc).
[43] Arquivos de imagens Fotográgicas tem seu padrão alterado para tipo geral PNG, e reaplicando bibliotecas de compressão, de duas formas distintas, em função da origem de tais imagens: No caso de imagens oriundas de câmeras fotográficas (DPI < 150), procede-se à conversão para JPEG e retorna-se ao formato original; já no caso de imagens reconstruídas (DPI => 150), usa-se a Transformada de Fourier e Lógica Fuzzy para sua compressão para, em seguida, retorná-la ao formato original.
[44] Os arquivos no formato PDF originários de digitalização passam por um ajuste de sua resolução DPI (por exemplo para 150 DPI) para que seja possível sua leitura tradicional, posto que tais arquivos deverão ser exclusivamente exibidos em periféricos de saída, para contemplação e análise por pessoas. Já os arquivos no formato PDF originários da integração de imagens serão analisados como fotos, seguindo a modelagem anteriormente descrita para tal. [45] Para os arquivos do tipo Imagem médica (por exemplo no padrão DICOM), dever-se-á obter o arquivo gerado originalmente em formato RAW. Posteriormente, proceder-se-á a uma análise da origem do arquivo (tipo e fabricante de equipamento gerador), para então convertê-la conforme avaliação de qualidade de imagem. Caso esteja em alta resolução, utilizar o mesmo método aplicado a foto de imagens reconstruídas, descrito anteriormente.
[45] Imagem TIFF (3D): analisar imagem a imagem, descontruindo a informação e, dependendo da origem do dado, procede-se a uma análise vetorial ou uma análise por imagem, onde analisa-se utilizando o mesmo padrão aplicado à Fotos, e reconstrói-se.
[47] Para arquivos compactados conhecido, procede-se à reabertura dos arquivos, visando descompactação interna dos dados conforme modelagem conhecidas ou não conhecidas.
[48] Por fim, avalia-se se quem for ler o arquivo poderá fazê-lo após processo de descompressão: quando a transferência é feita para um ambiente externo, mas dentro do sistema, que poderá realizar descompressão antes da entrega.Se sim, aplica-se após processo B com os compressores mapeados.
PROCESSO DE COMPRESSÃO TIPO C
[49] Procede-se à identificação prévia de linear ou não linear, e executa-se a compactação conforme tipo e histórico já conhecido pelo sistema.

Claims

REIVINDICAÇÕES
1. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, caracterizado por receber arquivos individuais ou em lote, identificar o tipo de cada arquivo, por exemplo através de sua assinatura digital, e escolher entre os algoritmos de compressão existentes qual é o mais adequado para obter a maior compactação possível.
2. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com a reivindicação 1, caracterizado por categorizar os arquivos e agrupá-los por tipo de algoritmo de compressão mais eficiente, salvando tal resultado em bibliotecas que comporão um histórico do sistema para auxiliar a tomada de decisões futuras.
3. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com as reivindicações 1 e 2, caracterizado por lançar mão de um método de aprendizado em Machine Learning, para acelerar o processo de escolha do algoritmo de compressão mais eficaz, por usar o aprendizado de máquina, o qual incrementa as bibliotecas do sistema a cada teste previamente realizado, salvando cada decisão tomada.
4. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com a reivindicação 1, caracterizado por utilizar ferramentas de High Processing Computing, realizando processamento paralelizado, visando a comprimir ou descomprimir cada arquivo, num contexto de “Máquina de Processos”, onde as necessidades vão sendo encaminhadas para processamento conforme a demanda de cada tipo unitário de serviço.
5. SISTEMA COMPUTACIONAL PARA COMPRESSÃO DE DADOS DE TIPOS DIFERENTES E INDEPENDENTES ENTRE SI, de acordo com a reivindicação 1, 2 e 3, caracterizado por utilizar-se de testes de performance dos algoritmos de compactação existentes, aplicando-os a cada arquivo a ser compactado, salvando o resultado bibliotecas, que coporão a base de conhecimento do sistema.
PCT/BR2020/050307 2020-07-26 2020-08-07 Sistema computacional para compressão de dados de tipos diferentes e independentes entre si WO2022020915A1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BR102020015189-4A BR102020015189A2 (pt) 2020-07-26 2020-07-26 Sistema computacional especializado para compressão analítica e individual de dados
BR1020200151894 2020-07-26

Publications (1)

Publication Number Publication Date
WO2022020915A1 true WO2022020915A1 (pt) 2022-02-03

Family

ID=80037928

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/BR2020/050307 WO2022020915A1 (pt) 2020-07-26 2020-08-07 Sistema computacional para compressão de dados de tipos diferentes e independentes entre si

Country Status (2)

Country Link
BR (1) BR102020015189A2 (pt)
WO (1) WO2022020915A1 (pt)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036265B1 (en) * 2001-09-26 2011-10-11 Interact Devices System and method for communicating media signals
US10320415B2 (en) * 2015-03-06 2019-06-11 Oracle International Corporation Dynamic data compression selection
US10387375B2 (en) * 2008-05-28 2019-08-20 International Business Machines Corporation Data compression algorithm selection and tiering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036265B1 (en) * 2001-09-26 2011-10-11 Interact Devices System and method for communicating media signals
US10387375B2 (en) * 2008-05-28 2019-08-20 International Business Machines Corporation Data compression algorithm selection and tiering
US10320415B2 (en) * 2015-03-06 2019-06-11 Oracle International Corporation Dynamic data compression selection

Also Published As

Publication number Publication date
BR102020015189A2 (pt) 2022-02-08

Similar Documents

Publication Publication Date Title
US9477682B1 (en) Parallel compression of data chunks of a shared data object using a log-structured file system
US10778246B2 (en) Managing compression and storage of genomic data
US8244767B2 (en) Composite locality sensitive hash based processing of documents
Roussev et al. Multi-resolution similarity hashing
US9628107B2 (en) Compression of floating-point data by identifying a previous loss of precision
US8344916B2 (en) System and method for simplifying transmission in parallel computing system
US7417570B2 (en) Lossless comparative compression and transmission method and system
US10972569B2 (en) Apparatus, method, and computer program product for heterogenous compression of data streams
WO2021051627A1 (zh) 基于数据库的批量导入方法、装置、设备及存储介质
Mittal et al. FiFTy: large-scale file fragment type identification using convolutional neural networks
US20180067978A1 (en) Log management method, log management device, and recording medium
Aronson et al. Towards an engineering approach to file carver construction
CN111611622A (zh) 基于区块链的文件存储方法和电子设备
De Luca et al. Distributed genomic compression in MapReduce paradigm
US20110238633A1 (en) Electronic file comparator
CN110489387A (zh) 压缩解压方法、装置、电子设备及存储介质
Du et al. Deduplicated disk image evidence acquisition and forensically-sound reconstruction
WO2022020915A1 (pt) Sistema computacional para compressão de dados de tipos diferentes e independentes entre si
Nguyen et al. An efficient similar image search framework for large-scale data on cloud
Alherbawi et al. JPEG image classification in digital forensic via DCT coefficient analysis
US20220284501A1 (en) Probabilistic determination of compatible content
US11042329B2 (en) Reordering a sequence of files based on compression rates in data transfer
Davies et al. Exploring the need for an updated mixed file research data set
Khatri et al. A manual approach for multimedia file carving
US10831869B2 (en) Method for watermarking through format preserving encryption

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20947182

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20947182

Country of ref document: EP

Kind code of ref document: A1