RU2015118470A - Способ префиксной дедупликации цифровых данных - Google Patents

Способ префиксной дедупликации цифровых данных Download PDF

Info

Publication number
RU2015118470A
RU2015118470A RU2015118470A RU2015118470A RU2015118470A RU 2015118470 A RU2015118470 A RU 2015118470A RU 2015118470 A RU2015118470 A RU 2015118470A RU 2015118470 A RU2015118470 A RU 2015118470A RU 2015118470 A RU2015118470 A RU 2015118470A
Authority
RU
Russia
Prior art keywords
processed
blocks
block
link
prefix
Prior art date
Application number
RU2015118470A
Other languages
English (en)
Other versions
RU2622875C2 (ru
Inventor
Дмитрий Борисович Афанасьев
Максим Андреевич Жуков
Original Assignee
федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) filed Critical федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО)
Priority to RU2015118470A priority Critical patent/RU2622875C2/ru
Publication of RU2015118470A publication Critical patent/RU2015118470A/ru
Application granted granted Critical
Publication of RU2622875C2 publication Critical patent/RU2622875C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1724Details of de-fragmentation performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Способ префиксной дедупликации цифровых данных, согласно которому цифровые данные разбивают на блоки данных равной длины и последовательно обрабатывают, помещая метаданные этих блоков поразрядно в префиксное дерево, отличающийся тем, что выбор метаданных осуществляется по сегментам также равной длины непосредственно из блоков данных, определение наличие идентичного обрабатываемому блоку среди уже обработанных осуществляется путем обхода префиксного дерева по заранее определенному порядку обхода сегментов, при отсутствии на очередном уровне префиксного дерева ссылки по значению соответствующего порядку обхода сегмента обрабатываемый блок признают уникальным и добавляют ссылку на этот блок на этом уровне префиксного дерева по соответствующему значению сегмента, в случае нахождения ссылки в префиксном дереве на обработанный блок данных выполняют полную сверку обоих блоков, в результате которой при обнаружении различия блоков осуществляют замену ссылки на обработанный блок ссылкой на новую ветвь дерева, содержащую последовательность узлов до первого различного сегмента, а в случае совпадения блоков принимают решение по определению обрабатываемого блока дубликатом.

Claims (1)

  1. Способ префиксной дедупликации цифровых данных, согласно которому цифровые данные разбивают на блоки данных равной длины и последовательно обрабатывают, помещая метаданные этих блоков поразрядно в префиксное дерево, отличающийся тем, что выбор метаданных осуществляется по сегментам также равной длины непосредственно из блоков данных, определение наличие идентичного обрабатываемому блоку среди уже обработанных осуществляется путем обхода префиксного дерева по заранее определенному порядку обхода сегментов, при отсутствии на очередном уровне префиксного дерева ссылки по значению соответствующего порядку обхода сегмента обрабатываемый блок признают уникальным и добавляют ссылку на этот блок на этом уровне префиксного дерева по соответствующему значению сегмента, в случае нахождения ссылки в префиксном дереве на обработанный блок данных выполняют полную сверку обоих блоков, в результате которой при обнаружении различия блоков осуществляют замену ссылки на обработанный блок ссылкой на новую ветвь дерева, содержащую последовательность узлов до первого различного сегмента, а в случае совпадения блоков принимают решение по определению обрабатываемого блока дубликатом.
RU2015118470A 2015-05-18 2015-05-18 Способ префиксной дедупликации цифровых данных RU2622875C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015118470A RU2622875C2 (ru) 2015-05-18 2015-05-18 Способ префиксной дедупликации цифровых данных

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015118470A RU2622875C2 (ru) 2015-05-18 2015-05-18 Способ префиксной дедупликации цифровых данных

Publications (2)

Publication Number Publication Date
RU2015118470A true RU2015118470A (ru) 2016-12-10
RU2622875C2 RU2622875C2 (ru) 2017-06-20

Family

ID=57759835

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015118470A RU2622875C2 (ru) 2015-05-18 2015-05-18 Способ префиксной дедупликации цифровых данных

Country Status (1)

Country Link
RU (1) RU2622875C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868182A (zh) * 2021-09-28 2021-12-31 歌尔科技有限公司 一种数据压缩方法、装置、设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1714682A1 (ru) * 1989-07-18 1992-02-23 Киевский Политехнический Институт Им.50-Летия Великой Октябрьской Социалистической Революции Ассоциативное оперативное запоминающее устройство
RU2329615C2 (ru) * 2003-12-01 2008-07-20 Самсунг Электроникс Ко., Лтд. Способ масштабируемого кодирования и декодирования видеосигнала и устройство для его осуществления
RU2382492C1 (ru) * 2008-07-24 2010-02-20 Сергей Борисович Муллов Способ сжатия и восстановления данных без потерь
US8619856B2 (en) * 2008-10-03 2013-12-31 Qualcomm Incorporated Video coding with large macroblocks
US8660997B2 (en) * 2011-08-24 2014-02-25 International Business Machines Corporation File system object-based deduplication
US8751763B1 (en) * 2013-03-13 2014-06-10 Nimbus Data Systems, Inc. Low-overhead deduplication within a block-based data storage

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868182A (zh) * 2021-09-28 2021-12-31 歌尔科技有限公司 一种数据压缩方法、装置、设备和介质

Also Published As

Publication number Publication date
RU2622875C2 (ru) 2017-06-20

Similar Documents

Publication Publication Date Title
BR112016021485A2 (pt) Pesquisa de encriptador com base em hash para cópia intrabloco
PH12018500934A1 (en) Service call information processing method and device
BR112017011889A8 (pt) Método de codificação de vídeo com o uso de particionamento de bloco de árvore binária
SE1751210A1 (sv) Distributed data set storage and retrieval
MX2018000651A (es) Sistemas y metodos para dividir indices de busqueda para una mayor eficiencia en la identificacion de segmentos de medios.
GB2550783A (en) Order pushing method and system
PH12019500897A1 (en) Traversing smart contract database through logic map
MX2017001178A (es) Clasificación de contenidos externos en las redes sociales en línea.
EA201592263A1 (ru) Ультрачистые агонисты гуанилатциклазы c, способ их получения и использования
GB2606111A (en) Partially-ordered blockchain
CL2014002551A1 (es) Metodo para identificar segmento de audio, que comprende las etapas de crear un espectrograma del segmento candidato de audio, crear un mapa candidato de bits huella digital y acustica del espectrograma, comparar el mapa candidato con al menos un mapa conocido de un mensaje de red conocido, si el mapa candidato coincide con un mapa conocido, declarar el calce, y si el candidato no coincide, utilizar un algoritmo de deteccion para analizar el segmento de audio candidato; metodos asociados.
AR092378A1 (es) Sistema de recomendacion agricola dirigida
CL2022000026A1 (es) Remuestreo de imágenes de referencia con filtros conmutables
IN2013MU03472A (ru)
GB2472520A (en) Data processing apparatus and method of processing data
BR112017027294A2 (pt) geração de sinais de banda alta
MX2017003416A (es) Evaluacion de reputacion de archivos.
SG11201809083TA (en) Routing configuration method for view file, and storage medium, terminal device and apparatus
BR112021006491A2 (pt) sistema de campo de petróleo
SG11201909119YA (en) Search method and apparatus and non-temporary computer-readable storage medium
WO2014140009A3 (en) A process for obtaining candidate data from a remote storage server for comparison to a data to be identified
MX2020006251A (es) Deteccion de deleciones y variaciones en el numero de copias en secuencias de adn.
DOP2017000050A (es) Anticuerpos anti-vasa y métodos de producción y uso de los mismos
GB201116736D0 (en) Searching and storing data in a database
RU2015118470A (ru) Способ префиксной дедупликации цифровых данных