WO2014154973A1 - Method for storing data in a computer system performing data deduplication - Google Patents

Method for storing data in a computer system performing data deduplication Download PDF

Info

Publication number
WO2014154973A1
WO2014154973A1 PCT/FR2014/050653 FR2014050653W WO2014154973A1 WO 2014154973 A1 WO2014154973 A1 WO 2014154973A1 FR 2014050653 W FR2014050653 W FR 2014050653W WO 2014154973 A1 WO2014154973 A1 WO 2014154973A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
user
deduplication
devices
inter
Prior art date
Application number
PCT/FR2014/050653
Other languages
French (fr)
Inventor
Pierre OBAME MEYE
Philippe Raipin Parvedy
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Priority to EP14717158.1A priority Critical patent/EP2979222B1/en
Priority to US14/780,391 priority patent/US20160054949A1/en
Publication of WO2014154973A1 publication Critical patent/WO2014154973A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/564Enhancement of application control based on intercepted application data

Definitions

  • a method of storing data in a computer system performing data deduplication is a method of storing data in a computer system performing data deduplication.
  • the invention relates to a method for storing data in a computer system performing data deduplication.
  • deduplication also called factorization or single instance storage
  • a deduplication is a technique of data backup, consisting in factoring identical data sequences in order to save the used memory space.
  • Deduplication consists in detecting a redundancy between the data to be saved in a computer system and the data already saved in order to store only the difference. Thus, if a first device requires storage of data on a second device, deduplication is performed. If the data to be saved is already saved in the second device relative to a third device, only a reference to this data is created in connection with the first device. Thus, when the first device wishes to access the data, the second device uses the reference and obtains the data. The second device can then transmit the data to the first device.
  • This deduplication technique ensures a saving of about 90% storage savings according to certain applications.
  • the deduplication operation is performed either on the source side, in our example the first device, or on the target side for the backup, the second device in our example.
  • This second device is usually a storage server.
  • a client program installed in the first device performs the deduplication before transmitting data to be saved to the second device. This technique effectively saves bandwidth at the first device.
  • the client program referred to above transmits the data to be saved to the second device that will perform the deduplication. In this case, all the data is transmitted; there is no saving in bandwidth at the second device.
  • the first device encrypts with a private key the data to be saved before transmitting it to the second device. It is assumed that the second device is not aware of the public key corresponding to the private key. It is also assumed that several first devices may require storage on the second device, each device having its own private / public key pair.
  • the same data saved in the second device relative to the same user can be deduplicated.
  • the same data saved in the second device with respect to two different users can not be detected by the second device, the latter having no knowledge of the public keys required for decryption.
  • the client program does not return data already transmitted and stored on the second device.
  • the bandwidth at the first device is optimized.
  • a second solution relates to convergent encryption.
  • Convergent encryption is an encryption procedure designed to allow the use of deduplication on contents encrypted by different first devices under different users.
  • This second solution encrypts a datum according to its content.
  • the general idea is that a user encrypts data with a Hash function and then uses the result of the encryption to encrypt the data. In this way, the same data encrypted by two different users will be identical after encryption; in this way, the second device can perform a deduplication on data belonging to different users.
  • This second solution aims to unify the inter-user deduplication, that is to say between different users, and the confidentiality Datas. As a result, at the second device, the bandwidth is not saved.
  • the saving in storage space is better than using encryption per user because an inter-user deduplication is implemented by the second device.
  • this second solution saves bandwidth through deduplication made on the side of the second device.
  • the client program installed in the first device that creates the data identifier.
  • the second device receives the couple ID / F (ID corresponds to the identifier of the data, F to the data for example a file F) and stores the couple ID / F.
  • the client program of this other user correctly calculates an identifier at the base of the data (for example a hash of the data) and obtains an identifier ID which is the same as that used by the malicious device.
  • the second device receives the identifier ID and finds that it exists in memory. The second device therefore responds to the first device that the data is already present and that a download of the data is not necessary. Later, when the first device requires a download of the data, the first device receives the data F 'from the malicious device and not the legitimate data F.
  • Another disadvantage is related to the observation of the network by a malicious third party. Indeed, when a user saves data in the system, this user can observe the outgoing and incoming network traffic on the client device and check if the data is actually transmitted to the second device. If it is not the case, it deduces that another user has already saved the data in the system. This makes it possible to identify data already stored by a storage system.
  • the invention offers a solution that does not have the drawbacks of the state of the art.
  • the subject of the invention is a method for storing data in a computer system comprising a plurality of first devices storing data belonging to respective users, a second device able to manage a data backup. from first devices, said backup comprising an inter-user data deduplication step, characterized in that an intermediate device is intercalated between first devices and the second device, so as to perform intra-user deduplication on data backing up from first devices, and then managing the inter-user deduplication in cooperation with the second device.
  • an intra-user deduplication is for a deduplication that operates on data of the same user and that an inter-user deduplication is for a deduplication that operates on data of users who can be different.
  • the second device performs an inter-user deduplication, and thus optimizes its storage space by storing only one copy of each data.
  • the confidentiality of the data saved is also ensured; indeed, the data can advantageously be encrypted according to the convergent encryption mode described in the paragraph devoted to the state of the technical.
  • the second device thus guarantees the confidentiality of the data to the users; only authorized users can access data in the clear.
  • a first device denotes indifferently a data processing device or a client program.
  • the intermediate device performs the following steps: a. A step of creating an identifier linked to data to be saved received from a first device, b. A transmission step during which the intermediate device transmits at least the identifier to the second device for managing the inter-user deduplication of the data.
  • the identifier of the data saved on the second device is not created by the first device but a trusted intermediary.
  • the identifier is no longer generated by a first device. This limits malicious attacks by identifier manipulation as explained previously.
  • the first device creates a first identifier linked to data to be backed up, b. the first device transmits the identifier to the intermediate device for the management of intra-user deduplication.
  • the first device therefore only manages identifiers that have its own data and not data belonging to other users.
  • the intermediate device stores a correspondence between the identifiers linked to the intra-user deduplication and the identifiers linked to the inter-user deduplication.
  • the device plays the role of mapping between identifiers used for intra-user and inter-user deduplication.
  • the intermediate device receives an identifier of data to be saved from a first device and this data is already saved in the second device, the intermediate device can find, through the correspondence, the identifier of the same data used by the intermediate device and the second device for the management of inter-user deduplication.
  • the client program does not handle identifiers related to inter-user deduplication.
  • a malicious attack using random identifiers, as described in the section devoted to the state of the art, is no longer possible thanks to the invention.
  • the intermediate device is located on the communication link through which the first device communicates with the second device. In this way, the device does not change the path, often the shortest, that the data exchanged between the first and the second device borrows.
  • This intermediate device if ideally located in a place inaccessible by a user.
  • This device is located for example in the network of a telecommunications operator.
  • an intermediate device is ideally a device (POP) capable of aggregating data streams from a plurality of first devices.
  • POP point of presence
  • a point of presence POP is a mandatory point of passage of data from or destination of first devices; accordingly, this point of presence introduces no change in the path length between a user and the second device.
  • this point of presence POP introduces no change in the path length between a user and the second device.
  • this intermediary at the point of presence POP, this ensures that the data passes through an intermediary out of reach of users and completely secure.
  • NRO optical connection node
  • the intermediate device transmits information relating to the backup performed, in that the instant of activation of the transmission of information is delayed, especially if the data is already stored on the second device.
  • the intermediary adds, if necessary, the latency to the processing of a request to write a data so that it lasts for as long. than a normal recording of a data. In this way, a user can not deduce if the data to be saved has just been written in the second device or if it was already stored.
  • this other mode makes totally transparent to users inter-user deduplication, which is not the case of existing solutions.
  • the invention relates to a computer program comprising code instructions for implementing the method according to one of the preceding claims, when this program is executed by a processor.
  • the invention relates to a recording medium readable by a data processor on which is recorded a program comprising program code instructions for executing the steps of the method defined above.
  • the invention relates to a device comprising a communication module for communicating with a plurality of first devices comprising respective storage modules for storing data belonging to respective users and with a second device capable of managing a backup of data from first devices, said backup comprising an inter-user data deduplication step, characterized in that it comprises a.
  • the invention relates to a computer system comprising a plurality of first devices comprising respective storage modules for storing data belonging to respective users, a second device capable of managing a backup of data originating from first devices, said backup comprising an inter-user data deduplication step, characterized in that it comprises an intermediate device interposed between first devices and the second device, the intermediate device comprising a.
  • FIG. 1 represents a computer system on which is illustrated an exemplary embodiment of the invention.
  • Figure 2 is a detailed view of the system including the intermediate device according to one embodiment of the invention.
  • Figure 3 is a schematic view of exchanges taking place during a write phase of a data on a second device.
  • FIG. 4 is a schematic view of exchanges taking place during a reading phase of data on a second device.
  • Figure 5 is a synthetic view of the system according to the embodiment described.
  • FIGS 6a and 6b illustrate another embodiment in which the intermediate device performs the 2 phases described above.
  • FIG. 1 represents a computer SYS system in which the invention can be implemented. This system comprises a plurality of data processing devices (PC1, ... PCn).
  • PC1, ... PCn data processing devices
  • first devices PC1 and PC2 represent only two devices, called first devices PC1 and PC2.
  • the system is based on a DSL network architecture of an access provider.
  • This architecture includes client programs C1 and C2 installed on the first devices PC1 and PC2, respectively; an intermediate device I which is responsible for the deduplication of data from the same user (intra-user); an intermediate device corresponds to one or more client programs.
  • a second SS device illustrated by a storage server the latter is responsible for inter-user deduplication between data of a plurality of users.
  • this second device SS is also responsible for storing data either locally or on storage nodes (SN1, SNk).
  • this DSL type architecture can be decomposed in a simplified manner into 3 layers, namely an access network, an aggregation network and a core network. These different layers are illustrated in FIG. 2.
  • This figure shows an access network R-ACC, an aggregation network R-AGR and a core network R-COR.
  • the R-ACC access network most often comprises gateways (home gateways) installed at customers and DSLAMs multiplexers known to those skilled in the art.
  • the subscriber lines of a region coming from the gateways are aggregated in the DSLAMs multiplexers.
  • DSLAMs multiplexers have aggregation capabilities of one hundred to thousands of subscribers.
  • the aggregation network R-AGR combines the DSLAMs multiplexers and the points of presence (POP). Lines collected by DSLAMs are aggregated to a second level in POPs.
  • the core network R-COR includes several Points of Presence (POP).
  • POP Points of Presence
  • the POPs may aggregate streams from dozens of DSLAMs.
  • a Presence point includes a set of interconnected routers at the same place (building, room ). They are equipped with physical resources and software dedicated to routing.
  • There are two types of routers namely AR access routers and BR core routers. Access routers are connected to aggregation networks. These access routers are in turn connected to the core routers.
  • Each access router within a POP POP is connected to at least two BR core routers to provide protection in the event of outages within a POP.
  • the different routers BR cores are connected together in a mesh network (Mesh network).
  • POP POPs provide access to the IP network of the ISP.
  • Deduplication can be done at different levels of data granularity, for example at file level, block level, byte level.
  • a datum D will be the subject of a backup.
  • an intermediate device I will manage the intra-user deduplications INTRA, and the server SS will manage the inter-user deduplications INTER.
  • the location of the intermediate device in the network may vary; it can be located in a first device PC1 / PC2, in the second device SS or on an intermediate device of the network.
  • an intermediate device is chosen wisely especially to increase the bandwidth at a second device because it is at this level that the volume of data is the largest.
  • a POP multiplexer is the location chosen to illustrate the embodiment.
  • a POP multiplexer has the advantage of being both a trusted device because it is located in a zone of confidence, namely in the core network; and in this network as close to the first devices.
  • the data D can be transmitted in clear, that is to say in an unencrypted manner; however, to ensure confidentiality, in our example, the data is encrypted by means of an encryption algorithm known to those skilled in the art.
  • This primitive is used to designate a command for transmitting parameters from a source "src", for example a first device, to a destination "dest", for example an intermediate device.
  • Hash (D) designates a hash function and D the data to which the hash function is applied;
  • each user U1 and U2 has a public key and a private key.
  • the client program C1 of the user U1 creates a hash of the data D to send:
  • a second step ET1 -2 optionally, the client program C1 of the user U1 creates the IDD identifier of the data D which will be used to manage an intra-user deduplication on the intermediate device I.
  • This step is optional but recommended because comparing each bit of a data, especially if the number of bits is important, can be very long and expensive in terms of consumption of computing resources. Also, the use of an identifier avoids for a first device to transmit all the data while this data has already been the subject of a backup.
  • the identifier is created so that collisions between Different data identifiers created by the same user are not possible.
  • the identifier may be a hash taking into account the HD value created in step 1 and the IDU user ID.
  • the hash operation can be written as follows:
  • IDD Hash (IDU, HD)
  • the client program C1 of the user U1 transmits to the intermediary I the IDD identifier of the data D to verify that it does not already have this data D.
  • the transmitted primitive can take the following form:
  • the primitive includes:
  • a fourth step ET1 -4 Upon receipt, the intermediate device I verifies in the index data of the user U 1 if the identifier IDD exists or not.
  • the intermediate device I responds to the client program C1 of the user U1 that it is not necessary to transmit the data D. The operation of saving the data D end.
  • the intermediate device I responds to the client program C1 of the user U1 that it must transmit the data, in our example the encrypted data, and its decrypted encryption key.
  • This step can be illustrated by the following syntax:
  • index.get (IDU) .contains (IDD)
  • a fifth step ET1 -5.1 when the client program C1 of the user U1 obtains the response of the intermediate device I; If the IDD already exists, the backup is considered completed and the operation ends.
  • the client program C1 of the user U1 transmits, during a step ET1 -5.2, the encrypted data D and its decrypted encryption key.
  • the client program C1 of the user U1 encrypts the data D with the key HD to obtain encrypted data DE and then encrypts the key HD with its public key Ku_pub to obtain HDE so that only it, that is to say the program client C1 of the user U1, has access to the decryption key in clear.
  • the client program C1 of the user U1 then transmits the encrypted data DE and the decrypted encryption key HDE.
  • HDE Easym (Ku_pub, HD)
  • a second phase starts during which an inter-user deduplication will be performed.
  • a sixth step ET1 -6 when the intermediate device I receives the data, it creates a hash of DE to create an IDD_sys system identifier which will be used to manage the inter-user deduplication at the second SS device. Since all data is encrypted in the same way by all U1 and U2 users, two equal files before encryption will always be equal after the encryption and thus have the same system identifier.
  • the intermediate device I updates its index concerning the backup of IDD by U1 and the system identifier IDD_sys attributed to the data D.
  • the intermediate device I checks in its index if IDD_sys exists or not.
  • IDD_sys exists (relative to another user) in the system, this means that the data is already stored on a SNk storage node and that there is no need to restock it.
  • the intermediate device I then transmits just a reference of the data DE to the server SS as well as the decrypted encryption key HDE.
  • This step can be illustrated by the following syntax:
  • the server SS notifies the intermediate device I that the backup has been made.
  • the intermediate device I notifies the client program of the user U1 of the end of the backup of DE.
  • This step can be illustrated by the following syntax:
  • This writing phase can be followed by a reading phase of a data involving the intermediate device I.
  • This reading phase will be described with reference to Figure 4 which includes steps referenced ET2-j in Figure 4 .
  • the previous steps illustrate the writing phase.
  • the following steps illustrate a reading phase of the data D.
  • the client program C1 of the user U1 transmits to the intermediate device I the IDD identifier of the data D it wishes to recover, namely IDD.
  • This step can be illustrated by the following syntax:
  • the intermediate device I searches for the identifier IDD in the user index U1.
  • the intermediate device I searches the system identifier IDD_sys which corresponds to the identifier IDD in a system index.
  • the system index can be represented by means of a table of correspondence between identifiers resulting from intra-user deduplication, for example IDD, and IDD_sys system identifiers.
  • the encrypted data DE as well as the decrypted encryption key of D are retrieved on the server SS during a second step ET2-2 and transmitted to the user U1 during a third step ET2-3. If the identifier IDD does not exist in the data of the user U1, a negative response is transmitted to the user U1 during a fourth step ET2-4 of this reading phase.
  • IDD_sys user_index.getSystem_lndex (IDU, IDD)
  • HDE, DE Send (1, FSS, GET, IDU, IDD, IDD_sys)
  • the number of intermediate devices I is arbitrary. Only one intermediate device can be envisaged; however, in order to reduce the resource consumption on an intermediate device, it is preferable to provide the management of intra-user deduplication on several intermediate devices and to associate several first devices with the same intermediate device.
  • the POP POP and the SS storage server are separate nodes on the network.
  • an intermediate device POP2 can play the role of both intermediary I for carrying out the deduplication and SS storage server operation.
  • FIG. 6a shows two intermediate devices, namely a first POP1 and a second P02In this configuration, when the first intermediate device POP1 receives a request from a client program C1 that is associated with it, for example from an included client program. in a PC1 of the same geographical region, the intermediate device POP1 performs the data deduplication operation.
  • the second intermediate device POP2 receives a request from the first intermediate device POP1
  • the second intermediate device POP2 acts in this case only as a storage server SS.
  • a home gateway GTW is between the first device PC1 and the point POP1.
  • FIG. 6b shows two intermediate devices, namely a first device POP1 and a second device P02.
  • both devices handle both deduplication and storage on the SN storage nodes.
  • the intermediate device I notifies the client program of the user U1 of the end of the backup of DE. It has been seen, with reference to the state of the art, that by observation of the network a user can observe the outgoing and incoming network traffic on the client device and check whether data to be saved is actually transmitted to the second device. If it is not the case, it deduces that another user has already saved the file in the system. This makes it possible to identify files already stored by a storage system. In this configuration, according to a variant, the instant of triggering the transmission of the response is delayed, in particular if the data is already stored on the second device. Indeed, the duration of the deduplication depends on whether the data is already present or not on the second device.
  • the trigger time is therefore chosen so that the overall time between the transmission of the request and the reception of the response in step 10 is more or less the same.
  • This feature makes it possible to hide from the first device that an inter-user deduplication has been performed.
  • the instant of transmission may be random so as to mask once again the effective processing time of the deduplication operation.
  • an intermediate device has the following modules (not shown in the figures) for carrying out the method of the invention: a. A first intra-user deduplication management module on data to be saved from first devices, b. a second module for managing inter-user deduplication in cooperation with the second device.
  • module used in this document, may correspond to either a software component or a hardware component, or to a set of hardware and / or software components, capable of implementing the function or functions described for the module.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to a method for storing data in a computer system (SYS) including a plurality of first devices (PC1, PC2) storing data belonging to respective users (U1, U2), a second device (SS) capable of managing a backup of data from first devices, said backup including a step of deduplicating inter-user data, characterised in that an intermediate device (I) is inserted between the first devices (PC1, PC2) and the second device (SS), such as to initially perform an intra-user deduplication of the data to be backed up from first devices, and then to manage the inter-user deduplication in cooperation with the second device (SS).

Description

Procédé de stockage de données dans un système informatique effectuant une déduplication de données.  A method of storing data in a computer system performing data deduplication.
Domaine technique Technical area
L'invention se rapporte à un procédé de stockage de données dans un système informatique effectuant une déduplication de données. The invention relates to a method for storing data in a computer system performing data deduplication.
Rappelons qu'en informatique, une déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de sauvegarde de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace mémoire utilisé. Remember that in computer science, a deduplication (also called factorization or single instance storage) is a technique of data backup, consisting in factoring identical data sequences in order to save the used memory space.
Etat de la technique State of the art
Les systèmes de stockage en réseau actuels réalisent une déduplication des données avant stockage. Une déduplication consiste à détecter une redondance entre les données à sauvegarder dans un système informatique et des données déjà sauvegardées afin de ne stocker que la différence. Ainsi, si un premier dispositif requiert un stockage d'une donnée sur un deuxième dispositif, une déduplication est réalisée. Si la donnée à sauvegarder est déjà sauvegardée dans le deuxième dispositif relativement à un troisième dispositif, seule une référence à cette donnée est créée en liaison avec le premier dispositif. Ainsi, lorsque le premier dispositif souhaite accéder à la donnée, le deuxième dispositif utilise la référence et obtient la donnée. Le deuxième dispositif peut alors transmettre la donnée au premier dispositif. Current networked storage systems perform data deduplication before storage. Deduplication consists in detecting a redundancy between the data to be saved in a computer system and the data already saved in order to store only the difference. Thus, if a first device requires storage of data on a second device, deduplication is performed. If the data to be saved is already saved in the second device relative to a third device, only a reference to this data is created in connection with the first device. Thus, when the first device wishes to access the data, the second device uses the reference and obtains the data. The second device can then transmit the data to the first device.
Cette technique de déduplication assure un gain de l'ordre de 90% d'économie de stockage selon certaines applications. This deduplication technique ensures a saving of about 90% storage savings according to certain applications.
L'opération de déduplication s'effectue soit du côté de la source, dans notre exemple le premier dispositif, soit du côté de la cible visée pour la sauvegarde, le deuxième dispositif dans notre exemple. Ce deuxième dispositif est généralement un serveur de stockage. The deduplication operation is performed either on the source side, in our example the first device, or on the target side for the backup, the second device in our example. This second device is usually a storage server.
Si la déduplication s'effectue côté source, à savoir sur le premier dispositif, un programme client installé dans le premier dispositif effectue la déduplication avant de transmettre une donnée à sauvegarder au deuxième dispositif. Cette technique permet d'économiser efficacement la bande passante au niveau du premier dispositif. If the deduplication is done on the source side, namely on the first device, a client program installed in the first device performs the deduplication before transmitting data to be saved to the second device. This technique effectively saves bandwidth at the first device.
Si la déduplication est réalisée dans le deuxième dispositif, à savoir le serveur, le programme client visé ci-dessus transmet la donnée à sauvegarder au deuxième dispositif qui réalisera la déduplication. Dans ce cas, toute la donnée est transmise ; il n'y a donc pas d'économie en bande passante au niveau du deuxième dispositif. If the deduplication is carried out in the second device, namely the server, the client program referred to above transmits the data to be saved to the second device that will perform the deduplication. In this case, all the data is transmitted; there is no saving in bandwidth at the second device.
Plusieurs solutions unifiant déduplication et confidentialité des données existent. Several solutions unifying deduplication and data confidentiality exist.
Selon une première solution dite « Per-utilisateur encryption », le premier dispositif chiffre avec une clé privée la donnée à sauvegarder avant de la transmettre au deuxième dispositif. On suppose que le deuxième dispositif n'a pas connaissance de la clé publique correspondant à la clé privé. On suppose aussi que plusieurs premiers dispositifs peuvent requérir un stockage sur le deuxième dispositif, chaque dispositif disposant de son propre couple de clé privée / publique. According to a first solution called "Per-user encryption", the first device encrypts with a private key the data to be saved before transmitting it to the second device. It is assumed that the second device is not aware of the public key corresponding to the private key. It is also assumed that several first devices may require storage on the second device, each device having its own private / public key pair.
Dans cette configuration, une même donnée sauvegardée dans le deuxième dispositif relativement à un même utilisateur peut faire l'objet d'une déduplication. Cependant, une même donnée sauvegardée dans le deuxième dispositif relativement à deux utilisateurs différents ne pourra pas être détecté par le deuxième dispositif, ce dernier n'ayant pas connaissance des clés publiques requises pour le déchiffrement. In this configuration, the same data saved in the second device relative to the same user can be deduplicated. However, the same data saved in the second device with respect to two different users can not be detected by the second device, the latter having no knowledge of the public keys required for decryption.
Avec cette première solution, la confidentialité des données est assurée mais cette méthode réduit l'efficacité de la déduplication dans le système car elle empêche la déduplication de données entre utilisateurs différents. En conséquence, du côté du deuxième dispositif, il n'y a aucune économie en bande passante et l'espace de stockage n'est pas géré de façon optimale car la déduplication de données appartenant à différents utilisateurs n'est pas effective. With this first solution, the confidentiality of the data is ensured but this method reduces the efficiency of the deduplication in the system because it prevents the deduplication of data between different users. Consequently, on the side of the second device, there is no bandwidth saving and the storage space is not optimally managed because the deduplication of data belonging to different users is not effective.
Avec cette première solution, le programme client ne renvoie pas des données déjà transmises et stockées sur le deuxième dispositif. La bande passante au niveau du premier dispositif est donc optimisée. With this first solution, the client program does not return data already transmitted and stored on the second device. The bandwidth at the first device is optimized.
Une deuxième solution a trait au chiffrement convergent. Le chiffrement convergent est une procédure de chiffrement conçue pour permettre une utilisation de la déduplication sur des contenus chiffrés par différents premiers dispositifs sous-entendu différents utilisateurs. Cette deuxième solution chiffre une donnée en fonction de son contenu. L'idée générale est qu'un utilisateur chiffre une donnée avec une fonction Hash puis utilise le résultat du chiffrement pour chiffrer la donnée. De cette manière, une même donnée chiffrée par deux utilisateurs différents sera identique après chiffrement ; de cette manière, le deuxième dispositif pourra effectuer une déduplication sur des données appartenant à des utilisateurs différents. Cette deuxième solution vise donc à unifier la déduplication inter-utilisateurs, c'est-à-dire entre différents utilisateurs, et la confidentialité des données. En conséquence, au niveau du deuxième dispositif, la bande passante n'est pas économisée. Par contre l'économie en espace de stockage est meilleure qu'en utilisant un chiffrement par utilisateur car une déduplication inter-utilisateurs est mise en œuvre par le deuxième dispositif. A second solution relates to convergent encryption. Convergent encryption is an encryption procedure designed to allow the use of deduplication on contents encrypted by different first devices under different users. This second solution encrypts a datum according to its content. The general idea is that a user encrypts data with a Hash function and then uses the result of the encryption to encrypt the data. In this way, the same data encrypted by two different users will be identical after encryption; in this way, the second device can perform a deduplication on data belonging to different users. This second solution aims to unify the inter-user deduplication, that is to say between different users, and the confidentiality Datas. As a result, at the second device, the bandwidth is not saved. On the other hand, the saving in storage space is better than using encryption per user because an inter-user deduplication is implemented by the second device.
Au niveau du premier dispositif, cette deuxième solution permet d'économiser de la bande passante grâce à la déduplication faite du côté du second dispositif. At the first device, this second solution saves bandwidth through deduplication made on the side of the second device.
La méthode la plus sûre au niveau de la confidentialité parmi les approches existantes présentées ci-dessus est celle utilisant un chiffrement par utilisateur. Toutefois, cela réduit considérablement l'efficacité de la déduplication. Pour améliorer l'efficacité de la déduplication et garantir la confidentialité des données, le chiffrement convergent s'annonce meilleur que la première solution. Toutefois de récents travaux ont montré que la confidentialité en utilisant le chiffrement convergent pouvait être compromise. Rappelons que dans cette méthode dite à chiffrement convergent, à une donnée correspond un identifiant de donnée dont le calcul est fonction de la donnée ; l'identifiant et la donnée sont intimement liés. Cet identifiant est transmis en lieu et place de la donnée de façon à savoir si cette donnée est déjà stockée dans le second dispositif ; dans l'affirmative, c'est-à-dire que le deuxième dispositif stocke ce même identifiant, la donnée n'est pas transmise. The safest method of confidentiality among the existing approaches presented above is the one using user-based encryption. However, this greatly reduces the efficiency of deduplication. To improve the efficiency of deduplication and ensure data confidentiality, converged encryption looks better than the first solution. However, recent work has shown that confidentiality by using converged encryption can be compromised. Recall that in this so-called convergent encryption method, a data item corresponds to a data identifier whose calculation is a function of the data; the identifier and the data are intimately linked. This identifier is transmitted instead of the data so as to know if this data is already stored in the second device; in the affirmative, that is to say that the second device stores this same identifier, the data is not transmitted.
Dans cette méthode dite à chiffrement convergent, c'est le programme client installé dans le premier dispositif qui crée l'identifiant de donnée. En conséquence, des attaques malveillantes sont possibles. Par exemple, un utilisateur peut créer un identifiant aléatoire ID complètement indépendant de la donnée F à sauvegarder ; alors que, rappelons-le, l'identifiant devrait être calculé en fonction de la donnée. Le deuxième dispositif reçoit le couple ID/F (ID correspond à l'identifiant de la donnée, F à la donnée par exemple un fichier F) et stocke donc le couple ID/F. Plus tard, un autre utilisateur d'un autre dispositif souhaite stocker une donnée F' ; le programme client de cet autre utilisateur calcule correctement un identifiant à la base de la donnée (par exemple un hash de la donnée) et obtient un identifiant ID qui est le même que celui utilisé par le dispositif malveillant. Le deuxième dispositif reçoit l'identifiant ID et constate qu'il existe en mémoire. Le deuxième dispositif répond donc au premier dispositif que la donnée est déjà présente et qu'un téléchargement de la donnée n'est pas nécessaire. Plus tard, lorsque le premier dispositif requiert un téléchargement de la donnée, le premier dispositif reçoit la donnée F' issu du dispositif malveillant et non la donnée légitime F. In this so-called convergent encryption method, it is the client program installed in the first device that creates the data identifier. As a result, malicious attacks are possible. For example, a user can create a random identifier ID completely independent of the data F to be saved; whereas, remember, the identifier should be calculated according to the data. The second device receives the couple ID / F (ID corresponds to the identifier of the data, F to the data for example a file F) and stores the couple ID / F. Later, another user of another device wishes to store a data F '; the client program of this other user correctly calculates an identifier at the base of the data (for example a hash of the data) and obtains an identifier ID which is the same as that used by the malicious device. The second device receives the identifier ID and finds that it exists in memory. The second device therefore responds to the first device that the data is already present and that a download of the data is not necessary. Later, when the first device requires a download of the data, the first device receives the data F 'from the malicious device and not the legitimate data F.
Un autre inconvénient est lié à l'observation du réseau par un tiers malveillant. En effet, lorsqu'un utilisateur sauvegarde une donnée dans le système, cet utilisateur peut observer le trafic réseau sortant et entrant sur le dispositif client et vérifier si la donnée est effectivement transmise au deuxième dispositif. Si ce n'est pas le cas, il en déduit qu'un autre utilisateur a déjà sauvegardé la donnée dans le système. Cela permet d'identifier des données déjà stockées par un système de stockage. Another disadvantage is related to the observation of the network by a malicious third party. Indeed, when a user saves data in the system, this user can observe the outgoing and incoming network traffic on the client device and check if the data is actually transmitted to the second device. If it is not the case, it deduces that another user has already saved the data in the system. This makes it possible to identify data already stored by a storage system.
L'invention offre une solution ne présentant pas les inconvénients de l'état de la technique. The invention offers a solution that does not have the drawbacks of the state of the art.
L'invention The invention
A cet effet, selon un aspect fonctionnel, l'invention a pour objet un procédé de stockage de données dans un système informatique comprenant une pluralité de premiers dispositifs stockant des données appartenant à des utilisateurs respectifs, un second dispositif apte à gérer une sauvegarde de données issues de premiers dispositifs, ladite sauvegarde comprenant une étape de déduplication de données inter-utilisateurs, caractérisé en ce qu'un dispositif intermédiaire s'intercale entre des premiers dispositifs et le deuxième dispositif, de manière à réaliser une déduplication intra-utilisateurs sur des données à sauvegarder en provenance de premiers dispositifs, et à gérer ensuite la déduplication inter-utilisateurs en coopération avec le second dispositif. For this purpose, according to a functional aspect, the subject of the invention is a method for storing data in a computer system comprising a plurality of first devices storing data belonging to respective users, a second device able to manage a data backup. from first devices, said backup comprising an inter-user data deduplication step, characterized in that an intermediate device is intercalated between first devices and the second device, so as to perform intra-user deduplication on data backing up from first devices, and then managing the inter-user deduplication in cooperation with the second device.
Rappelons ici qu'une déduplication intra-utilisateurs a pour objet un déduplication qui s'opère sur des données d'un même utilisateur et qu'une déduplication inter-utilisateurs a pour objet une déduplication qui s'opère sur des données d'utilisateurs qui peuvent être différents. Recall here that an intra-user deduplication is for a deduplication that operates on data of the same user and that an inter-user deduplication is for a deduplication that operates on data of users who can be different.
La présence d'un dispositif intermédiaire permet une double déduplication à la fois entre données d'un même utilisateur (intra-utilisateurs) mais aussi entre différents utilisateurs (inter-utilisateurs). The presence of an intermediate device allows double deduplication both between data of the same user (intra-users) but also between different users (inter-users).
Il en résulte, au niveau du premier dispositif, une économie de bande passante. En effet, lors d'une sauvegarde par un utilisateur, il n'est pas nécessaire de renvoyer toute la donnée s'il l'avait déjà envoyée lors d'une précédente sauvegarde. Seule la différence des données entre les précédentes sauvegardes et la sauvegarde courante est transmise. This results, at the level of the first device, a bandwidth saving. Indeed, during a backup by a user, it is not necessary to return all the data if it had already sent during a previous backup. Only the difference in data between previous backups and the current backup is transmitted.
Aussi, au niveau du second dispositif, il en résulte une économie en espace de stockage. En effet, le second dispositif réalise une déduplication inter-utilisateurs, et optimise donc son espace de stockage en ne stockant qu'un exemplaire de chaque donnée. Au niveau de ce second dispositif, la confidentialité des données sauvegardées est aussi assurée ; en effet, les données peuvent avantageusement être chiffrées selon le mode de chiffrement convergent décrit dans le paragraphe consacré à l'état de la technique. Le deuxième dispositif garanti donc la confidentialité des données aux utilisateurs ; seuls les utilisateurs autorisés peuvent avoir accès aux données en clair. Also, at the second device, this results in a saving in storage space. Indeed, the second device performs an inter-user deduplication, and thus optimizes its storage space by storing only one copy of each data. At the level of this second device, the confidentiality of the data saved is also ensured; indeed, the data can advantageously be encrypted according to the convergent encryption mode described in the paragraph devoted to the state of the technical. The second device thus guarantees the confidentiality of the data to the users; only authorized users can access data in the clear.
Il faut aussi noter que, dans la présente demande, un premier dispositif désigne indifféremment un dispositif de traitement de données ou un programme client. It should also be noted that, in the present application, a first device denotes indifferently a data processing device or a client program.
Selon un mode de réalisation, pour gérer la déduplication inter-utilisateurs, le dispositif intermédiaire réalise les étapes suivantes : a. Une étape de création d'un identifiant lié à une donnée à sauvegarder reçue depuis un premier dispositif, b. Une étape de transmission au cours de laquelle le dispositif intermédiaire transmet au moins l'identifiant au deuxième dispositif pour la gestion de la déduplication inter-utilisateurs de la donnée. According to one embodiment, to manage inter-user deduplication, the intermediate device performs the following steps: a. A step of creating an identifier linked to data to be saved received from a first device, b. A transmission step during which the intermediate device transmits at least the identifier to the second device for managing the inter-user deduplication of the data.
L'identifiant de la donnée sauvegardée sur le deuxième dispositif n'est pas créé par le premier dispositif mais un intermédiaire de confiance. L'identifiant n'est donc plus généré par un premier dispositif. Cela limite des attaques malveillantes par manipulation d'identifiant comme expliqué précédemment. The identifier of the data saved on the second device is not created by the first device but a trusted intermediary. The identifier is no longer generated by a first device. This limits malicious attacks by identifier manipulation as explained previously.
Selon un second mode de réalisation, qui pourra être mis en œuvre alternativement ou cumulativement avec le précédent, pour gérer la déduplication intra- utilisateur, a. le premier dispositif crée un premier identifiant lié à une donnée à sauvegarder, b. le premier dispositif transmet l'identifiant au dispositif intermédiaire pour la gestion de la déduplication intra-utilisateur. According to a second embodiment, which may be implemented alternatively or cumulatively with the previous embodiment, to manage the intra-user deduplication, a. the first device creates a first identifier linked to data to be backed up, b. the first device transmits the identifier to the intermediate device for the management of intra-user deduplication.
Le premier dispositif gère donc uniquement des identifiants qui ont traits à ses propres données et non à des données appartenant à d'autres utilisateurs. The first device therefore only manages identifiers that have its own data and not data belonging to other users.
Selon un second mode de réalisation, qui pourra être mis en œuvre alternativement ou cumulativement avec le précédent, le dispositif intermédiaire stocke une correspondance entre les identifiants liés à la déduplication intra-utilisateurs et les identifiants liés à la déduplication inter-utilisateurs. Le dispositif joue le rôle de mise en correspondance entre identifiants utilisés pour la déduplication intra-utilisateurs et interutilisateurs. Lorsque le dispositif intermédiaire reçoit un identifiant d'une donnée à sauvegarder depuis un premier dispositif et que cette donnée est déjà sauvegardée dans le deuxième dispositif, le dispositif intermédiaire peut retrouver, grâce à la correspondance, l'identifiant de la même donnée utilisé par le dispositif intermédiaire et le deuxième dispositif pour la gestion de la déduplication inter-utilisateurs. En d'autres mots, le programme client ne gère pas les identifiants liés à la déduplication inter-utilisateurs. Une attaque malveillante utilisant des identifiants aléatoires, telle que décrite dans la partie consacrée à l'état de la technique, n'est plus possible grâce à l'invention. According to a second embodiment, which can be implemented alternately or cumulatively with the previous embodiment, the intermediate device stores a correspondence between the identifiers linked to the intra-user deduplication and the identifiers linked to the inter-user deduplication. The device plays the role of mapping between identifiers used for intra-user and inter-user deduplication. When the intermediate device receives an identifier of data to be saved from a first device and this data is already saved in the second device, the intermediate device can find, through the correspondence, the identifier of the same data used by the intermediate device and the second device for the management of inter-user deduplication. In other words, the client program does not handle identifiers related to inter-user deduplication. A malicious attack using random identifiers, as described in the section devoted to the state of the art, is no longer possible thanks to the invention.
Selon un autre mode, qui pourra être mis en œuvre alternativement ou cumulativement avec les précédents, le dispositif intermédiaire est situé sur la liaison de communication au travers de laquelle le premier dispositif communique avec le deuxième dispositif. De cette façon, le dispositif ne modifie pas le chemin, souvent le plus court, qu'empruntent les données échangées entre le premier et le deuxième dispositif. Ce dispositif intermédiaire si situe idéalement dans un lieu inaccessible par un utilisateur. Ce dispositif se situe par exemple dans le réseau d'un opérateur de télécommunications. Nous verrons dans la suite de la description qu'un dispositif intermédiaire est idéalement un dispositif (POP) apte à agréger des flux de données provenant d'une pluralité de premiers dispositifs. Un tel dispositif d'agrégation est par exemple un point de présence (POP) dans une infrastructure xDSL. L'avantage d'utiliser un point de présence POP est que ce dernier est un point de passage obligatoire des données issues ou destination de premiers dispositifs ; en conséquence, ce point de présence n'introduit aucune modification sur la longueur du chemin entre un utilisateur et le deuxième dispositif. De plus, en plaçant l'intermédiaire au niveau des points de présence POP, cela garantit que les données passent par un intermédiaire hors de portée des utilisateurs et complètement sécurisé. According to another mode, which can be implemented alternately or cumulatively with the previous, the intermediate device is located on the communication link through which the first device communicates with the second device. In this way, the device does not change the path, often the shortest, that the data exchanged between the first and the second device borrows. This intermediate device if ideally located in a place inaccessible by a user. This device is located for example in the network of a telecommunications operator. We will see in the following description that an intermediate device is ideally a device (POP) capable of aggregating data streams from a plurality of first devices. Such an aggregation device is for example a point of presence (POP) in an xDSL infrastructure. The advantage of using a point of presence POP is that the latter is a mandatory point of passage of data from or destination of first devices; accordingly, this point of presence introduces no change in the path length between a user and the second device. In addition, by placing the intermediary at the point of presence POP, this ensures that the data passes through an intermediary out of reach of users and completely secure.
D'autres dispositifs d'agrégation existent, en particulier un nœud de raccordement optique (NRO) dans un réseau de fibre optique d'un opérateur de télécommunications. Other aggregation devices exist, in particular an optical connection node (NRO) in an optical fiber network of a telecommunications operator.
Selon un autre mode, qui pourra être mis en œuvre alternativement ou cumulativement avec les précédent, à l'issue de la déduplication inter-utilisateurs, le dispositif intermédiaire transmet une information relative à la sauvegarde effectuée, en ce que l'instant de déclenchement de la transmission de l'information est retardée, notamment si la donnée est déjà stockée sur le deuxième dispositif. En effet, en observant la durée de réalisation de la déduplication, un utilisateur peut dans certains cas (notamment si la donnée est d'une grande taille) déduire qu'une déduplication interutilisateurs a eu lieu. Pour rendre complètement transparente la déduplication interutilisateurs sans consommer de ressources, l'intermédiaire rajoute si besoin de la latence au traitement d'une requête d'écriture d'une donnée de telle sorte qu'elle dure autant de temps qu'un enregistrement normal d'une donnée. De cette manière, un utilisateur ne peut pas déduire si la donnée à sauvegarder vient d'être écrite dans le deuxième dispositif ou s'il elle l'était déjà stockée. According to another mode, which can be implemented alternatively or cumulatively with the previous ones, at the end of the inter-user deduplication, the intermediate device transmits information relating to the backup performed, in that the instant of activation of the transmission of information is delayed, especially if the data is already stored on the second device. Indeed, by observing the duration of realization of the deduplication, a user can in certain cases (especially if the data is of a large size) deduce that an inter-user deduplication has taken place. To make the inter-user deduplication completely transparent without consuming resources, the intermediary adds, if necessary, the latency to the processing of a request to write a data so that it lasts for as long. than a normal recording of a data. In this way, a user can not deduce if the data to be saved has just been written in the second device or if it was already stored.
Plus généralement, cet autre mode rend totalement transparente vis à vis des utilisateurs la déduplication inter-utilisateurs, ce qui n'est pas le cas des solutions existantes. More generally, this other mode makes totally transparent to users inter-user deduplication, which is not the case of existing solutions.
Selon un aspect matériel, l'invention a trait à un programme d'ordinateur comportant des instructions de code pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque ce programme est exécuté par un processeur. According to a hardware aspect, the invention relates to a computer program comprising code instructions for implementing the method according to one of the preceding claims, when this program is executed by a processor.
Selon un autre aspect matériel, l'invention a trait à un support d'enregistrement lisible par un processeur de données sur lequel est enregistré un programme comprenant des instructions de code de programme pour l'exécution des étapes du procédé défini ci- dessus. According to another material aspect, the invention relates to a recording medium readable by a data processor on which is recorded a program comprising program code instructions for executing the steps of the method defined above.
Selon un autre aspect matériel, l'invention a trait à un dispositif comprenant un module de communication pour communiquer avec une pluralité de premiers dispositifs comprenant des modules de stockage respectifs pour le stockage de données appartenant à des utilisateurs respectifs et avec un second dispositif apte à gérer une sauvegarde de données issues de premiers dispositifs, ladite sauvegarde comprenant une étape de déduplication de données inter-utilisateurs, caractérisé en ce qu'il comprend a. Un premier module de gestion de déduplication intra-utilisateurs sur des données à sauvegarder en provenance de premiers dispositifs, b. un second module de gestion de la déduplication inter-utilisateurs en coopération avec le second dispositif. According to another hardware aspect, the invention relates to a device comprising a communication module for communicating with a plurality of first devices comprising respective storage modules for storing data belonging to respective users and with a second device capable of managing a backup of data from first devices, said backup comprising an inter-user data deduplication step, characterized in that it comprises a. A first intra-user deduplication management module on data to be saved from first devices, b. a second module for managing inter-user deduplication in cooperation with the second device.
Selon un autre aspect matériel, l'invention a trait à un système informatique comprenant une pluralité de premiers dispositifs comprenant des modules de stockage respectifs pour le stockage de données appartenant à des utilisateurs respectifs, un second dispositif apte à gérer une sauvegarde de données issues de premiers dispositifs, ladite sauvegarde comprenant une étape de déduplication de données inter-utilisateurs, caractérisé en ce qu'il comprend un dispositif intermédiaire s'intercalant entre des premiers dispositifs et le deuxième dispositif, le dispositif intermédiaire comprenant a. Un premier module de gestion de déduplication intra-utilisateurs sur des données à sauvegarder en provenance de premiers dispositifs, b. un second module de gestion de la déduplication inter-utilisateurs en coopération avec le second dispositif. According to another material aspect, the invention relates to a computer system comprising a plurality of first devices comprising respective storage modules for storing data belonging to respective users, a second device capable of managing a backup of data originating from first devices, said backup comprising an inter-user data deduplication step, characterized in that it comprises an intermediate device interposed between first devices and the second device, the intermediate device comprising a. A first intra-user deduplication management module on data to be saved from first devices, b. a second module for managing inter-user deduplication in cooperation with the second device.
L'invention sera mieux comprise à la lecture de la description qui suit, donnée à titre d'exemple et faite en référence aux dessins annexés sur lesquels : The invention will be better understood on reading the description which follows, given by way of example and with reference to the appended drawings in which:
La figure 1 représente un système informatique sur lequel est illustré un exemple de réalisation de l'invention. FIG. 1 represents a computer system on which is illustrated an exemplary embodiment of the invention.
La figure 2 est une vue détaillée du système notamment du dispositif intermédiaire selon un mode de réalisation de l'invention. Figure 2 is a detailed view of the system including the intermediate device according to one embodiment of the invention.
La figure 3 est une vue schématique d'échanges ayant lieu lors d'une phase d'écriture d'une donnée sur un second dispositif. Figure 3 is a schematic view of exchanges taking place during a write phase of a data on a second device.
La figure 4 est une vue schématique d'échanges ayant lieu lors d'une phase de lecture d'une donnée sur un second dispositif. FIG. 4 is a schematic view of exchanges taking place during a reading phase of data on a second device.
La figure 5 est une vue synthétique du système selon le mode de réalisation décrit. Figure 5 is a synthetic view of the system according to the embodiment described.
Les figures 6a et 6b illustrent un autre mode de réalisation dans lequel le dispositif intermédiaire réalise les 2 phases décrites ci-dessus. Figures 6a and 6b illustrate another embodiment in which the intermediate device performs the 2 phases described above.
Description détaillée d'un exemple de réalisation illustrant l'invention Detailed description of an exemplary embodiment illustrating the invention
La figure 1 représente un système SYS informatique dans lequel l'invention peut être mise en œuvre. Ce système comprend une pluralité de dispositifs de traitement de données (PC1 ,... PCn). FIG. 1 represents a computer SYS system in which the invention can be implemented. This system comprises a plurality of data processing devices (PC1, ... PCn).
Pour simplifier l'exposé, les figures suivantes ne représentent que deux dispositifs, dits premiers dispositif PC1 et PC2. To simplify the discussion, the following figures represent only two devices, called first devices PC1 and PC2.
Dans notre exemple de réalisation, Le système est basé sur une architecture réseau de type DSL d'un fournisseur d'accès. Cette architecture comprend des programmes clients C1 et C2 installés sur les premiers dispositifs PC1 et PC2, respectivement ; un dispositif intermédiaire I qui se charge de la déduplication de données d'un même utilisateur (intra-utilisateur) ; à un dispositif intermédiaire correspond un ou plusieurs programmes clients. un deuxième dispositif SS illustré par un serveur de stockage ; ce dernier se charge de la déduplication inter-utilisateurs entre des données d'une pluralité d'utilisateurs. Dans notre exemple, ce deuxième dispositif SS se charge aussi du stockage des données soit en local soit sur des nœuds de stockages (SN1 , SNk). In our exemplary embodiment, the system is based on a DSL network architecture of an access provider. This architecture includes client programs C1 and C2 installed on the first devices PC1 and PC2, respectively; an intermediate device I which is responsible for the deduplication of data from the same user (intra-user); an intermediate device corresponds to one or more client programs. a second SS device illustrated by a storage server; the latter is responsible for inter-user deduplication between data of a plurality of users. In our example, this second device SS is also responsible for storing data either locally or on storage nodes (SN1, SNk).
Rappelons que cette architecture de type DSL peut être décomposée de manière simplifiée en 3 couches, à savoir un réseau d'accès, un réseau d'agrégation et un cœur de réseaux. Ces différentes couches sont illustrées sur la figure 2. Sur cette figure est représenté un réseau d'accès R-ACC, un réseau d'agrégation R-AGR et un cœur de réseau R-COR. Recall that this DSL type architecture can be decomposed in a simplified manner into 3 layers, namely an access network, an aggregation network and a core network. These different layers are illustrated in FIG. 2. This figure shows an access network R-ACC, an aggregation network R-AGR and a core network R-COR.
Le réseau d'accès R-ACC comprend le plus souvent de passerelles (home gateways) installées chez des clients et de multiplexeurs DSLAMs connus de l'homme du métier. Les lignes des abonnés d'une région en provenance des passerelles sont agrégées dans les multiplexeurs DSLAMs. Les multiplexeurs DSLAMs ont des capacités d'agrégations d'une centaine à des milliers d'abonnés. The R-ACC access network most often comprises gateways (home gateways) installed at customers and DSLAMs multiplexers known to those skilled in the art. The subscriber lines of a region coming from the gateways are aggregated in the DSLAMs multiplexers. DSLAMs multiplexers have aggregation capabilities of one hundred to thousands of subscribers.
Le réseau d'agrégation R-AGR regroupe les multiplexeurs DSLAMs et les points de présence (POP). Les lignes collectées par les multiplexeurs DSLAMs sont agrégées à un second niveau dans les POP. The aggregation network R-AGR combines the DSLAMs multiplexers and the points of presence (POP). Lines collected by DSLAMs are aggregated to a second level in POPs.
Enfin, le cœur de réseau R-COR comprend plusieurs Points de Présences (POP). Les point de présence POP peuvent agrégés des flux provenant de dizaines de multiplexeurs DSLAMs. Rappelons qu'un point de Présence (point de présence POP) comprend un ensemble de routeurs interconnectés à un même endroit (immeuble, salle...). Ils sont équipés de ressources physiques et logiciels dédiés au routage. On distingue 2 types de routeurs à savoir les routeurs d'accès AR et les routeurs de cœurs BR. Les routeurs d'accès sont connectés aux réseaux d'agrégation. Ces routeurs d'accès sont à leur tour connectés aux routeurs de cœur. Finally, the core network R-COR includes several Points of Presence (POP). The POPs may aggregate streams from dozens of DSLAMs. Remember that a Presence point (POP point of presence) includes a set of interconnected routers at the same place (building, room ...). They are equipped with physical resources and software dedicated to routing. There are two types of routers namely AR access routers and BR core routers. Access routers are connected to aggregation networks. These access routers are in turn connected to the core routers.
Chaque routeur d'accès à l'intérieur d'un point de présence POP est connecté à au moins deux routeurs de cœur BR pour assurer une protection en cas de pannes à l'intérieur d'un point de présence POP. Les différents routeurs de cœurs BR sont connectés entre eux en un réseau maillé (Mesh network). Les points de présence POP donnent accès au réseau IP du fournisseur d'accès à Internet. Each access router within a POP POP is connected to at least two BR core routers to provide protection in the event of outages within a POP. The different routers BR cores are connected together in a mesh network (Mesh network). POP POPs provide access to the IP network of the ISP.
La déduplication peut être faite à différents niveaux de granularité des données, par exemple au niveau fichier, au niveau d'un bloc, au niveau octet. Dans la suite, une donnée D va faire l'objet d'une sauvegarde. Un mode de réalisation d'une phase d'écriture d'une donnée va être décrit en référence à la figure 3. Ce mode comprend plusieurs étapes référencées ET1 -k (k=1 à 10) sur la figure 3. Deduplication can be done at different levels of data granularity, for example at file level, block level, byte level. In the following, a datum D will be the subject of a backup. An embodiment of a data writing phase will be described with reference to FIG. 3. This mode comprises several steps referenced ET1 -k (k = 1 to 10) in FIG.
On suppose qu'un utilisateur U1 avec un identifiant IDU souhaite sauvegarder une donnée D dans un espace de stockage SNk géré par le deuxième dispositif SS. It is assumed that a user U1 with an identifier IDU wishes to save data D in a storage space SNk managed by the second device SS.
Selon le procédé, en référence à la figure 1 , un dispositif intermédiaire I va gérer les déduplications intra-utilisateurs INTRA, et le serveur SS va gérer les déduplications inter-utilisateurs INTER. According to the method, with reference to FIG. 1, an intermediate device I will manage the intra-user deduplications INTRA, and the server SS will manage the inter-user deduplications INTER.
La localisation du dispositif intermédiaire dans le réseau peut varier ; il peut se situer dans un premier dispositif PC1 /PC2, dans le deuxième dispositif SS ou sur un dispositif intermédiaire du réseau. Nous verrons dans la suite qu'un dispositif intermédiaire est choisi judicieusement en particulier en vue d'augmenter la bande passante au niveau d'un second dispositif car c'est à ce niveau que le volume de données est le plus important. The location of the intermediate device in the network may vary; it can be located in a first device PC1 / PC2, in the second device SS or on an intermediate device of the network. We will see in the following an intermediate device is chosen wisely especially to increase the bandwidth at a second device because it is at this level that the volume of data is the largest.
Dans notre exemple, un multiplexeur POP est le lieu choisi pour illustrer le mode de réalisation. Un multiplexeur POP a l'avantage d'être à la fois un dispositif de confiance car situé dans une zone de confiance, à savoir dans le réseau cœur ; et dans ce réseau au plus près des premiers dispositifs. In our example, a POP multiplexer is the location chosen to illustrate the embodiment. A POP multiplexer has the advantage of being both a trusted device because it is located in a zone of confidence, namely in the core network; and in this network as close to the first devices.
La donnée D peut être transmise en clair, c'est-à-dire de façon non chiffrée ; cependant pour assurer la confidentialité, dans notre exemple, la donnée est chiffrée au moyen d'un algorithme de chiffrement connu de l'homme du métier. The data D can be transmitted in clear, that is to say in an unencrypted manner; however, to ensure confidentiality, in our example, the data is encrypted by means of an encryption algorithm known to those skilled in the art.
Dans la suite, une primitive peut être écrite de la façon suivante In the following, a primitive can be written in the following way
Send(src, dest, COMMAND, param_1 , param_2,.., param_N) : Send (src, dest, COMMAND, param_1, param_2, .., param_N):
Cette primitive est utilisée pour désigner une commande de transmission de paramètres depuis une source « src », par exemple un premier dispositif, vers une destination « dest », par exemple un dispositif intermédiaire. This primitive is used to designate a command for transmitting parameters from a source "src", for example a first device, to a destination "dest", for example an intermediate device.
Dans la suite : In the following :
Hash(D) désignera une fonction de hachage et D la donnée à laquelle est appliquée la fonction de hachage ; Hash (D) designates a hash function and D the data to which the hash function is applied;
Easym désignera une fonction de chiffrement asymétrique ; Esym désignera une fonction de chiffrement symétrique Easym will designate an asymmetric encryption function; Esym will designate a symmetric encryption function
Dans notre exemple, chaque utilisateur U1 et U2 possède une clé publique et une clé privée. In our example, each user U1 and U2 has a public key and a private key.
Les étapes sont les suivantes : The steps are as follows:
Lors d'une première étape ET1 -1 , dans notre exemple, le programme client C1 de l'utilisateur U1 crée un hash de la donnée D à envoyer : During a first step ET1 -1, in our example, the client program C1 of the user U1 creates a hash of the data D to send:
HD = Hash(D) HD = Hash (D)
Lors d'une deuxième étape ET1 -2, optionnellement, le programme client C1 de l'utilisateur U1 crée l'identifiant IDD de la donnée D qui servira à gérer une déduplication intra-utilisateur sur le dispositif intermédiaire I. Cette étape est optionnelle mais conseillée car comparer chaque bit d'une donnée, surtout si le nombre de bits est important, peut s'avérer très long et coûteux en terme de consommation de ressources informatiques. Aussi, l'utilisation d'un identifiant évite pour un premier dispositif de transmettre toute la donnée alors que cette donnée a déjà fait l'objet d'une sauvegarde. In a second step ET1 -2, optionally, the client program C1 of the user U1 creates the IDD identifier of the data D which will be used to manage an intra-user deduplication on the intermediate device I. This step is optional but recommended because comparing each bit of a data, especially if the number of bits is important, can be very long and expensive in terms of consumption of computing resources. Also, the use of an identifier avoids for a first device to transmit all the data while this data has already been the subject of a backup.
Dans notre exemple, comme la déduplication entre le premier dispositif PC1 et le dispositif intermédiaire I est intra-utilisateur, c'est-à-dire entre des données appartenant à un même utilisateur, l'identifiant est créé de telle sorte que des collisions entre identifiants de données différents créés par un même utilisateur ne soient pas possibles. Par exemple, l'identifiant peut être un hachage prenant en compte la valeur HD créée à l'étape 1 et de l'identifiant de l'utilisateur IDU. L'opération de hachage peut être notée de la façon suivante : In our example, as the deduplication between the first device PC1 and the intermediate device I is intra-user, that is to say between data belonging to the same user, the identifier is created so that collisions between Different data identifiers created by the same user are not possible. For example, the identifier may be a hash taking into account the HD value created in step 1 and the IDU user ID. The hash operation can be written as follows:
IDD = Hash(IDU, HD) IDD = Hash (IDU, HD)
Lors d'une troisième étape ET1 -3, le programme client C1 de l'utilisateur U1 transmet à l'intermédiaire I l'identifiant IDD de la donnée D afin de vérifier qu'il ne possède pas déjà cette donnée D. During a third step ET1 -3, the client program C1 of the user U1 transmits to the intermediary I the IDD identifier of the data D to verify that it does not already have this data D.
Plus précisément la primitive transmise peut prendre la forme suivante : More precisely, the transmitted primitive can take the following form:
Send(IDU, I, CHECK, IDD) Send (IDU, I, CHECK, IDD)
La primitive inclut : The primitive includes:
- l'identifiant de l'utilisateur IDU, - un identifiant de l'intermédiaire IDI, - the identifier of the user IDU, an identifier of the intermediate IDI,
- L'identifiant de la donnée IDD, - The identifier of the IDD data,
- une commande CHECK requérant une vérification de la présence ou nom de l'identifiant IDD au niveau du dispositif intermédiaire. a CHECK command requiring verification of the presence or name of the IDD identifier at the intermediate device.
Lors d'une quatrième étape ET1 -4 : A réception, le dispositif intermédiaire I vérifie dans l'index des données de l'utilisateur U 1 si l'identifiant IDD existe ou pas. In a fourth step ET1 -4: Upon receipt, the intermediate device I verifies in the index data of the user U 1 if the identifier IDD exists or not.
Si IDD existe dans l'index de l'utilisateur U1 , le dispositif intermédiaire I répond au programme client C1 de l'utilisateur U1 qu'il n'est pas nécessaire de transmettre la donnée D. L'opération de sauvegarde de la donnée D se termine. If IDD exists in the index of the user U1, the intermediate device I responds to the client program C1 of the user U1 that it is not necessary to transmit the data D. The operation of saving the data D end.
Sinon, le dispositif intermédiaire I répond au programme client C1 de l'utilisateur U1 qu'il doit transmettre la donnée, dans notre exemple la donnée chiffrée, et sa clé chiffrée de déchiffrement. Otherwise, the intermediate device I responds to the client program C1 of the user U1 that it must transmit the data, in our example the encrypted data, and its decrypted encryption key.
Cette étape peut être illustrée par la syntaxe suivante: This step can be illustrated by the following syntax:
If index.get(IDU).contains(IDD) If index.get (IDU) .contains (IDD)
Send(l, IDU, IDD, CHECK_RESPONSE, YES) Send (IDU, IDD, CHECK_RESPONSE, YES)
Else else
Send(l, IDU, IDD, CHECK_RESPONSE, NO) Send (IDU, IDD, CHECK_RESPONSE, NO)
Lors d'une cinquième étape ET1 -5.1 , lorsque le programme client C1 de l'utilisateur U1 obtient la réponse du dispositif intermédiaire I ; Si l'identifiant IDD existe déjà, la sauvegarde est considérée comme effectuée et l'opération se termine. During a fifth step ET1 -5.1, when the client program C1 of the user U1 obtains the response of the intermediate device I; If the IDD already exists, the backup is considered completed and the operation ends.
Si l'identifiant IDD n'existe pas, le programme client C1 de l'utilisateur U1 transmet, lors d'une étape ET1 -5.2, la donnée D chiffrée et sa clé chiffrée de déchiffrement. If the identifier IDD does not exist, the client program C1 of the user U1 transmits, during a step ET1 -5.2, the encrypted data D and its decrypted encryption key.
Le programme client C1 de l'utilisateur U1 chiffre la donnée D avec la clé HD pour obtenir une donnée chiffrée DE puis chiffre la clé HD avec sa clé publique Ku_pub pour obtenir HDE afin que seul lui, c'est-à-dire le programme client C1 de l'utilisateur U1 , n'aie accès à la clé de déchiffrement en clair. Le programme client C1 de l'utilisateur U1 transmet ensuite la donnée chiffrée DE et la clé chiffrée de déchiffrement HDE. Ces dernières étapes peuvent être illustrées par la syntaxe suivante: The client program C1 of the user U1 encrypts the data D with the key HD to obtain encrypted data DE and then encrypts the key HD with its public key Ku_pub to obtain HDE so that only it, that is to say the program client C1 of the user U1, has access to the decryption key in clear. The client program C1 of the user U1 then transmits the encrypted data DE and the decrypted encryption key HDE. These last steps can be illustrated by the following syntax:
If IDD exists If IDD exists
Fin de la sauvegarde (ET1 -5.1 ) End of the backup (ET1 -5.1)
Else (ET1 -5.2) Else (ET1 -5.2)
DE = Esym(HD, D) DE = Esym (HD, D)
HDE = Easym(Ku_pub, HD) HDE = Easym (Ku_pub, HD)
Send(IDU, I, PUT, IDD, HDE, DE) Send (IDU, I, PUT, IDD, HDE, DE)
A ce stade, une première phase de déduplication est terminée. At this point, a first phase of deduplication is complete.
Une deuxième phase démarre au cours de laquelle une déduplication interutilisateurs va être réalisée. A second phase starts during which an inter-user deduplication will be performed.
Lors d'une sixième étape ET1 -6, lorsque le dispositif intermédiaire I reçoit la donnée, il crée un hash de DE pour créer un identifiant système IDD_sys qui servira à la gestion de la déduplication inter-utilisateurs au niveau du deuxième dispositif SS. Toutes les données étant chiffrées de la même manière par tous les utilisateurs U1 et U2, deux fichiers égaux avant le chiffrement seront toujours égaux après le chiffrement et auront ainsi le même identifiant système. In a sixth step ET1 -6, when the intermediate device I receives the data, it creates a hash of DE to create an IDD_sys system identifier which will be used to manage the inter-user deduplication at the second SS device. Since all data is encrypted in the same way by all U1 and U2 users, two equal files before encryption will always be equal after the encryption and thus have the same system identifier.
IDD_sys = Hash(DE) IDD_sys = Hash (DE)
Lors d'une septième étape ET1 -7, le dispositif intermédiaire I met à jour son index concernant la sauvegarde de IDD par U1 et l'identifiant système IDD_sys attribué à la donnée D. During a seventh step ET1 -7, the intermediate device I updates its index concerning the backup of IDD by U1 and the system identifier IDD_sys attributed to the data D.
Index. update(IDU, IDD, IDD_sys) Index. update (IDU, IDD, IDD_sys)
A ce stade, dans notre exemple, au moins trois identifiants coexistent au niveau du dispositif intermédiaire à savoir l'identifiant IDU de l'utilisateur U1 , l'identifiant IDD de la donnée D et l'identifiant système IDD_sys. At this stage, in our example, at least three identifiers coexist at the intermediate device namely the IDU identifier of the user U1, the IDD identifier of the data D and the system identifier IDD_sys.
Lors d'une huitième étape ET1 -8, le dispositif intermédiaire I vérifie dans son index si IDD_sys existe ou pas. During an eighth step ET1 -8, the intermediate device I checks in its index if IDD_sys exists or not.
Si IDD_sys existe (relativement à un autre utilisateur) dans le système, cela veut dire que la donnée est déjà stockée sur un nœud de stockage SNk et qu'il n'est pas nécessaire de la restocker. Le dispositif intermédiaire I transmet alors juste une référence de la donnée DE au serveur SS ainsi que la clé chiffrée de déchiffrement HDE. If IDD_sys exists (relative to another user) in the system, this means that the data is already stored on a SNk storage node and that there is no need to restock it. The intermediate device I then transmits just a reference of the data DE to the server SS as well as the decrypted encryption key HDE.
- Si IDD_sys n'existe pas, la donnée DE n'est donc pas stockée sur les nœuds de stockage SNk ; DE et HDE sont alors transmis au serveur SS. If IDD_sys does not exist, the data DE is thus not stored on the storage nodes SNk; DE and HDE are then transmitted to the SS server.
Cette étape peut être illustrée par la syntaxe suivante: This step can be illustrated by the following syntax:
If IDD_sys exists If IDD_sys exists
Send(l, FSS, PUT, IDU, IDD, IDD_sys, HDE) Send (l, FSS, PUT, IDU, IDD, IDD_sys, HDE)
Else else
Send(l, FSS, PUT, IDU, IDD, IDD_sys, HDE, DE) Send (l, FSS, PUT, IDU, IDD, IDD_sys, HDE, DE)
Lors d'une neuvième étape ET1 -9, le serveur SS notifie au dispositif intermédiaire I que la sauvegarde a bien été effectuée. During a ninth step ET1 -9, the server SS notifies the intermediate device I that the backup has been made.
Send(FSS, I, PUT_ACK, IDU, IDD, IDD_sys, OK) Send (FSS, I, PUT_ACK, IDU, IDD, IDD_sys, OK)
Lors d'une dixième étape ET1 -10, le dispositif intermédiaire I notifie au programme client de l'utilisateur U1 de la fin de la sauvegarde de DE. During a tenth step ET1 -10, the intermediate device I notifies the client program of the user U1 of the end of the backup of DE.
Cette étape peut être illustrée par la syntaxe suivante: This step can be illustrated by the following syntax:
Send(l, IDU, PUT_ACK, IDD, OK) Send (IDU, PUT_ACK, IDD, OK)
Cette phase d'écriture peut être suivie d'une phase de lecture d'une donnée faisant intervenir le dispositif intermédiaire I. cette phase de lecture va être décrite en référence à la figure 4 qui comprend des étapes référencées ET2-j sur la figure 4. This writing phase can be followed by a reading phase of a data involving the intermediate device I. This reading phase will be described with reference to Figure 4 which includes steps referenced ET2-j in Figure 4 .
Les étapes précédentes illustrent la phase d'écriture. Les étapes suivantes illustrent une phase de lecture de la donnée D. The previous steps illustrate the writing phase. The following steps illustrate a reading phase of the data D.
Lors d'une première étape ET 2-1 de cette phase de lecture, le programme client C1 de l'utilisateur U1 transmet au dispositif intermédiaire I l'identifiant IDD de la donnée D qu'il souhaite récupérer, à savoir IDD. Cette étape peut être illustrée par la syntaxe suivante: During a first step ET 2-1 of this reading phase, the client program C1 of the user U1 transmits to the intermediate device I the IDD identifier of the data D it wishes to recover, namely IDD. This step can be illustrated by the following syntax:
Send(IDU, I, G ET, IDD) Le dispositif intermédiaire I recherche ensuite l'identifiant IDD dans l'index utilisateur U1 . Send (IDU, I, G AND, IDD) The intermediate device I then searches for the identifier IDD in the user index U1.
Si l'identifiant IDD existe dans les données de l'utilisateur U1 , le dispositif intermédiaire I recherche l'identifiant système IDD_sys qui correspond à l'identifiant IDD dans un index système. L'index système peut être représenté au moyen d'une table de correspondance entre des identifiants résultant de la déduplication intra-utilisateurs, par exemple IDD, et des identifiants système IDD_sys. If the identifier IDD exists in the data of the user U1, the intermediate device I searches the system identifier IDD_sys which corresponds to the identifier IDD in a system index. The system index can be represented by means of a table of correspondence between identifiers resulting from intra-user deduplication, for example IDD, and IDD_sys system identifiers.
Une fois l'identifiant système IDD_sys trouvé, la donnée chiffrée DE ainsi que la clé chiffrée de déchiffrement de D sont récupérés sur le serveur SS lors d'une deuxième étape ET2-2 et transmis à l'utilisateur U1 lors d'une troisième étape ET2-3. Si l'identifiant IDD n'existe pas dans les données de l'utilisateur U1 , une réponse négative est transmise à l'utilisateur U1 lors d'une quatrième étape ET2-4 de cette phase de lecture. Once the IDD_sys system identifier has been found, the encrypted data DE as well as the decrypted encryption key of D are retrieved on the server SS during a second step ET2-2 and transmitted to the user U1 during a third step ET2-3. If the identifier IDD does not exist in the data of the user U1, a negative response is transmitted to the user U1 during a fourth step ET2-4 of this reading phase.
Nous résumons les étapes précédentes de cette phase de lecture par le code ci-dessous exécuté par le dispositif intermédiaire I We summarize the previous steps of this reading phase by the code below executed by the intermediate device I
If lndex_Utilisateurs.get(IDU).contains(IDD) If lndex_Users.get (IDU) .contains (IDD)
IDD_sys = lndex_Utilisateurs.getSystem_lndex(IDU, IDD)  IDD_sys = user_index.getSystem_lndex (IDU, IDD)
HDE, DE = Send(l, FSS, GET, IDU, IDD, IDD_sys) HDE, DE = Send (1, FSS, GET, IDU, IDD, IDD_sys)
(ET2.2et ET2.3)  (ET2.2and ET2.3)
Send(l, IDU, GET_RESPONSE, IDD, HDE, DE) Send (IDU, GET_RESPONSE, IDD, HDE, DE)
(ET 2.4) Else  (ET 2.4) Else
Send(l, IDU, GET_RESPONSE, IDD, NO) Send (IDU, GET_RESPONSE, IDD, NO)
(ET2.4)  (ET2.4)
Nous avons vu, dans ce qui précède, que l'intermédiaire a un intérêt à être placé au niveau d'un point de présence POP. Cependant un autre lieu peut être envisageable. We have seen, in the foregoing, that the intermediary has an interest in being placed at a point of presence POP. However, another place may be possible.
Aussi, le nombre de dispositifs intermédiaires I est quelconque. Un seul dispositif intermédiaire peut être envisageable ; cependant, de manière à réduire la consommation de ressources sur un dispositif intermédiaire, il est préférable de prévoir la gestion de la déduplication intra-utilisateurs sur plusieurs dispositifs intermédiaires et d'associer plusieurs premiers dispositifs à un même dispositif intermédiaire. Nous avons vu aussi dans ce qui précède, en référence à la figure 5, que le point de présence POP et le serveur de stockage SS sont des nœuds distincts sur le réseau. Also, the number of intermediate devices I is arbitrary. Only one intermediate device can be envisaged; however, in order to reduce the resource consumption on an intermediate device, it is preferable to provide the management of intra-user deduplication on several intermediate devices and to associate several first devices with the same intermediate device. We have also seen in the foregoing, with reference to FIG. 5, that the POP POP and the SS storage server are separate nodes on the network.
Cependant, en référence à la figure 6a ou 6b, un dispositif intermédiaire POP2 peut jouer le rôle à la fois d'intermédiaire I pour la réalisation de l'opération de déduplication et de serveur de stockage SS. However, with reference to FIG. 6a or 6b, an intermediate device POP2 can play the role of both intermediary I for carrying out the deduplication and SS storage server operation.
Sur la figure 6a sont représentés deux dispositifs intermédiaires, à savoir un premier POP1 et un deuxième P02Dans cette configuration, lorsque le premier dispositif intermédiaire POP1 reçoit une requête issue d'un programme client C1 qui lui est associé, par exemple depuis un programme client inclus dans un PC1 d'une même région géographique, le dispositif intermédiaire POP1 réalise l'opération de déduplication de données. Lorsque le second dispositif intermédiaire POP2 reçoit une requête du premier dispositif intermédiaire POP1 , le second dispositif intermédiaire POP2 agit dans ce cas uniquement comme un serveur de stockage SS. A noter que sur la figure 6a, une passerelle domestique GTW se situe entre le premier dispositif PC1 et le point POP1 . FIG. 6a shows two intermediate devices, namely a first POP1 and a second P02In this configuration, when the first intermediate device POP1 receives a request from a client program C1 that is associated with it, for example from an included client program. in a PC1 of the same geographical region, the intermediate device POP1 performs the data deduplication operation. When the second intermediate device POP2 receives a request from the first intermediate device POP1, the second intermediate device POP2 acts in this case only as a storage server SS. Note that in Figure 6a, a home gateway GTW is between the first device PC1 and the point POP1.
Sur la figure 6b sont représentés deux dispositifs intermédiaires, à savoir un premier dispositif POP1 et un deuxième dispositif P02. Dans cet exemple, les deux dispositifs gèrent à la fois la déduplication et le stockage sur les nœuds de stockage SN. FIG. 6b shows two intermediate devices, namely a first device POP1 and a second device P02. In this example, both devices handle both deduplication and storage on the SN storage nodes.
On a vu précédemment qu'à l'étape 10, le dispositif intermédiaire I notifie au programme client de l'utilisateur U1 de la fin de la sauvegarde de DE. On a vu, en référence à l'état de la technique, que par l'observation du réseau un utilisateur peut observer le trafic réseau sortant et entrant sur le dispositif client et vérifier si une donnée à sauvegarder est effectivement transmise au deuxième dispositif. Si ce n'est pas le cas, il en déduit qu'un autre utilisateur a déjà sauvegardé le fichier dans le système. Cela permet d'identifier des fichiers déjà stockés par un système de stockage. Dans cette configuration, selon une variante, l'instant de déclenchement de la transmission de la réponse est retardé, en particulier si la donnée est déjà stockée sur le deuxième dispositif. En effet, la durée de la déduplication varie selon que la donnée est déjà ou non présente sur le deuxième dispositif. L'instant de déclenchement est donc choisi de telle sorte que la durée globale entre la transmission de la demande et la réception de la réponse à l'étape 10 est plus ou moins la même. Cette caractéristique permet de masquer au premier dispositif qu'une déduplication inter-utilisateurs a été effectuée. Selon une autre variante, l'instant de transmission peut être aléatoire de manière à masquer encore une fois la durée de traitement effective de l'opération de déduplication. Notons qu'un dispositif intermédiaire possède les modules suivants (non représentés sur les figures) pour la réalisation du procédé de l'invention : a. Un premier module de gestion de déduplication intra-utilisateurs sur des données à sauvegarder en provenance de premiers dispositifs, b. un second module de gestion de la déduplication inter-utilisateurs en coopération avec le second dispositif. It has been seen previously that in step 10, the intermediate device I notifies the client program of the user U1 of the end of the backup of DE. It has been seen, with reference to the state of the art, that by observation of the network a user can observe the outgoing and incoming network traffic on the client device and check whether data to be saved is actually transmitted to the second device. If it is not the case, it deduces that another user has already saved the file in the system. This makes it possible to identify files already stored by a storage system. In this configuration, according to a variant, the instant of triggering the transmission of the response is delayed, in particular if the data is already stored on the second device. Indeed, the duration of the deduplication depends on whether the data is already present or not on the second device. The trigger time is therefore chosen so that the overall time between the transmission of the request and the reception of the response in step 10 is more or less the same. This feature makes it possible to hide from the first device that an inter-user deduplication has been performed. According to another variant, the instant of transmission may be random so as to mask once again the effective processing time of the deduplication operation. Note that an intermediate device has the following modules (not shown in the figures) for carrying out the method of the invention: a. A first intra-user deduplication management module on data to be saved from first devices, b. a second module for managing inter-user deduplication in cooperation with the second device.
A noter que le te terme « module » utilisé dans ce document, peut correspondre soit à un composant logiciel, soit à un composant matériel, soit encore à un ensemble de composants matériels et/ou logiciels, aptes à mettre en œuvre la ou les fonctions décrites pour le module. Note that the term "module" used in this document, may correspond to either a software component or a hardware component, or to a set of hardware and / or software components, capable of implementing the function or functions described for the module.
Précisons encore que l'exemple de réalisation décrit ci-dessus se base sur une architecture DSL. Cependant, l'invention peut être mise en œuvre dans d'autres architectures dans lesquels une déduplication de données est possible, par exemple un réseau de fibre optique. Note further that the embodiment described above is based on a DSL architecture. However, the invention can be implemented in other architectures in which data deduplication is possible, for example an optical fiber network.

Claims

Revendications claims
1 . Procédé de stockage de données dans un système informatique (SYS) comprenant une pluralité de premiers dispositifs (PC1 .PC2) stockant des données appartenant à des utilisateurs respectifs (U1 ,U2), un second dispositif (SS) apte à gérer une sauvegarde de données issues de premiers dispositifs, ladite sauvegarde comprenant une étape de déduplication de données interutilisateurs, caractérisé en ce qu'un dispositif intermédiaire (I) s'intercale entre des premiers dispositifs (PC1 .PC2) et le deuxième dispositif (SS), de manière à réaliser une déduplication intra-utilisateur sur des données à sauvegarder en provenance de premiers dispositifs, et à gérer ensuite la déduplication interutilisateurs en coopération avec le second dispositif (SS). 1. A method of storing data in a computer system (SYS) comprising a plurality of first devices (PC1 .PC2) storing data belonging to respective users (U1, U2), a second device (SS) capable of managing a data backup from first devices, said backup comprising an inter-user data deduplication step, characterized in that an intermediate device (I) is intercalated between first devices (PC1 .PC2) and the second device (SS), so as to performing intra-user deduplication on data to be backed up from first devices, and then managing the inter-user deduplication in cooperation with the second device (SS).
2. Procédé de stockage de données selon la revendication 1 , caractérisé en ce que pour gérer la déduplication inter-utilisateurs, le dispositif intermédiaire réalise les étapes suivantes : a. une étape de création d'un identifiant (IDsys) lié à une donnée (DE) à sauvegarder reçue depuis un premier dispositif, b. une étape de transmission au cours de laquelle le dispositif intermédiaire transmet au moins l'identifiant (IDsys) au deuxième dispositif pour la gestion de la déduplication inter-utilisateurs de la donnée (DE). Data storage method according to claim 1, characterized in that for managing the inter-user deduplication, the intermediate device performs the following steps: a. a step of creating an identifier (IDsys) linked to data (DE) to be saved received from a first device, b. a transmission step during which the intermediate device transmits at least the identifier (IDsys) to the second device for managing the inter-user deduplication of the data (DE).
3. Procédé de stockage selon la revendication 1 , caractérisé en ce que pour gérer la déduplication intra-utilisateur, a. le premier dispositif crée un premier identifiant (IDD) lié à une donnée (D) à sauvegarder, b. le premier dispositif transmet l'identifiant (IDD) au dispositif intermédiaire (I) pour la gestion de la déduplication intra-utilisateur; 3. Storage method according to claim 1, characterized in that for managing the intra-user deduplication, a. the first device creates a first identifier (IDD) linked to a data item (D) to be saved, b. the first device transmits the identifier (IDD) to the intermediate device (I) for the management of intra-user deduplication;
4. Procédé de stockage selon les revendications 2 et 3, caractérisé en ce que le dispositif intermédiaire stocke une correspondance entre les identifiants liés à la déduplication intra-utilisateurs et les identifiants liés à la déduplication interutilisateurs 4. Storage method according to claims 2 and 3, characterized in that the intermediate device stores a correspondence between the identifiers related to intra-user deduplication and the identifiers related to inter-user deduplication.
5. Procédé de stockage selon la revendication 1 , caractérisé en ce que le dispositif intermédiaire (I) est situé sur la liaison de communication au travers de laquelle le premier dispositif communique avec le deuxième dispositif. 5. Storage method according to claim 1, characterized in that the intermediate device (I) is located on the communication link through which the first device communicates with the second device.
6. Procédé de stockage selon la revendication 5, caractérisé en ce que, sur la liaison, le dispositif intermédiaire (POP) est un dispositif apte à agréger des flux de données provenant de premiers dispositifs. 6. Storage method according to claim 5, characterized in that, on the link, the intermediate device (POP) is a device capable of aggregating data streams from first devices.
7. Procédé de stockage selon la revendication 1 , caractérisé en ce que, à l'issue de la déduplication inter-utilisateurs, le dispositif intermédiaire (I) transmet une information relative à la sauvegarde effectuée, et en ce que l'instant de déclenchement de la transmission de l'information est retardé. 7. Storage method according to claim 1, characterized in that, after the inter-user deduplication, the intermediate device (I) transmits information relating to the backup performed, and in that the trigger time the transmission of information is delayed.
8. Programme d'ordinateur comportant des instructions de code pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque ce programme est exécuté par un processeur. 8. Computer program comprising code instructions for implementing the method according to one of the preceding claims, when the program is executed by a processor.
9. Dispositif (I) comprenant un module de communication pour communiquer avec une pluralité de premiers dispositifs (PC1 ) comprenant des modules de stockage respectifs pour le stockage de données appartenant à des utilisateurs respectifs (U1 ) et avec un second dispositif (SS) apte à gérer une sauvegarde de données issues de premiers dispositifs, ladite sauvegarde comprenant une étape de déduplication de données inter-utilisateurs, caractérisé en ce qu'il comprend a. Un premier module de gestion de déduplication intra-utilisateurs sur des données à sauvegarder en provenance de premiers dispositifs, b. un second module de gestion de la déduplication inter-utilisateurs en coopération avec le second dispositif (SS). Apparatus (I) comprising a communication module for communicating with a plurality of first devices (PC1) comprising respective storage modules for storing data belonging to respective users (U1) and with a second device (SS) capable of managing a backup of data from first devices, said backup comprising an inter-user data deduplication step, characterized in that it comprises a. A first intra-user deduplication management module on data to be saved from first devices, b. a second inter-user deduplication management module in cooperation with the second device (SS).
10. Système informatique (SYS) comprenant une pluralité de premiers dispositifs (PC1 ) comprenant des modules de stockage respectifs pour le stockage de données appartenant à des utilisateurs respectifs (U1 ), un second dispositif (SS) apte à gérer une sauvegarde de données issues de premiers dispositifs, ladite sauvegarde comprenant une étape de déduplication de données inter-utilisateurs, caractérisé en ce qu'il comprend un dispositif intermédiaire s'intercalant entre des premiers dispositifs et le deuxième dispositif, le dispositif intermédiaire (I) comprenant a. Un premier module de gestion de déduplication intra-utilisateurs sur des données à sauvegarder en provenance de premiers dispositifs, b. un second module de gestion de la déduplication inter-utilisateurs en coopération avec le second dispositif (SS). 10. Computer system (SYS) comprising a plurality of first devices (PC1) comprising respective storage modules for storing data belonging to respective users (U1), a second device (SS) capable of managing a backup of data from first devices, said backup comprising an inter-user data deduplication step, characterized in that it comprises an intermediate device interposed between first devices and the second device, the intermediate device (I) comprising a. A first intra-user deduplication management module on data to be saved from first devices, b. a second inter-user deduplication management module in cooperation with the second device (SS).
PCT/FR2014/050653 2013-03-28 2014-03-20 Method for storing data in a computer system performing data deduplication WO2014154973A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP14717158.1A EP2979222B1 (en) 2013-03-28 2014-03-20 Method for storing data in a computer system performing data deduplication
US14/780,391 US20160054949A1 (en) 2013-03-28 2014-03-20 Method for storing data in a computer system performing data deduplication

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1352798 2013-03-28
FR1352798A FR3003968A1 (en) 2013-03-28 2013-03-28 METHOD FOR STORING DATA IN A COMPUTER SYSTEM COMPRISING DATA DEDUPLICATION

Publications (1)

Publication Number Publication Date
WO2014154973A1 true WO2014154973A1 (en) 2014-10-02

Family

ID=48613931

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2014/050653 WO2014154973A1 (en) 2013-03-28 2014-03-20 Method for storing data in a computer system performing data deduplication

Country Status (4)

Country Link
US (1) US20160054949A1 (en)
EP (1) EP2979222B1 (en)
FR (1) FR3003968A1 (en)
WO (1) WO2014154973A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3248354A4 (en) * 2015-01-19 2018-08-15 Nokia Technologies Oy Method and apparatus for heterogeneous data storage management in cloud computing

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10649974B1 (en) 2015-09-30 2020-05-12 EMC IP Holding Company User-level processes in a shared multi-tenant de-duplication system
US10380098B1 (en) 2015-09-30 2019-08-13 EMC IP Holding Company LLC Fine-grained shared multi-tenant de-duplication system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2518647A1 (en) * 2011-04-28 2012-10-31 Thomson Licensing Method for uploading a file in an on-line storage system and corresponding on-line storage system
WO2012158654A2 (en) * 2011-05-14 2012-11-22 Bitcasa, Inc. Cloud file system with server-side deduplication of user-agnostic encrypted files

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285681B2 (en) * 2009-06-30 2012-10-09 Commvault Systems, Inc. Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites
US20120158654A1 (en) * 2010-12-17 2012-06-21 Google Inc. Receipt storage in a digital wallet

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2518647A1 (en) * 2011-04-28 2012-10-31 Thomson Licensing Method for uploading a file in an on-line storage system and corresponding on-line storage system
WO2012158654A2 (en) * 2011-05-14 2012-11-22 Bitcasa, Inc. Cloud file system with server-side deduplication of user-agnostic encrypted files

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DANNY HARNIK ET AL: "Side Channels in Cloud Services: Deduplication in Cloud Storage", SECURITY & PRIVACY, IEEE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 8, no. 6, November 2010 (2010-11-01), pages 40 - 47, XP011337307, ISSN: 1540-7993, DOI: 10.1109/MSP.2010.187 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3248354A4 (en) * 2015-01-19 2018-08-15 Nokia Technologies Oy Method and apparatus for heterogeneous data storage management in cloud computing
US10581856B2 (en) 2015-01-19 2020-03-03 Nokia Technologies Oy Method and apparatus for heterogeneous data storage management in cloud computing

Also Published As

Publication number Publication date
EP2979222B1 (en) 2019-10-09
FR3003968A1 (en) 2014-10-03
US20160054949A1 (en) 2016-02-25
EP2979222A1 (en) 2016-02-03

Similar Documents

Publication Publication Date Title
US8838968B2 (en) System and method for virtual machine data protection in a public cloud
EP2819052B1 (en) Method and server for processing a request for a terminal to access a computer resource
US8924705B1 (en) Method and detection system for detecting encrypted peer-to-peer (EP2P) sessions associated with a particular EP2P network
FR2923969A1 (en) METHOD FOR MANAGING FRAMES IN A GLOBAL COMMUNICATION NETWORK, COMPUTER PROGRAM PRODUCT, CORRESPONDING STORAGE MEDIUM AND TUNNEL HEAD
US20180124025A1 (en) Providing visibility into encrypted traffic without requiring access to the private key
EP3695571B1 (en) Device and method for data transmission
EP2979222B1 (en) Method for storing data in a computer system performing data deduplication
EP3545641A1 (en) Searchable encryption method
EP3229483B1 (en) Extraction of video streams
WO2018060657A1 (en) Method of enciphered traffic inspection with trapdoors provided
FR3057122B1 (en) METHOD AND DEVICE FOR DETECTING INTRUSIONS ON A NETWORK USING A HOMOMORPHIC ENCRYPTION ALGORITHM
FR2965431A1 (en) SYSTEM FOR EXCHANGING DATA BETWEEN AT LEAST ONE TRANSMITTER AND ONE RECEIVER
FR3039952A1 (en) METHOD FOR TRANSMITTING INFORMATION BETWEEN TWO DOMAINS OF SEPARATE SECURITY LEVELS
JP6571927B2 (en) Data protection device, data protection method, and data protection program
WO2007028533A1 (en) Method for the transmission of information with improved perenniality
EP3266148B1 (en) Device and method for administering a digital escrow server
WO2015197930A1 (en) Method of sharing digital files between several computers, and computer, data storage assembly and digital file sharing system associated therewith
WO2019197780A1 (en) Methods, devices and computer programs for the encipherment and decipherment of data for the transmission or storage of data
Martínez Casanovas Infrastructureless wallet backed up with P2P technology
WO2024105111A1 (en) Method for distributing session keys in a telecommunication network, associated methods for processing in a client and a server, and associated client module and servers
Ammann Design and Implementation of a Peer-to-peer Based System to Enable the Share Functionality in a Platform-independent Cloud Storage Overlay: Master Thesis
EP1959371A1 (en) Coupling of a computer program or data to an associated reference and verification system.
WO2023056081A1 (en) Secure data exchange network
FR2956272A1 (en) PASSWORD AUTHENTICATION FOR SINGLE USE
FR2987711A1 (en) Method for accelerating cryptographic calculations in cloud computing, involves providing encrypted coded message with information, and utilizing calculation server for performing encrypted coding of message during application phase

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14717158

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14780391

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2014717158

Country of ref document: EP