Esistono numerose tecniche per la deduplica dei dati. Alcune sono specifiche di un produttore e sono quindi protette da brevetto; altre sono invece basate su metodologie e architetture aperte. Lo scopo di ogni approccio alla deduplica è di identificare la massima quantità di dati duplicati usando risorse minime.
La tecnica più comune si basa sulla divisione del flusso di dati in “segmenti” che vengono in seguito confrontati l’uno con l’altro. Tali segmenti, che possono essere di dimensioni fisse o variabili, sono valutati per individuare la presenza di dati ridondati su più sistemi e postazioni.
Ogni segmento di dati è elaborato usando un algoritmo hash ed è associato ad un identificativo unico, che viene in seguito confrontato con un indice. Se il numero di hash è già presente nell’indice, la porzione di dati in esame è considerata un duplicato e non deve essere più archiviata: viene semplicemente generato un link al dato originario. Altrimenti il numero hash è aggiunto all’indice e i dati, riconosciuti come ‘nuovi’, sono archiviati su disco. L’intero processo di deduplica è stato pensato per essere del tutto trasparente agli utenti.
In alternativa, è possibile ricorrere alla deduplica dei dati basata su delta, che si occupa di archiviare o trasmettere i dati sotto forma di differenze rispetto a una copia di riferimento. Quest’ultima è una copia completa di dati utilizzata per ricreare altre versioni dei dati stessi. La deduplica delta può essere eseguita a livello di blocco o di byte.
Anziché utilizzare un numero di hash per determinare quali dati sono nuovi e quali sono replicati, questo metodo scansiona e indicizza il flusso dei dati in entrata, di modo da individuare i dati simili a quelli già archiviati. Poiché non è necessario elaborare un hash, uno dei vantaggi offerti da questo approccio è il minore utilizzo della CPU. Tuttavia, sono richiesti numerosi I/O del disco per confrontare i vecchi dati con i dati nuovi in entrata.
Attualmente sul mercato sono disponibili diversi tipi di prodotti che offrono funzionalità di deduplica. Queste soluzioni software si possono trovare sia come prodotti standalone, sia come componenti integrati di prodotti di backup.
Anche le applicazioni di backup, le appliance, le librerie VTL, le soluzioni di ottimizzazione della WAN e i sottosistemi di storage su disco possono includerne alcune.
L’esecuzione delle operazioni di deduplica possono avvenire in linea, come post-processo o al lato client:
Ogni singolo approccio alla deduplica offre dunque vantaggi diversi in termini di capacità, prestazioni ed efficienza. La scelta su quale tipo di deduplica conviene adottare dipende dai requisiti specifici e dal budget dell’azienda.