Migliorare la gestione dei dati in una PMI – 3

L’adozione di tecniche di deduplica consente alle aziende di contenere la crescita dei dati rispettando vincoli di budget, di consumi e di ingombri

Come avviene la deduplica?

Esistono numerose tecniche per la deduplica dei dati. Alcune sono specifiche di un produttore e sono quindi protette da brevetto; altre sono invece basate su metodologie e architetture aperte. Lo scopo di ogni approccio alla deduplica è di identificare la massima quantità di dati duplicati usando risorse minime.

La tecnica più comune si basa sulla divisione del flusso di dati in “segmenti” che vengono in seguito confrontati l’uno con l’altro. Tali segmenti, che possono essere di dimensioni fisse o variabili, sono valutati per individuare la presenza di dati ridondati su più sistemi e postazioni.

Ogni segmento di dati è elaborato usando un algoritmo hash ed è associato ad un identificativo unico, che viene in seguito confrontato con un indice. Se il numero di hash è già presente nell’indice, la porzione di dati in esame è considerata un duplicato e non deve essere più archiviata: viene semplicemente generato un link al dato originario. Altrimenti il numero hash è aggiunto all’indice e i dati, riconosciuti come ‘nuovi’, sono archiviati su disco. L’intero processo di deduplica è stato pensato per essere del tutto trasparente agli utenti.

In alternativa, è possibile ricorrere alla deduplica dei dati basata su delta, che si occupa di archiviare o trasmettere i dati sotto forma di differenze rispetto a una copia di riferimento. Quest’ultima è una copia completa di dati utilizzata per ricreare altre versioni dei dati stessi. La deduplica delta può essere eseguita a livello di blocco o di byte.

Anziché utilizzare un numero di hash per determinare quali dati sono nuovi e quali sono replicati, questo metodo scansiona e indicizza il flusso dei dati in entrata, di modo da individuare i dati simili a quelli già archiviati. Poiché non è necessario elaborare un hash, uno dei vantaggi offerti da questo approccio è il minore utilizzo della CPU. Tuttavia, sono richiesti numerosi I/O del disco per confrontare i vecchi dati con i dati nuovi in entrata.

Attualmente sul mercato sono disponibili diversi tipi di prodotti che offrono funzionalità di deduplica. Queste soluzioni software si possono trovare sia come prodotti standalonesia come componenti integrati di prodotti di backup.

Anche le applicazioni di backup, le appliance, le librerie VTL, le soluzioni di ottimizzazione della WAN e i sottosistemi di storage su disco possono includerne alcune.

L’esecuzione delle operazioni di deduplica possono avvenire in linea, come post-processo o al lato client:

  • deduplica in linea: con questo approccio l’analisi dei dati, il calcolo del valore di hash e il confronto di quest’ultimo con l’indice avvengono mentre i dati viaggiano dalla sorgente al punto di destinazione. Si tratta del metodo di deduplica più efficiente ed economico. Consente di ridurre notevolmente la capacità su disco; d’altra parte tuttavia l’elaborazione intensa richiesta può rallentare la trasmissione dei dati.
  • deduplica post-processo: con questa tecnica la deduplica avviene dopo che i dati sono trasferiti su disco. Questo approccio molto semplice da realizzare, richiede una capacità iniziale superiore rispetto al metodo in linea e genera sfasamenti prima del completamento della deduplicazione e della replica.
  • deduplica al lato client: in questo caso la deduplica ha luogo là dove i dati risiedono. I calcoli hash sono effettuati sulla macchina client (alla sorgente). I file che hanno valori identici di hash rispetto ai file già presenti sul dispositivo di destinazione non sono inviati, e il dispositivo di destinazione genera semplicemente dei link interni ai dati sulla sorgente. In questo modo la quantità di dati che deve essere trasferita verso la destinazione è inferiore. Gli alti livelli di efficienza tuttavia sono ottenuti a scapito del consumo di risorse di CPU e di memoria richieste per analizzare i dati.

Ogni singolo approccio alla deduplica offre dunque vantaggi diversi in termini di capacità, prestazioni ed efficienza. La scelta su quale tipo di deduplica conviene adottare dipende dai requisiti specifici e dal budget dell’azienda.