Descubre los contenidos más relevantes sobre smartlogin

¿Por qué elegir un modelo de deduplicación de datos a nivel de bloque?

Escrito por Ignacio Gilart Iglesias | Nov 10, 2016 9:42:11 AM

La ingente cantidad de datos que las organizaciones manejan a día de hoy hacen necesarias tecnologías que optimicen tanto el envío, como el almacenamiento y la salvaguarda de la información. El avance de las técnicas de deduplicación han hecho posible optimizar al máximo los recursos empleados en estas tareas así como permiten una mayor adaptación a las particularidades de cada organización en este importante proceso.
Anteriormente, mi compañero Martín Domínguez, CCO (Chief Consulting Officer) de WhiteBearSolutions publicó un interesante artículo acerca de la deduplicación en los procesos de backup de datos. Te recomiendo su lectura, dado que puede constituir una excelente introducción al post que me ocupa hoy.
En esta ocasión, voy a detenerme a analizar dos técnicas de deduplicación de datos cuyas características presentan diferencias sustanciales que necesitan ser valoradas por cada organización con la finalidad de elegir la que mejor se adapte a sus características, necesidades y opciones. Además, voy a explicarte por qué desde WhiteBearSolutions hemos apostado por la deduplicación a nivel de bloque a través de la funcionalidad de Deduplicación Global, perfeccionada en la release 15.4 de nuestro producto WBSAirback, ya mejorado a la release 15.5.

Deduplicación a nivel de archivo

Este sistema compara el archivo que va a ser objeto del backup con aquellos que ya están almacenados. Examina sus atributos y los coteja con el índice creado previamente.
Si el archivo es nuevo, entonces se procede a realizar la copia de seguridad y se actualiza el índice. En caso de que el archivo sólo sea una nueva versión de otro archivo precedente, se procede a cambiar aquellos atributos que hayan cambiado pero no copiará los archivos preexistentes. En su lugar, los almacenará como un puntero a cada uno de los segmentos del contenido de la copia única del archivo.
¿Cuál es el problema?
Cuando se pretende realizar grandes volúmenes de backups, el cambio de un solo byte de información entre archivos hará que dicho archivo sea considerado distinto y, por tanto, almacenado separadamente, lo que genera un gran inconveniente en términos de volumen de transferencia de datos y su almacenamiento.

Deduplicación a nivel de bloque

La deduplicación a nivel de bloque opera a una escala distinta. El archivo es separado en bloques, los cuales son objeto de análisis en busca de redundancias respecto a archivos previamente almacenados.
De forma semejante a la deduplicación a nivel de archivos, la deduplicación a nivel de bloques supone que sólo se proceda a almacenar aquel bloque que haya cambiado y el resto se almacenen como punteros a aquellos bloques que se han mantenido inalterados.
Los bloques suelen constituir un múltiplo entero del tamaño del sector del medio físico en el que se encuentran.

¿Cuál es el tamaño del bloque?

Curiosamente, el tamaño de los bloques puede variar entre los distintos suministradores del mercado.

  • Algunos proporcionan tamaños de bloque ya prefijados.
  • Otros utilizan tamaños variables de bloque. Como es el caso de WhiteBearSolutions. Los bloques que presenta nuestra tecnología de Deduplicación Global son variables, con un máximo de 128Kb cada uno. Este formato nos ha servido para responder a las diferentes exigencias del mercado.

¿Cuál es la diferencia en el tamaño del bloque?

Cuanto más pequeño resulte, más probabilidades existen de identificar una redundancia. No obstante, es conveniente analizar la naturaleza del dato a la hora de determinar qué tamaño de bloque es el más conveniente y necesario en cada caso. Contar con un proveedor que tenga experiencia y flexibilidad en este sentido aumentará las probabilidades de que esta técnica se lleve a la práctica con éxito en los procesos de almacenamiento y backup de cualquier organización.
Condiciones inherentes en el uso de bloques fijos o variables
Si se utilizan bloques fijos y el archivo es modificado, podrían no detectarse los segmentos redundantes debido a que los bloques del archivo han cambiado.
Por su parte, los bloques variables resuelven ese problema pero el esfuerzo computacional, así como el tamaño del índice de archivos y atributos se elevan considerablemente.

¿Por qué deduplicación a nivel de bloque?

Dada nuestra experiencia, la deduplicación a nivel de bloque responde de mejor manera a las exigencias y a los grandes retos de las organizaciones en la actualidad: administrar y proteger los datos que conforman el gran volumen de información que cada día generamos y gestionamos las organizaciones. Porque este tipo de deduplicación está especialmente indicada para el almacenamiento y backup de grandes ficheros, los cuales comparten gran número de bloques. Algunos casos frecuentes son las bases de datos y los discos duros virtuales de sistemas como Hyper-V o VMware. Después de todo, gran parte de los bloques de las máquinas virtuales albergan aquellos archivos que forman parte del sistema operativo o cualesquiera programas instalados en ellos. El resto de bloques son los que realmente corresponden a archivos de los usuarios del sistema.
Además, no hay que olvidar que no todos los archivos de usuario cambian frecuentemente.
La deduplicación a nivel de bloque permite, por tanto dos grandes ventajas enormemente valoradas por los responsables de sistemas de las organizaciones:

  • Reducir considerablemente el espacio de almacenamiento.
  • Reducir la velocidad de copiado en los procesos de backup diarios.

No obstante, hay que ser conscientes de todo lo que implica decantarse por uno u otro modelo de deduplicación. Lo cierto es que los índices resultantes en la deduplicación a nivel de archivo son mucho más modestos que si se opta por el análisis a nivel de bloques. Algo que tiene repercusión directa sobre la exigencia de recursos de computación del sistema y el consiguiente rendimiento del mismo. Entra ahí en juego pues una valoración por parte del usuario que debe elegir qué opción de inversión le parece más rentable, eficiente y segura.
 

Conclusión

Esta sencilla aproximación a la deduplicación a nivel de archivo o a nivel de bloque debería permitirte determinar con mejor criterio qué opción escoger en cada momento. Si crees que podemos ayudarte en este sentido, no dudes en ponerte en contacto conmigo. Estaré encantado de poder trasladarte nuestra experiencia así como las aportaciones de WBSAirback  y su funcionalidad Deduplicación Global en los procesos de almacenamiento y backup en las organizaciones.
¿Hay alguna otra diferencia distintiva que consideres relevante?
Compártela.
 

* Optimización de los recursos disponibles

Si hay algo que nos ha quedado claro después de esta lectura, es que el objetivo de las técnicas de deduplicación no es otro que optimizar los recursos disponibles. Una filosofía que compartimos desde WhiteBearSolutions, donde apostamos por un modelo de comercialización que promueva la democratización de la tecnología, persiguiendo una disminución del TCO (Coste Total de la Propiedad) a través de la utilización de tecnologías open source y estándares abiertos, una arquitectura de producto basada en formato appliance y un enfoque de pago por servicio asociado a suscripciones de soporte basadas en SLAs.
 
Quizá también te interese: