Claves para escoger el enfoque de deduplicación en el backup según el sistema a respaldar
(Guía para implementar la deduplicación en el backup de datos en tu organización: 1ª Parte)
El volumen de información generada y almacenada por las organizaciones está creciendo a un ritmo exponencial.
La deduplicación de datos es una de las técnicas que más puede ayudar a optimizar los recursos de las organizaciones: en términos de ahorro de espacio de almacenamiento, en velocidad de los trabajos de backup y/o en rendimiento general del sistema.
Pero eso no es todo:
Además, determinados tipos de deduplicación también contribuyen a reducir el ancho de banda de la red requerido para llevar a cabo la transferencia de datos. Esta es la conocida como deduplicación de datos en origen.
Ahora bien:
- Se trata de una operación que requiere el uso intensivo de recursos.
- Cada suministrador plantea enfoques distintos.
En consecuencia, es necesario conocer todas las implicaciones a la hora de utilizar uno u otro tipo de deduplicación. Si la implementación no es realizada de la manera adecuada, el resultado del proceso podría ser contraproducente.
¿Cuál es el objetivo?
Obviamente, el objetivo último es lograr el mayor ratio de deduplicación, en el menor tiempo de procesamiento posible y el menor uso de recursos necesarios del sistema.
En este primer post, voy a abordar aquellas consideraciones necesarias para seleccionar el enfoque más adecuado y, en la segunda entrega de esta guía, entraremos de lleno con cuestiones como la selección de las unidades de comparación o la creación de los identificadores únicos.
# Evalúa el entorno informático que va a ser objeto del backup
El ratio de deduplicación de datos y la velocidad de ejecución van a depender fundamentalmente de las características del entorno que va a ser objeto del backup. Entre los parámetros más influyentes, se pueden destacar los siguientes:
- La naturaleza o tipo de datos que van a ser objeto de deduplicación.
- Si la deduplicación se va a ejecutar sobre el origen (source appliance) o en destino (target appliance).
- En el caso de la deduplicación en destino, si ésta tendrá lugar inline u offline.
- El ritmo de cambio o alteración de los datos.
- La cantidad de datos redundantes.
- El tipo de backup que va a ser aplicado (completo, incremental o diferencial).
- La duración o el tiempo de conservación de los datos.
Si quieres conocer más detalles acerca de las diferencias entre la deduplicación en origen y destino, te recomiendo la lectura del post La deduplicación en el backup de datos de mi compañero Martín Domínguez, Chief Consulting Officer en WhiteBearSolutions.
Existe una buena cantidad de herramientas disponibles en el mercado para reunir esta información rápidamente y con mínimos requerimientos en cuanto al despliegue de agentes en los servidores.
# Determina cuánto puedes cambiar el entorno del sistema para realizar el backup
Por una parte, los software de backup pueden requerir la instalación de agentes en cada uno de los servidores y máquinas virtuales, así como el reinicio de aquellos una vez se ha terminado la instalación.
Este enfoque tiende a generar menores tiempos de ejecución del backup y mejores ratios de compresión. No obstante, también requiere un mayor esfuerzo durante el proceso de implantación y los consiguientes cambios en entorno del sistema.
Por otro lado, la deduplicación de datos en destino en base a un appliance no requiere cambio alguno en los servidores, si bien tu organización necesitará hacer los ajustes oportunos en el propio software de backup, dependiendo de si la configuración appliance se basa en un servidor de archivos o una biblioteca virtual de cintas o VTL (virtual tape library).
# Asegúrate de contar con una herramienta escalable en rendimiento y capacidad
Con frecuencia, las organizaciones se sorprenden ante la eficacia lograda por el proceso de deduplicación. El resultado es que terminan ampliando su utilización para llevar a cabo procesos de backup a una escala superior a la estimada originalmente.
Para evitar problemas, asegúrate de que la alternativa contratada sea escalable tanto en lo que a la capacidad de almacenamiento se refiere, como al rendimiento.
Igualmente, los hardware y software de deduplicación utilizados deberían ofrecer funciones de replicación y deduplicación global. De esa manera, se logrará potenciar los beneficios del proceso.
Con estas claves, deberías contar con una base para escoger el enfoque adecuado de deduplicación según el entorno del sistema de tu organización.
En WhiteBearSolutions contamos con dos tipos de deduplicación en nuestro producto de almacenamiento y backup, WBSAirback: Deduplicación ZFS (en destino de forma in-line basada en la capacidad del file system de nuestro appliance) y Deduplicación Global (en origen y en destino de forma in-line basada en la capacidad de nuestro módulo Enterprise Backup basado en Bacula Enterprise). Cada una de ellas presenta una serie de ventajas así como inconvenientes en función de las peculiaridades de los sistemas a deduplicar, por lo que tener en cuenta las particularidades de cada entorno resulta sumamente importante. Solo así podrá determinarse cuál de ellas elegir en función de los objetivos: ahorro de espacio de almacenamiento, de transferencia de datos o eficiencia en el rendimiento del sistema.