El volumen de información generada y almacenada por las organizaciones está creciendo a un ritmo exponencial.
La deduplicación de datos es una de las técnicas que más puede ayudar a optimizar los recursos de las organizaciones: en términos de ahorro de espacio de almacenamiento, en velocidad de los trabajos de backup y/o en rendimiento general del sistema.
Pero eso no es todo:
Además, determinados tipos de deduplicación también contribuyen a reducir el ancho de banda de la red requerido para llevar a cabo la transferencia de datos. Esta es la conocida como deduplicación de datos en origen.
Ahora bien:
En consecuencia, es necesario conocer todas las implicaciones a la hora de utilizar uno u otro tipo de deduplicación. Si la implementación no es realizada de la manera adecuada, el resultado del proceso podría ser contraproducente.
¿Cuál es el objetivo?
Obviamente, el objetivo último es lograr el mayor ratio de deduplicación, en el menor tiempo de procesamiento posible y el menor uso de recursos necesarios del sistema.
En este primer post, voy a abordar aquellas consideraciones necesarias para seleccionar el enfoque más adecuado y, en la segunda entrega de esta guía, entraremos de lleno con cuestiones como la selección de las unidades de comparación o la creación de los identificadores únicos.
El ratio de deduplicación de datos y la velocidad de ejecución van a depender fundamentalmente de las características del entorno que va a ser objeto del backup. Entre los parámetros más influyentes, se pueden destacar los siguientes:
Si quieres conocer más detalles acerca de las diferencias entre la deduplicación en origen y destino, te recomiendo la lectura del post La deduplicación en el backup de datos de mi compañero Martín Domínguez, Chief Consulting Officer en WhiteBearSolutions.
Existe una buena cantidad de herramientas disponibles en el mercado para reunir esta información rápidamente y con mínimos requerimientos en cuanto al despliegue de agentes en los servidores.
Por una parte, los software de backup pueden requerir la instalación de agentes en cada uno de los servidores y máquinas virtuales, así como el reinicio de aquellos una vez se ha terminado la instalación.
Este enfoque tiende a generar menores tiempos de ejecución del backup y mejores ratios de compresión. No obstante, también requiere un mayor esfuerzo durante el proceso de implantación y los consiguientes cambios en entorno del sistema.
Por otro lado, la deduplicación de datos en destino en base a un appliance no requiere cambio alguno en los servidores, si bien tu organización necesitará hacer los ajustes oportunos en el propio software de backup, dependiendo de si la configuración appliance se basa en un servidor de archivos o una biblioteca virtual de cintas o VTL (virtual tape library).
Con frecuencia, las organizaciones se sorprenden ante la eficacia lograda por el proceso de deduplicación. El resultado es que terminan ampliando su utilización para llevar a cabo procesos de backup a una escala superior a la estimada originalmente.
Para evitar problemas, asegúrate de que la alternativa contratada sea escalable tanto en lo que a la capacidad de almacenamiento se refiere, como al rendimiento.
Igualmente, los hardware y software de deduplicación utilizados deberían ofrecer funciones de replicación y deduplicación global. De esa manera, se logrará potenciar los beneficios del proceso.
Con estas claves, deberías contar con una base para escoger el enfoque adecuado de deduplicación según el entorno del sistema de tu organización.
En WhiteBearSolutions contamos con dos tipos de deduplicación en nuestro producto de almacenamiento y backup, WBSAirback: Deduplicación ZFS (en destino de forma in-line basada en la capacidad del file system de nuestro appliance) y Deduplicación Global (en origen y en destino de forma in-line basada en la capacidad de nuestro módulo Enterprise Backup basado en Bacula Enterprise). Cada una de ellas presenta una serie de ventajas así como inconvenientes en función de las peculiaridades de los sistemas a deduplicar, por lo que tener en cuenta las particularidades de cada entorno resulta sumamente importante. Solo así podrá determinarse cuál de ellas elegir en función de los objetivos: ahorro de espacio de almacenamiento, de transferencia de datos o eficiencia en el rendimiento del sistema.