Azure Data Lake: ¿Por qué debería importarnos esta nueva tecnología?

En el artículo de hoy, hablamos con Iván Font, nuestro Technology Director, para que nos cuente todo lo que deberíamos saber sobre Azure Data Lake, una tecnología que hasta hace poco estaba en preview y de la que ya puedes disfrutar todos los usuarios de Microsoft. Podemos definir Azure Data Lake como:

Una herramienta que incluye toda la funcionalidad necesaria para facilitar a los desarrolladores, científicos de los datos y analistas el almacenamiento de datos de cualquier tamaño, forma y velocidad, y para llevar a cabo todo tipo de procesamiento y análisis en diferentes plataformas y lenguaje.

¿Qué es Data Lake exactamente?

Iván nos cuenta que Azure Data Lake se basa en una nueva tecnología que permite obtener los datos de Dynamics 365 para que luego estos puedan ser explotados por Power BI; en este escenario, los clientes podrían consultar tablas, información concreta e incluso sacar sus propios informes.

Si bien la primera generación de Data Lake era una herramienta parecida a un SQL o un file storage, limitaba mucho a los profesionales a la hora de gestionar archivos grandes, como por ejemplo imágenes de máquinas virtuales o backups. En este contexto, Microsoft unió las características de esta primera solución con otras propias de los blob storage de Azure para la creación del Azure Data Lake de segunda generación, que es la solución de la que disponemos hoy en día.

Echemos un vistazo a algunas de las diferencias más notables entre ambas versiones.

En este sentido, el Azure Data Lake del que podemos disfrutar actualmente tiene toda la seguridad del DataLake 1 y Blob Storage mientras que, a su vez, nos permite gestionar archivos de todos los tamaños, nos ayuda a tener una estructura jerárquica de este almacenamiento y, además, nos brinda la posibilidad de tardar mucho menos en la obtención de dicha información, ya que está optimizado para esta gestión más enfocada al análisis.

¿Cuál es el objetivo de Azure Data Lake?

Azure Data Lake nos da la posibilidad de extraer datos en tiempo real.

Esta sincronización, que con herramientas pasadas podía llegar a hacernos perder mucho tiempo dependiendo del tamaño de los archivos, pasa a ser prácticamente inmediata gracias a Azure Data Lake, lo que permite a los usuarios despreocuparse de los minutos de actualización.

Otro objetivo por el cual nos interesa familiarizarnos con esta solución es que los profesionales del sector dejan de depender de los trabajos por lotes que se tienen que configurar en Dynamics para que se exporten dichos datos. Antes decidíamos que cada 1, 2 o 3 horas se exportasen los datos en cuestión mediante entidades SQL, sin embargo, eso hacía que no pudiésemos ver los datos a tiempo real. ¿Qué ocurre cuando un cliente necesita ver un inventario al día o tener un tipo de control de la facturación más o menos real? Azure Data Lake solventa estos problemas, ya que dejamos de depender de data entities creadas tanto para la carga de datos propia de la implementación como para que BI las pueda atacar, sacar de Dynamics y consumir.

Para explicar el último objetivo, Iván Font pone un ejemplo; imaginemos que un cliente en implantación quiere tener datos de años pasados para poder hacer comparativas y tomar mejores decisiones. En este caso, Azure Data Lake, al ser una confluencia entre varios orígenes, nos permite tenerlos todos almacenados. Esto nos brinda la posibilidad de tener el histórico de un ERP antiguo, los datos del ERP nuevo y que Power BI se encargue de unir ambas tablas.

Ventajas de Azure Data Lake

Para resumir los beneficios de esta solución, repasamos con Iván Font algunas de las ventajas clave de Azure Data Lake.

  • Simplicidad. Una vez montada la estructura, el proceso es tan simple como darle a un botón para el exporte de una tabla. Comparando este paso a paso con el proceso anterior, nos ahorramos la configuración de una entidad, la configuración de la exportación, revisar que no haya duplicados y que se exporte correctamente, etc. Con Azure Data Lake atacamos directamente la tabla, simplificando al máximo estos pasos.
  • Repositorio único. En este repositorio podemos añadir toda la información que queramos y en el formato que queramos. Retomando el ejemplo anterior, podríamos incluir el histórico del año anterior.
  • Tiempo real. Seguramente la característica más importante y que hemos desarrollado anteriormente, ya que está a leguas del formato anterior.
  • Coste. El coste, si bien es posible que aún haya modificaciones, es muy bajo en comparación con las soluciones anteriores.
  • Convivencia. Cuando hablamos de convivencia nos referimos a que podemos tener las dos infraestructuras montadas. Por un lado la existente hasta ahora, BYOD, y la del Data Lake. Podemos montar la segunda en paralelo con la primera para, una vez los datos coincidan y el BI esté bien montado, desactivar BYOD. Esto nos permite reducir drásticamente el margen de errores.

Si quieres más información sobre cómo tu empresa puede beneficiarse de Azure Data Lake, no dudes en ponerte en contacto con nosotros. Llámanos al (+34) 93 786 87 77 o escríbenos a hello@algoritmia8.com; nuestro equipo de expertos en Azure estudiará las necesidades de tu negocio para ofrecerte la mejor solución posible.