¿Has oído hablar de Data Mesh? Tanto si es así como si eres ‘neófito’ en esta nueva arquitectura de datos, te invitamos a que descubras que es data mesh con nosotros.
Actualmente, muchas organizaciones utilizan big data y business intelligence para tomar decisiones más informadas a través del análisis de datos. Sin embargo, la arquitectura tradicional que utilizan no siempre está optimizada para aprovechar todo su potencial.
Para maximizar el valor de los datos, los Data Scientists necesitan acceso rápido y flexible a ellos.
Sin embargo, soluciones como los Data Warehouses o Data Lakes centralizados, a menudo resultan insuficientes al ofrecer capacidades limitadas que no se alinean con las necesidades específicas de la empresa.
Es aquí donde el Data Mesh entra en acción, convirtiéndose en la solución ideal al romper con estos silos y ofrecer un enfoque descentralizado que permite a cada equipo gestionar sus propios datos de manera eficiente.
¿Qué es Data Mesh?
Podemos definirlo como una arquitectura descentralizada de gestión de datos que permite a los equipos dentro de una organización acceder, procesar y analizar información de forma autónoma.
Se basa en la creación de una infraestructura de autoservicio, donde los equipos pueden utilizar herramientas y recursos bajo demanda para trabajar con los datos de manera eficiente.
En lugar de depender de un equipo centralizado para manejar toda la información, los equipos individuales tienen control sobre los datos que necesitan.
Este concepto fue introducido por Zhamak Dehghani en 2019, y tiene sus raíces en principios de diseño de software distribuidos, como los microservicios.
Se basa en la idea de que las grandes organizaciones necesitan un enfoque más escalable y flexible para la gestión de datos, especialmente cuando se enfrentan a grandes volúmenes y diversas fuentes de información.
Impacto en los equipos de datos: un nuevo paradigma
El enfoque del Data Mesh transforma la forma en que las organizaciones gestionan sus datos, promoviendo una mayor autonomía y motivación dentro de los equipos.
Al tener acceso directo a la información que necesitan, los equipos pueden tomar decisiones informadas con mayor rapidez, sin los cuellos de botella tradicionales que surgen al depender de equipos centralizados.
En la era Data 4.0, las empresas manejan grandes volúmenes de datos y la pregunta ya no es sobre la importancia de la información, sino sobre cómo gestionar esos datos de manera eficaz.
El objetivo es tener una visión completa y unificada del negocio para poder tomar decisiones basadas en datos (data-driven).
El Data Mesh facilita este proceso al otorgar a los equipos el control de sus datos, mejorando la accesibilidad y la interconexión entre diferentes áreas de la organización.
Esto permite una visión única e integrada de la información, crucial para un enfoque 360 del negocio.
Hacia la democratización de los datos
A medida que las organizaciones aumentan la cantidad de fuentes y consumidores de datos, también se incrementa la complejidad de las canalizaciones de datos necesarias para conectar estas fuentes con los usuarios.
Esto ha llevado a una mayor dependencia de equipos especializados para gestionar las cargas de datos y desarrollar tecnologías que administren la información.
Sin embargo, este enfoque tradicional ha creado una desconexión entre quienes necesitan los datos y quienes los gestionan.
El Data Mesh surge para democratizar la información, permitiendo que los equipos de negocio gestionen y utilicen sus propios datos sin tener que depender de especialistas en datos.
Data Mesh vs. Data Fabric
Existen diferencias clave entre el Data Mesh y otras arquitecturas de datos, como el Data Fabric.
El Data Mesh distribuye los datos entre distintos dominios, lo que permite una gestión descentralizada. Esta descentralización promueve la autonomía de los equipos y mejora la escalabilidad, ya que cada equipo es responsable de sus propios datos.
En cuanto al Data Fabric, aunque tiene un enfoque centralizado, está orientado hacia la gestión global de los datos, proporcionando herramientas y tecnologías que permiten integrar y acceder a los datos de manera uniforme.
Sin embargo, a diferencia del Data Mesh, no distribuye la responsabilidad de los datos a los equipos, manteniendo la gestión central. El Data Mesh, por su parte, fomenta una gestión distribuida, donde cada equipo se encarga de su propio dominio de datos.
4 principios del Data Mesh que debes conocer
El Data Mesh se estructura en torno a cuatro principios fundamentales que guían la transformación de los datos y su infraestructura en una organización.
- Dominio orientado a los datos (Domain-oriented data ownership)
En el enfoque tradicional, los datos están centralizados y son gestionados por un equipo de datos específico.
En cambio, el Data Mesh se basa en una estructura de dominios descentralizados, donde cada equipo que posee un conocimiento profundo de un dominio empresarial específico también es responsable de sus propios datos.
Este modelo sigue los principios de los microservicios, donde los equipos que generan y utilizan los datos tienen la mayor comprensión del contexto y son los más adecuados para gestionar esos datos. Por ejemplo, el equipo de marketing es responsable de sus propios datos de clientes y campañas, mientras que el de ventas gestiona los datos relacionados con transacciones y conversiones.
De esta forma, se mejora en la calidad de los datos porque los equipos más cercanos al dominio los gestionan, y se acelera la entrega de valor, porque no hay dependencia de una autoridad central de datos.
- Datos como producto (Data as a product)
Este principio trata de cambiar la mentalidad de cómo se ven los datos dentro de la organización. En lugar de ser vistos como un subproducto de las operaciones comerciales, los datos son tratados como productos valiosos con usuarios, expectativas y ciclos de vida.
Cada equipo de dominio es responsable de ofrecer conjuntos de datos bien definidos, accesibles, seguros y útiles para los consumidores de datos de la organización.
Para lograrlo es necesario:
- Definir claramente sus datos: qué representan, cómo se pueden usar, cuál es su calidad.
- Mantener los datos actualizados: garantizando que los consumidores puedan confiar en ellos.
- Ofrecer buenos servicios de acceso: proporcionar API o interfaces claras para que otros equipos puedan consumir estos datos fácilmente.
Con ello, logramos un aumento de la confiabilidad y el uso de los datos dentro de la organización, así como permitir la creación de «productos de datos» que se pueden compartir entre equipos, impulsando una cultura de colaboración.
- Plataforma de autoservicio de datos (Self-serve data platform)
Para permitir que los equipos de cada dominio gestionen sus propios datos sin necesidad de depender de equipos centrales se necesita una plataforma de autoservicio.
Esta plataforma proporciona las herramientas y tecnologías para crear, gestionar y consumir datos, aún sin tener profundos conocimientos técnicos de infraestructura de datos.
Este enfoque reduce las barreras técnicas y facilita a los equipos:
- Publicar sus datos como productos.
- Consultar otros datos de forma autónoma.
- Garantizar la seguridad y el cumplimiento sin la intervención de equipos especializados.
En suma, este principio descentraliza las tareas relacionadas con la infraestructura y reduce los tiempos de entrega.
- Gobernanza federada (Federated computational governance)
El Data Mesh no promueve un caos de datos sin control sino que establece un enfoque de gobernanza federada que equilibran la autonomía de los dominios con la necesidad de cumplir con estándares organizacionales.
Cada dominio tiene la libertad de gestionar sus propios datos, pero dentro de un marco de gobernanza que asegura la calidad, la seguridad, el cumplimiento y la interoperabilidad entre los diferentes dominios.
Este marco federado aglutina:
- Estándares comunes: sobre la calidad de los datos, los metadatos y las interfaces de acceso.
- Automatización de políticas: usando reglas predefinidas para garantizar el cumplimiento con normativas y estándares.
- Métricas claras: para monitorear la calidad y el uso de los datos entre dominios.
De esta forma aseguramos que la organización mantenga el control y la calidad de los datos y facilitamos la interoperabilidad y el intercambio de datos entre diferentes dominios.
En resumen, el Data Mesh es un enfoque al alza para la gestión de datos, diseñado para superar las limitaciones de los enfoques tradicionales, como los data warehouses o data lakes, en grandes organizaciones.Si te estás planteando implementar el Data Mesh en tu empresa, o si simplemente quieres saber más sobre esta opción para la gestión de datos y cómo aplicaría en tu organización, puedes contactar con nosotros.