Data Fabric frente a Data Mesh: la diferencia

Publicado: 2022-03-14

En la búsqueda de desarrollar la mejor arquitectura de datos para los requisitos presentes y futuros de una organización, existen muchas opciones que las empresas pueden elegir. Debido al paquete de la estructura del software del software, estas opciones son suficientes para que las organizaciones elijan. A las empresas les puede resultar difícil seleccionar la opción correcta, razón por la cual últimamente han surgido patrones de las fauces, lo que permite a las organizaciones ayudarlos en el viaje de la gestión de datos, que incluye estructuras de datos y mallas de datos.

En primera instancia, tanto la estructura de datos como la base de datos reflejan similitud desde un punto de vista conceptual. Las mallas generalmente están hechas de telas y se les puede dar diferentes formas según el requisito. Esto permite a los departamentos de TI colocar estas mallas encima de otros sistemas, que se encuentran continuamente en el proceso de procesamiento de datos.

No importa cuán similares se vean estos dos enfoques, existen algunas diferencias claras, que pueden notarse solo si profundizamos más en estos dos enfoques.

¿Qué es el tejido de datos?

La primera definición de tejido de datos se produjo a mediados de la década de 200, cuando Noel Yuhanna, un analista de Forrester, fue la primera persona en hacerlo. Desde un punto de vista conceptual, la estructura de datos es una forma basada en metadatos de conectar un conjunto variado de herramientas de datos. El objetivo es abordar los principales puntos débiles en algunos de los proyectos de big data, no solo de manera cohesiva sino también operando en un modelo de autoservicio. Hay varias capacidades que ofrecen las soluciones de estructura de datos, como acceso a datos, descubrimiento, transformación, integración, gobierno, linaje y seguridad.

Hay un ritmo significativo que se ha acumulado en el concepto de la estructura de datos. Esto está ayudando a simplificar el proceso de acceso y gestión de datos en un entorno cada vez más heterogéneo. Un entorno heterogéneo comprende almacenes de datos transaccionales y operativos, lagos de datos, almacenes de datos y casas de lagos. Estamos viendo un número creciente de organizaciones que están desarrollando silos de datos y, debido a la computación en la nube, el problema relacionado con la diversificación de datos es cada vez más grande.

Con una estructura de datos única ubicada sobre los repositorios de datos, una empresa puede empaquetarla en forma de administración unificada para las diferentes fuentes de datos, que incluye consumidores de datos posteriores, como científicos de datos, ingenieros de datos y analistas de datos. Sin embargo, lo que se debe tener en cuenta es que la gestión de datos está unificada y no el almacenamiento real. El almacenamiento real aún permanece en un modelo distribuido. Hay muchos proveedores, como Informatica y Talend, que proporcionan estructuras de datos con las capacidades descritas anteriormente.

¿Qué es la malla de datos?

Si bien la malla de datos resuelve la mayoría de los problemas que resuelve una estructura de datos, como el desafío de administrar datos en un entorno heterogéneo. Sin embargo, el método para manejar y resolver este problema es diferente en un enfoque de malla de datos. Mientras que la estructura de datos crea una sola capa de administración virtual sobre el almacenamiento de datos que alberga datos distribuidos, el enfoque de malla de datos se trata más de un grupo distribuido de equipos que administrarán los datos según el requisito a pesar de tener algunos protocolos de gobierno.

El concepto de malla de datos fue definido por Zhamak Dehgani. Zhamak es el director de incubación de tecnología en Thoughtworks North America. El principio fundamental que rige el enfoque de malla de datos para resolver la incompatibilidad entre el lago de datos y el almacén de datos. El almacén de datos de primera generación está diseñado para almacenar cantidades masivas de datos estructurados, que consumen principalmente los analistas de datos.

Sin embargo, el lago de datos de segunda generación se usa para almacenar enormes cantidades de datos no estructurados, que se usan predominantemente para construir modelos predictivos de aprendizaje automático. En esa definición, Zhamak ha explicado acerca de un almacén de datos de tercera generación (conocido como Kappa), que se trata de flujos de datos en tiempo real mediante la adopción de servicios en la nube. Sin embargo, esto no resuelve la brecha entre los sistemas de primera y segunda generación desde el punto de vista del uso.

En el proceso de garantizar la sincronización de los datos, muchas empresas desarrollan y mantienen una canalización de datos ETL exhaustiva. Como resultado, esto crea la necesidad de ingenieros de datos extremadamente especializados que tengan la competencia para mantener el funcionamiento de dichos sistemas.

Un punto crítico que planteó Zhamak fue el problema de que los ingenieros no pueden integrar la transformación de datos en los datos. Por el contrario, debería ser algo así como un filtro que se aplica a un conjunto común de datos, que está disponible para todos los usuarios.

Entonces, en lugar de desarrollar una canalización compleja de datos ETL, los datos se almacenan en su forma original. La propiedad de los datos la toma un equipo compuesto por expertos en el dominio. La arquitectura del nuevo enfoque de malla de datos explicada por Zhamak, consta de las siguientes características:

Propiedad basada en dominio de datos y arquitectura descentralizados
Los datos como producto
La plataforma de infraestructura de datos se ofrece en un modelo de autoservicio
Gobierno computacional federado

En pocas palabras, el enfoque de malla de datos identifica que solo los lagos de datos poseen la flexibilidad y escalabilidad para manejar el requisito de análisis.

Malla de datos frente a estructura de datos

Como observamos anteriormente, existen bastantes similitudes entre la malla de datos y el enfoque de estructura de datos. Sin embargo, veamos también las diferencias entre los dos.

Según Noel Yuhanna, analista de Forrester, la principal diferencia entre el enfoque de malla de datos y el de estructura de datos es la forma en que se procesan las API.

Una malla de datos se basa principalmente en API para desarrolladores, mientras que la estructura de datos no lo es. La estructura de datos es esencialmente lo opuesto a la malla de datos, donde los desarrolladores escribirán código para las API en la interfaz de la aplicación. A diferencia de la malla de datos, la estructura de datos es un método sin código o de código bajo, donde la integración de la API se ejecuta en la estructura sin aprovecharla directamente.

Según otro analista, James Serra, que trabaja con Ernst & Young como arquitecto de big data y almacenamiento de datos, la diferencia entre la malla de datos y la estructura de datos está en el tipo de usuarios que acceden a ellos.

La malla de datos y la estructura de datos brindan acceso a los datos a través de diferentes tecnologías y plataformas. La diferencia es que la estructura de datos está más centrada en la tecnología, mientras que la malla de datos depende más del cambio organizacional.

Según un analista de Eckerson Group, David Wells, una empresa puede usar malla de datos, estructura de datos e incluso un centro de datos juntos. Wells agrega además que estos dos son conceptos y no son técnicamente excluyentes entre sí.

Los productos de estructura de datos se desarrollan principalmente en patrones de uso de producción, mientras que los productos de malla de datos están diseñados por dominios comerciales. El descubrimiento de metadatos es continuo y el análisis es un proceso constante en el caso de Data Fabric, mientras que en el caso de la malla de datos, los metadatos operan en un dominio comercial localizado y son de naturaleza estática.

Desde el punto de vista de la implementación, la estructura de datos aprovecha la instalación de infraestructura actual disponible, mientras que la malla de datos extrapola la infraestructura actual con nuevas implementaciones en dominios comerciales.

Tanto la malla de datos como las estructuras de datos encuentran un lugar en la sala de juntas de big data. Cuando se trata de encontrar el marco de arquitectura o la arquitectura adecuada.

Otros recursos útiles:

5 pasos para crear una cultura basada en datos | TechFunnel

¿Qué es el análisis de grandes datos? Guía para principiantes | Techfunnel

Por qué una cultura basada en datos es fundamental para la transformación digital

Minería de datos: todo lo que necesita saber | Techfunnel