data mart tutorial types
Este tutorial explica los conceptos de Data Mart, incluida la implementación, los tipos y la estructura de Data Mart, así como las diferencias entre Data Warehouse y Data Mart:
En esto Serie completa de capacitación en almacenamiento de datos , echamos un vistazo a las diversas Esquemas de almacenamiento de datos en detalle.
Este tutorial lo ayudará a aprender los conceptos de Data Mart en detalle junto con ejemplos simples.
Veremos ¿Qué es un data mart? ¿Cuándo necesitamos una despensa de datos? Marting de datos rentable, Costo de un data mart, Tipos de data mart, Pasos para implementar un data mart, la estructura de un data mart, ¿Cuándo es útil un Data Mart piloto? Inconvenientes de Datamart y diferencias entre Data Warehouse y Data Mart.
Público objetivo
- Desarrolladores y probadores de almacenamiento de datos / ETL.
- Profesionales de bases de datos con conocimientos básicos de conceptos de bases de datos.
- Administradores de bases de datos / expertos en big data que desean comprender los conceptos de almacenamiento de datos / ETL.
- Graduados universitarios / Freshers que buscan trabajos de almacén de datos.
Lo que vas a aprender:
- ¿Qué es un Data Mart?
- Comparación de Data Warehouse Vs Data Mart
- Tipos de Data Marts
- Pasos de implementación de un centro de datos
- Estructura de un centro de datos
- ¿Cuándo es útil un centro de datos piloto?
- Inconvenientes de Data Mart
- Conclusión
¿Qué es un Data Mart?
Un data mart es una pequeña parte del almacén de datos que se relaciona principalmente con un dominio comercial en particular, como marketing (o) ventas, etc.
libros de pruebas de software descarga gratuita pdf
Los datos almacenados en el sistema DW son enormes, por lo que los mercados de datos están diseñados con un subconjunto de datos que pertenecen a departamentos individuales. Por lo tanto, un grupo específico de usuarios puede utilizar fácilmente estos datos para su análisis.
A diferencia de un almacén de datos que tiene muchas combinaciones de usuarios, cada data mart tendrá un conjunto particular de usuarios finales. La menor cantidad de usuarios finales resulta en un mejor tiempo de respuesta.
Los mercados de datos también son accesibles para las herramientas de inteligencia empresarial (BI). Los data marts no contienen datos duplicados (o) no utilizados. Se actualizan a intervalos regulares. Son bases de datos flexibles y orientadas al tema. Cada equipo tiene derecho a desarrollar y mantener sus mercados de datos sin modificar el almacén de datos (u) los datos de otros mercados de datos.
Un data mart es más adecuado para las pequeñas empresas, ya que cuesta mucho menos que un sistema de almacenamiento de datos. El tiempo necesario para construir un data mart también es menor que el tiempo necesario para construir un data warehouse.
Representación pictórica de múltiples Data Marts:
¿Cuándo necesitamos Data Mart?
Según la necesidad, planifique y diseñe un data mart para su departamento involucrando a las partes interesadas porque el costo operativo del data mart puede ser alto en ocasiones.
Considere las siguientes razones para crear una despensa de datos:
- Si desea particionar los datos con un conjunto de estrategias de control de acceso de usuarios.
- Si un departamento en particular quiere ver los resultados de la consulta mucho más rápido en lugar de escanear grandes datos DW.
- Si un departamento desea que los datos se creen en otras plataformas de hardware (o) software.
- Si un departamento desea que los datos se diseñen de una manera adecuada para sus herramientas.
Centro de datos rentable
Se puede crear una despensa de datos rentable mediante los siguientes pasos:
- Identifique las divisiones funcionales: Divida los datos de la organización en cada data mart (departamental) de datos específicos para cumplir con sus requisitos, sin ninguna dependencia organizativa adicional.
- Identificar los requisitos de la herramienta de acceso del usuario: Puede haber diferentes herramientas de acceso de usuarios en el mercado que necesiten diferentes estructuras de datos. Los data marts se utilizan para respaldar todas estas estructuras internas sin alterar los datos DW. Un data mart se puede asociar con una herramienta según las necesidades del usuario. Los mercados de datos también pueden proporcionar datos actualizados a dichas herramientas a diario.
- Identificar problemas de control de acceso: Si diferentes segmentos de datos en un sistema DW necesitan privacidad y deben ser accedidos por un conjunto de usuarios autorizados, entonces todos esos datos se pueden mover a los data marts.
Costo de Data Mart
El costo de la despensa de datos se puede estimar de la siguiente manera:
- Costo de hardware y software: Cualquier data mart recién agregada puede necesitar hardware, software, potencia de procesamiento, red y espacio de almacenamiento en disco adicionales para trabajar en las consultas solicitadas por los usuarios finales. Esto hace que el data marting sea una estrategia costosa. Por tanto, el presupuesto debe planificarse con precisión.
- Acceso a la red: Si la ubicación de la despensa de datos es diferente a la del almacén de datos, entonces todos los datos deben transferirse con el proceso de carga de la despensa de datos. Por lo tanto, debe proporcionarse una red para transferir grandes volúmenes de datos que pueden resultar costosos.
- Restricciones de la ventana de tiempo: El tiempo necesario para el proceso de carga de la despensa de datos dependerá de varios factores, como la complejidad y los volúmenes de datos, la capacidad de la red, los mecanismos de transferencia de datos, etc.
Comparación de Data Warehouse Vs Data Mart
S.No | Almacén de datos | Data Mart |
---|---|---|
1 | Complejo y cuesta más implementarlo. | Simple y económico de implementar. |
2 | Funciona a nivel de organización para toda la empresa. | El alcance se limita a un departamento en particular. |
3 | Consultar el DW es difícil para los usuarios comerciales debido a las enormes dependencias de datos. | Consultar el data mart es fácil para los usuarios empresariales debido a la limitación de datos. |
4 | El tiempo de implementación es mayor puede ser en meses o años. | El tiempo de implementación es menor puede ser en días, semanas o meses. |
5 | Recopila datos de varios sistemas fuente externos. | Recopila datos de unos pocos sistemas de origen DW (o) internos (o) externos centralizados. |
6 | Se pueden tomar decisiones estratégicas. | Se pueden tomar decisiones comerciales. |
Tipos de Data Marts
Los mercados de datos se clasifican en tres tipos, es decir, dependientes, independientes e híbridos. Esta clasificación se basa en cómo se han poblado, es decir, desde un almacén de datos (o) desde cualquier otra fuente de datos.
Extracción, transformación y transporte (ETT) es el proceso que se utiliza para completar los datos del mercado de datos de cualquier sistema de origen.
¡Echemos un vistazo a cada tipo en detalle!
# 1) Centro de datos dependiente
En una despensa de datos dependiente, los datos se obtienen del propio almacén de datos existente. Este es un enfoque de arriba hacia abajo porque la parte de los datos reestructurados en la despensa de datos se extrae del almacén de datos centralizado.
Una despensa de datos puede utilizar datos DW de forma lógica o física como se muestra a continuación:
cual es el mejor programa para limpiar tu computadora
- Vista lógica: En este escenario, los datos del data mart no están separados físicamente del DW. Se refiere a datos DW a través de vistas virtuales (o) tablas de forma lógica.
- Subconjunto físico: En este escenario, los datos de la despensa de datos se separan físicamente del DW.
Una vez que se desarrollan uno o más data marts, puede permitir que los usuarios accedan solo a los data marts (o) para acceder tanto a los Data marts como a los almacenes de datos.
ETT es un proceso simplificado en el caso de mercados de datos dependientes porque los datos utilizables ya existen en el DW centralizado. El conjunto exacto de datos resumidos debe trasladarse a los mercados de datos respectivos.
A continuación se muestra una imagen del centro de datos dependiente :
# 2) Centro de datos independiente
Un data mart independiente es más adecuado para los departamentos pequeños de una organización. Aquí los datos no se obtienen del almacén de datos existente. El mercado de datos independiente no depende de DW empresarial ni de otros mercados de datos.
Los mercados de datos independientes son sistemas independientes en los que los datos se extraen, transforman y cargan desde fuentes de datos externas (o) internas. Estos son fáciles de diseñar y mantener hasta que satisfagan las necesidades comerciales sencillas del departamento.
Debe trabajar con cada fase del proceso ETT en el caso de mercados de datos independientes de una manera similar a cómo se han procesado los datos en DW centralizado. Sin embargo, la cantidad de fuentes y los datos que se ingresan en los data marts pueden ser menores.
Representación pictórica de un Data Mart independiente :
# 3) Centro de datos híbrido
En una despensa de datos híbrida, los datos se integran tanto del DW como de otros sistemas operativos. Los mercados de datos híbridos son flexibles con grandes estructuras de almacenamiento. También puede referirse a otros datos de data marts.
Representación pictórica de un Data Mart híbrido:
Pasos de implementación de un centro de datos
La implementación de Data Mart, que se considera un poco compleja, se explica en los siguientes pasos:
- Diseño: Dado que el momento en que los usuarios comerciales solicitan una despensa de datos, la fase de diseño implica la recopilación de requisitos, la creación de datos apropiados a partir de las respectivas fuentes de datos, la creación de estructuras de datos lógicas y físicas y diagramas ER.
- Construyendo: El equipo diseñará todas las tablas, vistas, índices, etc., en el sistema de data mart.
- Poblando: Los datos se extraerán, transformarán y cargarán en el mercado de datos junto con los metadatos.
- Accediendo: Los datos de Data Mart están disponibles para que los usuarios finales accedan a ellos. Pueden consultar los datos para sus análisis e informes.
- Gerente: Esto implica varias tareas de gestión, como controles de acceso de usuarios, ajuste fino del rendimiento de la despensa de datos, mantenimiento de las tiendas de datos existentes y creación de escenarios de recuperación de la despensa de datos en caso de que el sistema falle.
Estructura de un centro de datos
La estructura de cada data mart se crea según el requisito. Las estructuras de Data Mart se denominan uniones en estrella. Esta estructura diferirá de un data mart a otro.
Las uniones en estrella son estructuras multidimensionales que se forman con tablas de hechos y dimensiones para admitir grandes cantidades de datos. La unión en estrella tendrá una tabla de hechos en el centro rodeada por las tablas de dimensiones.
Los datos de la tabla de hechos respectivos están asociados con los datos de las tablas de dimensiones con una referencia de clave externa. Una tabla de hechos puede estar rodeada por tablas de dimensiones 20-30.
la mejor aplicación de descarga de mp3 para android
Al igual que en el sistema DW, también en las combinaciones en estrella, las tablas de hechos contienen solo datos numéricos y los datos textuales respectivos se pueden describir en tablas de dimensiones. Esta estructura se asemeja a un esquema en estrella en DW.
Representación pictórica de una estructura de unión en estrella.
Pero los datos granulares del DW centralizado son la base para los datos de cualquier data mart. Se realizarán muchos cálculos sobre los datos DW normalizados para transformarlos en datos de marts de datos multidimensionales que se almacenan en forma de cubos.
Esto funciona de manera similar en cuanto a cómo los datos de los sistemas de origen heredados se transforman en datos DW normalizados.
¿Cuándo es útil un centro de datos piloto?
Se puede implementar una prueba piloto en un entorno pequeño con un número restringido de usuarios para garantizar que la implementación sea exitosa antes de la implementación completa. Sin embargo, esto no es esencial todo el tiempo. Los despliegues piloto no serán de utilidad una vez que se cumpla el propósito.
Debe considerar los siguientes escenarios que se recomiendan para la implementación piloto:
- Si los usuarios finales son nuevos en el sistema de almacenamiento de datos.
- Si los usuarios finales quieren sentirse cómodos para recuperar datos / informes por sí mismos antes de pasar a producción.
- Si los usuarios finales quieren practicar con las últimas herramientas (o) tecnologías.
- Si la dirección quiere ver los beneficios como una prueba de concepto antes de convertirlo en un gran lanzamiento.
- Si el equipo lo desea, asegúrese de que todos los componentes ETL (o) los componentes de la infraestructura funcionen bien antes del lanzamiento.
Inconvenientes de Data Mart
Aunque los data marts tienen algunos beneficios sobre DW, también tienen algunos inconvenientes, como se explica a continuación:
- Los mercados de datos no deseados que se han creado son difíciles de mantener.
- Los mercados de datos están pensados para las necesidades de las pequeñas empresas. Aumentar el tamaño de los data marts reducirá su rendimiento.
- Si está creando un mayor número de mercados de datos, la administración debe ocuparse adecuadamente de su control de versiones, seguridad y rendimiento.
- Los mercados de datos pueden contener datos históricos (o) resumidos (o) detallados. Sin embargo, es posible que las actualizaciones de los datos de DW y de la despensa de datos no se realicen al mismo tiempo debido a problemas de inconsistencia de datos.
Conclusión
Muchas organizaciones se están orientando hacia los mercados de datos desde una perspectiva de ahorro de costos. Por lo tanto, este tutorial se ha centrado en los aspectos técnicos de los data marts en el sistema de almacenamiento de datos.
Los metadatos en ETL se explican en detalle en nuestro próximo tutorial.
=> Visite aquí para ver la serie de capacitación sobre almacenamiento de datos para todos.
Lectura recomendada
- Tutorial de pruebas de almacenamiento de datos con ejemplos | Guía de prueba ETL
- Tipos de datos de Python
- Tipos de datos C ++
- Modelo de datos dimensionales en el almacén de datos: tutorial con ejemplos
- Algoritmo a priori en minería de datos: implementación con ejemplos
- Ejemplos de minería de datos: aplicaciones más comunes de minería de datos 2021
- Fundamentos de almacenamiento de datos: una guía definitiva con ejemplos
- Tutorial de prueba de volumen: ejemplos y herramientas de prueba de volumen