metadata data warehouse explained with examples
Este tutorial explica el papel de los metadatos en ETL, ejemplos y tipos de metadatos, repositorio de metadatos y desafíos en la gestión de metadatos:
Data Mart en ETL se explicó en detalle en nuestro tutorial anterior.
El concepto de metadatos es muy importante en ETL y este tutorial explicará todo acerca de los metadatos.
Cubre el papel de los metadatos, ejemplos de metadatos, así como sus tipos, repositorio de metadatos, cómo se pueden administrar los metadatos de almacenamiento de datos, desafíos para la administración de metadatos.
También conocerá qué es ETL basado en metadatos y la diferencia entre datos y metadatos.
=> Lea aquí la serie de capacitación gratuita sobre almacenamiento de datos.
Público objetivo
- Desarrolladores y probadores de almacenamiento de datos / ETL.
- Profesionales de bases de datos con conocimientos básicos de conceptos de bases de datos.
- Administradores de bases de datos / expertos en big data que quieran comprender las áreas de almacenamiento de datos / ETL.
- Graduados universitarios / novatos que buscan trabajos de almacén de datos.
Lo que vas a aprender:
¿Quién es responsable del valor comercial entregado por un equipo scrum?
Metadatos en ETL
Los usuarios del equipo (o) del almacén de datos pueden usar metadatos en una variedad de situaciones para construir, mantener y administrar el sistema. La definición básica de metadatos en el almacén de datos es, 'Son datos sobre datos' .
Los metadatos pueden contener todo tipo de información sobre datos DW como:
- Fuente de los datos extraídos.
- Uso de esos datos DW.
- Cualquier tipo de datos y sus valores.
- Características de los datos.
- Lógica de transformación para datos extraídos.
- Tablas DW y sus atributos.
- Objetos DW
- Marcas de tiempo
Los metadatos actúan como una tabla de contenido para los datos en el sistema DW, que muestra la técnica con más detalles sobre esos datos. En palabras simples, puede pensar en un índice en cualquier libro que actúe como metadatos para el contenido de ese libro.
Del mismo modo, los metadatos funcionan como un índice del contenido DW. Todos esos metadatos se almacenan en un repositorio. Al revisar los metadatos, los usuarios finales saben desde dónde pueden comenzar a analizar el sistema DW. De lo contrario, es difícil para los usuarios finales saber desde dónde comenzar el análisis de datos en un sistema DW tan grande.
Papel de los metadatos en el almacén de datos
En los primeros días, los metadatos se creaban y se mantenían como documentos. Pero en el mundo digital actual, varias herramientas han facilitado este trabajo al registrar metadatos en cada nivel del proceso de DW.
Los metadatos creados por una herramienta se pueden estandarizar (es decir, los datos se pueden traer a un formato único) y se pueden reutilizar en las otras herramientas en cualquier parte del sistema DW.
Como sabemos que los sistemas operativos mantienen datos actuales, los sistemas DW mantienen datos históricos y actuales.
Los metadatos deben mantener un registro de todos los cambios que ocurren en los sistemas de origen, los métodos de extracción / transformación de datos y en la estructura (o) contenido de los datos que surgirán en este proceso. Los metadatos mantendrán varias versiones para realizar un seguimiento de todos estos cambios durante varios años.
Los metadatos suficientes proporcionados en el repositorio ayudarán a cualquier usuario a analizar el sistema de manera más eficiente e independiente. Al comprender los metadatos, puede ejecutar cualquier tipo de consulta en datos DW para obtener los mejores resultados.
Representación pictórica del papel de los metadatos:
Ejemplos de metadatos en términos simples
A continuación se muestran algunos de los ejemplos de metadatos.
- Los metadatos de una página web pueden contener el idioma en el que está codificada, las herramientas utilizadas para crearla, los navegadores compatibles, etc.
- Los metadatos de una imagen digital pueden contener el tamaño de la imagen, la resolución, la intensidad del color, la fecha de creación de la imagen, etc.
- Los metadatos de un documento pueden contener la fecha de creación del documento, la fecha de la última modificación, su tamaño, autor, descripción, etc.
Comparación entre datos y metadatos
S.No | Datos | Metadatos |
---|---|---|
1 | Los datos son un conjunto de información. | Los metadatos son información sobre datos. |
2 | Es posible que los datos (o) no se procesen. | Los metadatos son siempre datos procesados. |
Tipos de metadatos
La clasificación de metadatos en varios tipos nos ayudará a comprenderlos mejor. Esta clasificación puede basarse en su uso (o) los usuarios, etc.
Exploremos los diferentes tipos de metadatos a continuación:
# 1) Metadatos de trastienda: Dirige a los DBA (o) a los usuarios finales sobre los procesos de extracción, limpieza y carga.
# 2) Metadatos de la sala delantera: Dirige a los usuarios finales a trabajar con herramientas e informes de BI.
# 3) Metadatos del proceso: Esto almacena metadatos del proceso ETL como el número de filas cargadas, rechazadas, procesadas y el tiempo que se tarda en cargar en un sistema DW, etc. Esta información también puede ser accesible para los usuarios finales.
Al mismo tiempo, las estadísticas de las tablas de preparación también son importantes para el equipo de ETL. Estos metadatos almacenarán los datos del proceso de las tablas de preparación, como el número de filas cargadas, rechazadas, procesadas y el tiempo que se tarda en cargar en cada tabla de preparación.
mejores limpiadores de registro gratuitos para windows 10
# 4) Linaje de datos: Esto almacena la transformación lógica para cada elemento del sistema de origen en el elemento de destino DW.
# 5) Definiciones comerciales: El contexto de las tablas DW se ha derivado de las definiciones comerciales. Cada atributo de una tabla está asociado con una definición empresarial. Por lo tanto, estos deben almacenarse como metadatos (o) cualquier otro documento para referencia futura. Tanto los usuarios finales como el equipo ETL dependen de estas definiciones comerciales.
# 6) Definiciones técnicas: Las definiciones técnicas se utilizan exclusivamente en el área de preparación de datos más que las definiciones comerciales. El objetivo principal es reducir la ambigüedad al crear tablas de preparación y reutilizar las tablas existentes. Las definiciones técnicas almacenarán los detalles de cada mesa de preparación, como su ubicación y estructura.
Cada tabla de etapas se documenta técnicamente aquí, si no se documenta, significa que la tabla de etapas no existe. Esto evita la recreación de la misma tabla de preparación.
# 7) Metadatos comerciales: Los datos se almacenarán en términos comerciales para el beneficio de los usuarios finales / analistas / administradores / cualquier usuario. Los metadatos comerciales son proxy de los datos del sistema de origen, es decir, no se realizarán manipulaciones de datos en ellos. Puede derivarse de cualquier documento comercial y reglas comerciales.
# 8) Metadatos técnicos: Esto almacenará datos técnicos como los atributos de las tablas, sus tipos de datos, tamaño, atributos de clave primaria, atributos de clave externa y cualquier índice. Esto está más estructurado en comparación con los metadatos comerciales.
Los metadatos técnicos están destinados principalmente para que el equipo de DW, como desarrolladores / probadores / analistas / DBA, creen (o) mantengan el sistema. Esto también es utilizado significativamente por los administradores para monitorear las cargas de la base de datos y las copias de seguridad de datos, etc.
# 9) Metadatos operativos: Como sabemos, los datos del sistema DW provienen de muchos sistemas operativos con diversos tipos y campos de datos. Las extracciones DW transforman dichos datos en un tipo único y cargan todos estos datos en el sistema.
Al mismo tiempo, debe poder vincular los datos a los datos del sistema de origen. Los metadatos que almacenan toda esta información de fuentes de datos operativos se conocen como metadatos operativos.
# 10) Información del sistema de origen:
Puede recopilar los siguientes metadatos de varios sistemas de origen:
- Base de datos (o) sistema de archivos: Esto almacenará los nombres de las bases de datos (o) archivos del sistema de origen.
- Especificaciones de la mesa: Esto almacenará todos los detalles sobre las tablas, como el nombre de la tabla, su propósito, tamaño, atributos, claves primarias y claves externas.
- Reglas de manejo de excepciones: Esto almacenará diferentes métodos para recuperar el sistema en caso de fallas del sistema.
- Definiciones comerciales: Esto almacenará definiciones comerciales para una breve comprensión de los datos.
- Reglas del negocio: Esto almacenará un conjunto de reglas para cada tabla para comprender sus datos y evitar inconsistencias.
Los metadatos del sistema de origen ahorran mucho tiempo al equipo de DW al analizar los datos.
# 11) Metadatos del trabajo ETL: Los metadatos de trabajos ETL son muy importantes, ya que almacenan los detalles de todos los trabajos que se procesarán en la programación para cargar el sistema ETL.
cómo usar un archivo apk
Estos metadatos almacenan la siguiente información:
- Nombre del trabajo: Nombre del trabajo ETL.
- Propuesta de trabajo: El propósito de ejecutar el trabajo.
- Tablas / archivos de origen: Proporciona los nombres y la ubicación de todas las tablas y archivos de los que este trabajo ETL obtiene los datos. Puede tener más de una tabla (o) nombre de archivo.
- Tablas / archivos de destino: Proporciona los nombres y la ubicación de todas las tablas y archivos a los que este trabajo ETL está transformando los datos. Puede tener más de una tabla (o) nombre de archivo.
- Datos rechazados: Proporciona los nombres y la ubicación de todas las tablas y archivos de los que no se han cargado los datos de origen previstos en el destino.
- Procesos previos: Proporciona los trabajos (o) nombres de script de los que depende el trabajo actual. Significa que deben ejecutarse con éxito antes de ejecutar el trabajo actual.
- Procesos posteriores: Proporciona los trabajos (o) nombres de secuencias de comandos que deben ejecutarse inmediatamente después del trabajo actual para completar el proceso.
- Frecuencia: Proporciona información sobre la frecuencia con la que se debe ejecutar el trabajo, es decir, diaria, semanal (o) mensual.
# 12) Metadatos de transformación: Los metadatos de transformación almacenan toda la información de construcción relacionada con el proceso ETL. Cada manipulación de datos en el proceso ETL se conoce como transformación de datos.
Cualquier conjunto de funciones, procedimientos almacenados, cursores, variables y bucles en el proceso ETL se pueden considerar transformaciones. Pero tales transformaciones no se pueden documentar por separado como metadatos.
Todo el proceso ETL se construye con transformaciones de datos. Se pueden predefinir y utilizar pocas transformaciones en ETL en el sistema DW. Los desarrolladores de ETL dedican su tiempo a crear (o) reprocesar todas las transformaciones de datos. La reutilización de las transformaciones predefinidas durante el desarrollo del proceso ETL acelerará el trabajo.
Lea las siguientes transformaciones de datos que puede encontrar en ETL:
- Extracciones de datos de origen: Esto implica transformaciones de datos para leer datos del sistema de origen, como una consulta SQL Select (o) FTP (o) leer datos XML / mainframe.
- Generadores de claves sustitutos: El nuevo número de secuencia que se debe generar para cada fila de la tabla de la base de datos se almacena como metadatos.
- Búsquedas: Las búsquedas se pueden formar con todas las declaraciones IN, combinaciones internas y combinaciones externas. Estos se utilizan principalmente para mantener las claves sustitutas de todas las tablas de dimensiones respectivas mientras se carga un hecho.
- Filtros: Se recomiendan filtros para clasificar los datos que se deben extraer, cargar y rechazar en el proceso ETL. Filtrar los datos en las primeras etapas del sistema ETL es una buena práctica. Los filtros se aplican según las reglas (o) restricciones comerciales.
- Agregados: Dependiendo del nivel de granularidad de los datos, los metadatos relacionados con las funciones agregadas se pueden usar como suma, recuento, promedio, etc.
- Estrategias de actualización: Estas son las reglas que se aplican a un registro mientras se actualizan los datos. Si hay alguna modificación en los datos existentes, esto indicará si se debe agregar, eliminar (o) actualizar un registro.
- Cargador de destino: El cargador de destino almacenará los detalles de la base de datos, los nombres de las tablas y los nombres de las columnas en las que se deben cargar los datos a través del proceso ETL. Además, esto también almacenará los detalles de la utilidad de carga masiva, si corresponde, que se realiza mientras se cargan datos en el sistema ETL.
Cada transformación se puede nombrar de manera distintiva con una breve nota sobre su propósito.
Aquí se incluyen algunos ejemplos de convenciones de nomenclatura para la lista de transformaciones anterior.
|_+_|Repositorio de metadatos en ETL
Un repositorio de metadatos es un lugar donde se almacena cualquier tipo de metadatos en una base de datos local (o) en una base de datos virtual. Cada tipo de metadatos, como los metadatos comerciales (o) los metadatos técnicos, se pueden separar de forma lógica en un repositorio.
Además de los dos tipos anteriores, el repositorio también tiene un componente más llamado Navegador de información.
El navegador de información se puede utilizar para realizar las siguientes tareas:
- Interfaz de la herramienta de consulta: Esto proporciona una interfaz a las herramientas de consulta para acceder a los metadatos de DW.
- Desglose para obtener más detalles: Esto permite al usuario profundizar en los metadatos para obtener información más detallada. Como ejemplo, en el primer nivel, el usuario puede obtener una definición de tabla de datos. Al profundizar, puede obtener los atributos de la tabla en el siguiente nivel. Al profundizar más en los datos, puede obtener los detalles de cada atributo, etc.
- Revisar consultas e informes predefinidos: Esto permite al usuario revisar consultas e informes predefinidos. Esto actúa como una referencia para enmarcar consultas por sí mismo con parámetros adecuados, etc.
Representación pictórica del repositorio de metadatos:
¿Cómo se pueden administrar los metadatos de almacenamiento de datos?
Las personas, los procesos y las herramientas son las fuentes clave para gestionar los metadatos.
- Las personas deben comprender los metadatos para un uso adecuado.
- El proceso incorporará metadatos en herramientas (o) repositorio con el progreso del ciclo de vida de DW para uso futuro.
- Posteriormente, los metadatos se pueden administrar mediante herramientas.
Desafíos para la gestión de metadatos
Una vez que se crean los metadatos, puede enfrentar los siguientes desafíos mientras integra y administra metadatos en el sistema.
- Llevar varios formatos de metadatos a un formato estándar puede requerir más esfuerzo si se utilizan varias herramientas en el sistema DW, porque los metadatos se pueden almacenar en hojas de cálculo, aplicaciones (o) bases de datos.
- Los formatos de metadatos no tienen estándares establecidos para toda la industria. Con esta falta de proceso estandarizado, es difícil pasar metadatos a través de varios niveles del sistema y herramientas DW.
- Mantener constantemente varias versiones de metadatos históricos es una tarea compleja.
¿Qué es ETL basado en metadatos?
ETL impulsado por metadatos establece una capa para simplificar el proceso de carga de datos en un sistema DW. Puede decidir si procesar los datos en el sistema (o) no dependiendo de los metadatos. Por lo tanto, puede llamarlo ETL controlado por metadatos.
Conclusión
El papel importante de los metadatos en la determinación del éxito (o) el fracaso de un sistema DW se explicó en detalle en este tutorial.
También exploramos en detalle el significado, el rol, los ejemplos, los tipos y los desafíos de los metadatos junto con la representación pictórica en cuestión.
Esperamos que estos tutoriales informativos de esta serie de almacenamiento de datos enriquezcan su conocimiento sobre el almacenamiento de datos y conceptos relacionados.
¡¡Feliz lectura!!
=> Visite aquí para aprender el almacenamiento de datos desde cero.
Lectura recomendada
- Tutorial de pruebas de almacenamiento de datos con ejemplos | Guía de prueba ETL
- Tutorial de pruebas de almacenamiento de datos de pruebas ETL (una guía completa)
- Modelo de datos dimensionales en el almacén de datos: tutorial con ejemplos
- Tutorial de Data Mart: tipos, ejemplos e implementación de Data Mart
- ¿Qué es el proceso ETL (extraer, transformar, cargar) en el almacén de datos?
- Las 10 mejores herramientas de mapeo de datos útiles en el proceso ETL (2021 LIST)
- Ejemplos de minería de datos: aplicaciones más comunes de minería de datos 2021
- Preguntas y respuestas de la entrevista de prueba ETL