data warehousing fundamentals
Aprenda todo sobre los conceptos básicos de almacenamiento de datos. Esta guía detallada explica qué es el almacenamiento de datos junto con sus tipos, características, ventajas y desventajas:
el mejor software para clonar disco duro a ssd
Un almacén de datos es la última tendencia de almacenamiento en la industria de TI actual.
Este tutorial explicará ¿Qué es un almacén de datos? ¿Por qué es crucial el almacenamiento de datos? Tipos de aplicaciones de almacenamiento de datos, características de un almacenamiento de datos, ventajas y desventajas del almacenamiento de datos.
Lista de tutoriales de almacenamiento de datos en esta serie:
Tutorial #1: Fundamentos de almacenamiento de datos
Tutorial #2: ¿Qué es el proceso ETL en el almacén de datos?
Tutorial #3: Pruebas de almacenamiento de datos
Tutorial #4: Modelo de datos dimensionales en el almacén de datos
Tutorial #5: Tipos de esquema en el modelado de almacenamiento de datos
Tutorial #6: Tutorial de Data Mart
Tutorial #7: Metadatos en ETL
Descripción general de los tutoriales de esta serie de almacenamiento de datos
Tutorial_Num | Lo que vas a aprender |
---|---|
Tutorial #7 | Metadatos en ETL Este tutorial explica el papel de los metadatos en ETL, ejemplos y tipos de metadatos, repositorio de metadatos y desafíos en la gestión de metadatos. |
Tutorial #1 | Fundamentos de almacenamiento de datos Aprenda todo sobre los conceptos de almacenamiento de datos en este tutorial. Esta guía detallada explica qué es el almacenamiento de datos junto con sus tipos, características, ventajas y desventajas. |
Tutorial #2 | ¿Qué es el proceso ETL en el almacén de datos? Este tutorial detallado sobre el proceso ETL explica el flujo del proceso y los pasos implicados en el proceso ETL (extracción, transformación y carga) en el almacén de datos. |
Tutorial #3 | Pruebas de almacenamiento de datos Objetivos y significado de las pruebas de almacenamiento de datos, responsabilidades de prueba ETL, errores en la implementación de DW y ETL en detalle en este tutorial. |
Tutorial #4 | Modelo de datos dimensionales en el almacén de datos Este tutorial explica los beneficios y mitos del modelo de datos dimensionales en el almacén de datos. También aprenderá sobre tablas de dimensiones y tablas de hechos con ejemplos. |
Tutorial #5 | Tipos de esquema en el modelado de almacenamiento de datos Este tutorial explica varios tipos de esquemas de almacenamiento de datos. Aprenda qué es el esquema de estrella y el esquema de copo de nieve y la diferencia entre el esquema de estrella y copo de nieve. |
Tutorial #6 | Tutorial de Data Mart Este tutorial explica los conceptos de Data Mart, incluida la implementación, los tipos y la estructura de Data Mart, así como las diferencias entre Data Warehouse y Data Mart. |
Lo que vas a aprender:
- Fundamentos de almacenamiento de datos: una guía completa
- Conclusión
Fundamentos de almacenamiento de datos: una guía completa
Público objetivo
- Desarrolladores y probadores de almacenamiento de datos / ETL.
- Profesionales de bases de datos con conocimientos básicos de conceptos de bases de datos.
- Administradores de bases de datos / expertos en big data que desean comprender los conceptos de almacenamiento de datos.
- Graduados universitarios / Freshers que buscan trabajos de almacenamiento de datos.
¿Qué es el almacenamiento de datos?
Un Data Warehouse (DW) es un repositorio de una gran cantidad de datos organizados. Estos datos se consolidan a partir de una o más fuentes de datos diferentes. DW es una base de datos relacional que está diseñada principalmente para informes analíticos y toma de decisiones a tiempo en organizaciones.
Los datos para este propósito están aislados y optimizados de los datos de la transacción de origen, lo que no tendrá ningún impacto en el negocio principal. Si una organización introduce algún cambio comercial, entonces DW se usa para examinar los efectos de ese cambio y, por lo tanto, DW también se usa para monitorear el proceso de no toma de decisiones.
El almacén de datos es principalmente un sistema de solo lectura, ya que los datos operativos están muy separados de DW. Esto proporciona un entorno para recuperar la mayor cantidad de datos con una buena escritura de consultas.
Por lo tanto, DW actuará como motor de backend para las herramientas de Business Intelligence que muestra los informes, paneles de control para los usuarios comerciales. DW se utiliza ampliamente en los sectores bancario, financiero, minorista, etc.
¿Por qué es crucial el almacenamiento de datos?
A continuación se enumeran algunas de las razones por las que Data Warehouse es crucial.
- El almacén de datos recopila todos los datos operativos de varias fuentes heterogéneas de 'diferentes formatos' y, mediante el proceso de extracción, transformación y carga (ETL), carga los datos en DW en un 'formato dimensional estandarizado' en toda la organización.
- El almacén de datos mantiene tanto 'datos actuales como históricos' para informes analíticos y toma de decisiones basada en hechos.
- Ayuda a las organizaciones a tomar 'decisiones más inteligentes y rápidas' sobre la reducción de costos y el aumento de los ingresos mediante la comparación de informes trimestrales y anuales para mejorar su rendimiento.
Tipos de aplicaciones de almacenamiento de datos
Business Intelligence (BI) es una rama del almacenamiento de datos diseñada para la toma de decisiones. Una vez que se cargan los datos en el DW, BI juega un papel importante al analizar los datos y presentarlos a los usuarios comerciales.
Prácticamente, el término “aplicaciones de almacenamiento de datos” implica cuántos tipos diferentes de datos se pueden procesar y utilizar.
Tenemos tres tipos de aplicaciones DW como se menciona a continuación.
- Procesamiento de información
- Procesamiento analítico
- Minería de datos que sirve al propósito de BI
# 1) Procesamiento de información
Este es un tipo de aplicación donde el almacén de datos permite el contacto directo uno a uno con los datos almacenados en él.
Dado que los datos se pueden procesar escribiendo consultas directas sobre los datos (o) con un análisis estadístico básico de los datos, los resultados finales se informarán a los usuarios comerciales en forma de informes, tablas, cuadros o gráficos.
DW admite las siguientes herramientas para el procesamiento de información:
(i) Herramientas de consulta: La empresa (o) el analista ejecuta las consultas utilizando herramientas de consulta para explorar los datos y generar la salida en forma de informes o gráficos según los requisitos comerciales.
(ii) Herramientas de informes: Si la empresa desea ver los resultados en cualquier formato definido y de forma programada, es decir, diariamente, semanalmente o mensualmente, se utilizarán herramientas de informes. Este tipo de informes se pueden guardar y revisar en cualquier momento.
(iii) Herramientas estadísticas: Si la empresa desea realizar un análisis con una visión amplia de los datos, se utilizarán herramientas estadísticas para generar dichos resultados. Las empresas pueden sacar conclusiones y predicciones al comprender estos resultados estratégicos.
# 2) Procesamiento analítico
Este es un tipo de aplicación donde un data warehouse permite el procesamiento analítico de los datos almacenados en él. Los datos se pueden analizar mediante las siguientes operaciones como Cortar y cortar, Desglosar, Enrollar y Girar.
(i) Cortar y cortar : El almacén de datos permite operaciones de corte y corte para analizar los datos a los que se accede desde muchos niveles con una combinación de diferentes perspectivas. La operación de cortar y cortar utiliza internamente el mecanismo de desglose. El corte funciona con datos dimensionales.
Como parte del requisito comercial, si nos centramos en una sola área, el corte analiza las dimensiones de esa área en particular según los requisitos y da los resultados. El corte en cubos funciona en operaciones analíticas. El corte en dados hace zoom para un conjunto específico de atributos en todas las dimensiones para proporcionar diversas perspectivas. Las dimensiones se consideran de uno o más cortes consecutivos.
(ii) Profundizar : Si la empresa desea ir a un nivel más detallado de cualquier número de resumen, el desglose es una operación para navegar por ese resumen a niveles de menor detalle. Esto da una gran idea de lo que está sucediendo y dónde debe enfocarse el negocio más de cerca.
Explore las pistas desde el nivel de jerarquía hasta el nivel de detalle menor para el análisis de la causa raíz. Esto se puede entender fácilmente con un ejemplo, ya que el desglose de ventas puede ocurrir desde Nivel de país -> Nivel de región -> Nivel de estado -> Nivel de distrito -> Nivel de tienda.
(iii) enrollar : Roll up funciona de forma opuesta a la operación de drill-down. Si la empresa quiere datos resumidos, entonces el roll up entra en juego. Agrega los datos de nivel de detalle subiendo en la jerarquía dimensional.
Los roll-ups se utilizan para analizar el desarrollo y el rendimiento de un sistema.
preguntas y respuestas de la entrevista sql para probadores
Esto se puede entender con un Ejemplo como en un acumulado de ventas donde los totales se pueden acumular desde Nivel de ciudad -> Nivel estatal -> Nivel de región -> Nivel de país .
(iv) Pivote : El pivote analiza los datos de dimensión rotando los datos en los cubos. Por ejemplo, la dimensión de la fila se puede intercambiar en la dimensión de la columna y viceversa.
# 3) Minería de datos
Este es un tipo de aplicación donde el almacén de datos permite el descubrimiento de conocimiento de los datos y los resultados se representarán con herramientas de visualización. En los dos tipos de aplicaciones anteriores, los usuarios pueden manejar la información.
Dado que los datos son enormes en varias empresas, es difícil consultar y desglosar el almacén de datos para obtener toda la información posible sobre los datos. Luego, la minería de datos entra en escena para lograr el descubrimiento del conocimiento.
Esto conduce a los datos con todas las asociaciones pasadas, resultados, etc. y predice el futuro. Por lo tanto, esto se basa en datos y no en el usuario. Los datos se pueden descubrir mediante la búsqueda de patrones, asociaciones, clasificaciones y predicciones ocultos.
La minería de datos profundiza con los datos para predecir el futuro. Basado en las predicciones, también sugiere las acciones a tomar.
A continuación se detallan las diversas actividades de Data Mining:
- Patrones: La minería de datos descubre patrones que ocurren en la base de datos. Los usuarios pueden proporcionar los insumos comerciales sobre los que se espera cierto conocimiento de los patrones para la toma de decisiones.
- Asociaciones / Relaciones: La minería de datos descubre relaciones entre los objetos con la frecuencia de sus reglas de asociación. Esta relación puede ser entre dos o más objetos (o) puede descubrir las reglas dentro de las propiedades del mismo objeto.
- Clasificación: La minería de datos organiza los datos en un conjunto de clases predefinidas. Entonces, si se toma algún objeto de los datos, la clasificación asocia la etiqueta de clase respectiva a ese objeto.
- Predicción: La minería de datos compara un conjunto de valores existentes para encontrar los mejores valores / tendencias futuros posibles en los negocios.
Por lo tanto, en base a todos los resultados anteriores, la minería de datos también propone un conjunto de acciones a tomar.
Características de un almacén de datos
Un almacén de datos se construye en base a las siguientes características de los datos como orientados al sujeto, integrados, no volátiles y variante de tiempo.
que es uat en las pruebas de software
# 1) Orientado al tema: Podemos definir un almacén de datos como orientado a temas, ya que podemos analizar datos con respecto a un área temática específica en lugar de la aplicación de datos inteligentes. Esto proporciona resultados más definidos para facilitar la toma de decisiones. Con respecto a un sistema educativo, las áreas temáticas pueden ser estudiantes, asignaturas, notas, profesores, etc.
# 2) Integrado: Los datos en el almacén de datos se integran de distintas fuentes, como otras bases de datos relacionales, archivos planos, etc. Se obtiene una gran cantidad de datos para un análisis de datos eficaz. Pero puede haber conflictos de datos ya que diferentes fuentes de datos pueden estar en formatos diferentes. El almacén de datos trae todos estos datos en un formato consistente en todo el sistema.
# 3) No volátil: Una vez que los datos se cargan en el almacén de datos, no se pueden cambiar. Lógicamente, esto es aceptable ya que el cambio frecuente de datos no le permitirá analizarlos. Los cambios frecuentes en la base de datos operativa se pueden cargar en un almacén de datos de forma programada; durante este proceso, se agregan nuevos datos, sin embargo, los datos anteriores no se borran y permanecen como datos históricos.
# 4) Variante de tiempo: Todos los datos históricos junto con los datos recientes en el almacén de datos juegan un papel crucial para recuperar datos de cualquier duración. Si la empresa quiere informes, gráficos, etc., para compararlo con los años anteriores y analizar las tendencias, se requieren todos los datos antiguos que tienen 6 meses, 1 año o incluso más, etc.
Beneficios de un almacén de datos
Cuando un sistema de almacenamiento de datos es productivo, una organización obtiene los siguientes beneficios al usarlo:
- Inteligencia empresarial mejorada
- Mayor rendimiento del sistema y las consultas
- Inteligencia empresarial de varias fuentes
- Acceso oportuno a los datos
- Consistencia y calidad de datos mejoradas
- Inteligencia histórica
- Alto retorno de la inversión
# 1) Inteligencia empresarial mejorada: En los primeros días, cuando el almacenamiento de datos y la inteligencia empresarial no estaban presentes, los usuarios y analistas empresariales solían tomar las decisiones con una cantidad limitada de datos y con su propio instinto.
DW & BI han traído un cambio al brindar información con hechos reales y con los datos reales de la organización que se recopilan durante un período de tiempo. Los usuarios comerciales pueden consultar directamente cualquiera de los datos de los procesos comerciales, como marketing, finanzas, ventas, etc., en función de sus necesidades de toma de decisiones estratégicas y decisiones comerciales inteligentes.
# 2) Mayor rendimiento del sistema y de las consultas: El almacenamiento de datos recopila información voluminosa de sistemas heterogéneos y la coloca en un solo sistema para que se pueda utilizar un único motor de consulta para una rápida recuperación de datos.
# 3) Inteligencia empresarial de múltiples fuentes: ¿Sabe cómo funciona la inteligencia empresarial en general con los datos? Absorbe los datos de múltiples sistemas, subsistemas, plataformas y fuentes de datos para trabajar en un proyecto. Sin embargo, el almacén de datos resuelve este problema para BI al consolidar todos los datos del proyecto sin duplicados.
# 4) Acceso oportuno a los datos: Los usuarios comerciales se beneficiarán al dedicar menos tiempo a la recuperación de datos. Tienen a mano algunas herramientas, con las que pueden consultar los datos con un mínimo de conocimientos técnicos y generar los informes. Esto hace que los usuarios empresariales dediquen suficiente tiempo al análisis de datos en lugar de a la recopilación de datos.
# 5) Calidad y consistencia de datos mejoradas: El almacenamiento de datos transforma los datos con formatos de sistema de origen diferentes en un solo formato. Por lo tanto, tal vez las mismas unidades de negocios que están enviando los datos al almacén de datos puedan reutilizar el repositorio de DW para sus informes y consultas comerciales.
Por lo tanto, desde el punto de vista de la organización, todas las unidades de negocio estarán al tanto con resultados / informes consistentes. Por lo tanto, estos datos consistentes y de buena calidad ayudan a administrar un negocio exitoso.
# 6) Inteligencia histórica: El almacén de datos mantiene todos los datos históricos que no son mantenidos por ningún sistema transaccional. Esta gran cantidad de datos se utiliza para analizar datos durante un tiempo específico y para informarlos, y analizar las tendencias para predecir el futuro.
# 7) Alto retorno de la inversión (ROI): Cualquiera inicia un negocio esperando buenos rendimientos de las inversiones, en términos de mayores ganancias y menores gastos. En el mundo real de los datos, muchos estudios han demostrado que la implementación del almacén de datos y los sistemas de Business Intelligence generó altos ingresos y ahorró costos.
A esta altura, debería poder comprender cómo un sistema DW bien diseñado aporta beneficios a su negocio.
Desventajas del almacenamiento de datos
Aunque es un sistema muy exitoso, es bueno conocer algunas de las dificultades del sistema:
- La creación de un almacén de datos es definitivamente un proceso complejo y que requiere mucho tiempo.
- El costo de mantenimiento es elevado ya que el sistema necesita actualizaciones continuas. También podría aumentar si no se utiliza correctamente.
- Se debe brindar la capacitación adecuada a los desarrolladores, probadores y usuarios para comprender el sistema DW e implementarlo técnicamente.
- Es posible que haya datos confidenciales que no se puedan cargar en DW para la toma de decisiones.
- La reestructuración de cualquier proceso empresarial (o) sistema de origen tiene un efecto importante en DW.
Conclusión
Esperamos que este tutorial introductorio proporcione un trasfondo de los fundamentos del almacenamiento de datos. Analizamos en profundidad todos los conceptos fundamentales del almacenamiento de datos.
Aprendimos la definición, los tipos, las características, los beneficios y las desventajas del almacenamiento de datos en este tutorial completo.
=> Lea la serie de formación sobre almacenamiento de datos sencillo.
Lectura recomendada
- Ejemplos de minería de datos: aplicaciones más comunes de minería de datos 2021
- Cómo funcionan las pruebas basadas en datos (ejemplos de QTP y selenio)
- Minería de datos: procesos, técnicas y problemas principales en el análisis de datos
- Tutorial de pruebas de almacenamiento de datos de pruebas ETL (una guía completa)
- La mejor serie de tutoriales de C # GRATIS: la guía definitiva de C # para principiantes
- Tutorial de redes informáticas: la guía definitiva
- Tutorial de QTP n. ° 18: marcos híbridos y controlados por datos explicados con ejemplos de QTP
- Las 10 mejores herramientas de recopilación de datos con estrategias de recopilación de datos