oracle data warehouse
Guía de Oracle Data Warehouse con beneficios, arquitectura, riesgos y comparación con el sistema OLTP (procesamiento de transacciones en línea):
En el tutorial anterior de Guía completa de Oracle , hemos aprendido sobre los productos y servicios de Oracle en varios dominios, como aplicaciones, bases de datos, SO, etc. Este artículo proporcionará un conocimiento profundo de Oracle Data Warehousing. Pero antes de eso, primero comprendamos el concepto de Business Intelligence (BI).
Inteligencia de negocios
Business Intelligence es un dominio de software que incorpora ciertos métodos, tecnologías, herramientas y aplicaciones que ayuda a estructurar, refinar y transformar datos masivos en un formato inteligente y comprensible que los clientes pueden utilizar para generar informes personalizados y también ayuda a tomar negocios. decisiones.
Hay diferentes opciones disponibles para satisfacer esta necesidad, como almacenamiento de datos, OLAP (procesamiento de transacciones en línea), minería de datos, integración de datos, ingeniería de decisiones, hojas de cálculo, etc.
Enterprise Data Warehousing (EDW) es uno de los componentes centrales de BI que satisface las necesidades analíticas y de informes de las empresas. Data Warehouse es un sistema de gestión de bases de datos relacionales (RDBMS), que contiene datos consolidados recibidos de múltiples fuentes para su uso posterior.
técnicas de prueba de caja blanca con ejemplos
Lo que vas a aprender:
- Descripción general de Oracle Data Warehouse
- Comparación de OLTP Vs Data Warehouse
- Data Warehouse y Data Mart contrastantes
- Descripción general del proceso ETL
- Arquitectura de almacenamiento de datos
- Conclusión
Descripción general de Oracle Data Warehouse
¿Por qué se denomina 'almacén de datos'?
Intentemos recordar el significado de la palabra 'almacén' para relacionarnos con el término 'almacén de datos'.
Un almacén físico es un depósito que se utiliza para almacenar mercancías recibidas de diversas fuentes, que posteriormente pueden ser suministradas al cliente en función de sus necesidades.
(imagen fuente )
De manera similar, el almacén de datos es un depósito de datos recibidos de varios sistemas de origen. Estas fuentes pueden ser cualquier sistema de almacenamiento como data marts, archivos planos o cualquier dispositivo de almacenamiento de medios que contenga datos para diferentes dominios empresariales como RRHH, Ventas, Operaciones, Gestión de Recursos y Marketing, etc.
Propósito de tener un almacén de datos
Es posible que una empresa haya oído hablar del concepto de almacén de datos, pero puede que no esté seguro de si debe incluirlo en su empresa. Aún así, siempre será necesario volcar datos de diferentes fuentes en un terreno común y archivarlos para que el espacio de almacenamiento pueda liberarse de los sistemas de transacciones. Aquí es donde el sistema de almacenamiento de datos se convierte en un requisito comercial.
Para crecer en el mercado, la gerencia debe ser buena en la toma de decisiones, que solo se pueden tomar después de estudiar a fondo las tendencias pasadas de una organización. Por lo tanto, estos datos archivados se mantienen en el almacén de datos en un formato bien organizado y calculado para que puedan ser referidos para análisis comerciales en el futuro.
Beneficios del almacenamiento de datos
El almacén de datos, si se implementa con éxito, podría ser beneficioso de las siguientes maneras:
#1) Ha simplificado el trabajo de los analistas al ofrecer una versión mejorada de las soluciones de inteligencia empresarial. Extrae datos de múltiples sistemas de origen, los transforma y los almacena, lo que puede ser consultado directamente por la empresa para su análisis.
También ofrece varias herramientas que admiten lo siguiente:
- Generación de informes comerciales personalizados.
- Cuadros de mando interactivos que muestran la información requerida.
- Capacidad de profundizar en los paneles de control solo para obtener los detalles.
- Minería de datos y análisis de tendencias.
#2) Incluso después de recibir datos de varios sistemas de origen, los datos dentro de un almacén de datos se mantienen consistentes como resultado de las transformaciones que ocurrieron durante el proceso ETL. Los datos consistentes dan confianza a quien toma las decisiones en términos de precisión.
#3) Los almacenes de datos también se definen como un ahorro de tiempo, ya que los datos críticos requeridos por las partes interesadas para tomar decisiones comerciales están disponibles en una única ubicación y se pueden recuperar fácilmente.
#4) Estos están diseñados para contener datos históricos y, por lo tanto, se pueden consultar para estudiar tendencias durante diferentes períodos de tiempo. También ayuda a las partes interesadas a derivar la ruta de crecimiento futuro.
Riesgos involucrados en el uso de Data Warehouse
Junto con los beneficios, cada nueva implementación también implica un conjunto de riesgos que deben ser atendidos.
A continuación se enumeran algunos de los riesgos involucrados:
- La no compatibilidad de los sistemas de origen con el sistema de almacenamiento de datos puede terminar haciendo mucho trabajo manual.
- Una estimación incorrecta del tiempo del proceso ETL puede provocar la interrupción del trabajo.
- Estos son sistemas de almacenamiento de muy alta gama y, por lo tanto, necesitan un alto mantenimiento. Cualquier cambio en el flujo de trabajo o en el negocio puede costar muy alto.
- Configurar un almacén de datos es un proceso que requiere mucho tiempo, ya que se necesita mucho tiempo para comprender los flujos comerciales e identificar las capacidades de integración para diseñar un almacén.
- La seguridad de los datos siempre es un riesgo aquí, ya que contiene datos históricos antiguos que, si se filtran, pueden afectar al negocio.
Comparación de OLTP Vs Data Warehouse
Las diferencias entre OLTP y Data Warehouse se pueden comprender en la siguiente tabla.
OLTP | Almacenamiento de datos |
---|---|
Insertar y actualizar son las principales operaciones que realizan los usuarios finales en los sistemas OLTP. | Los almacenes de datos se consultan principalmente mediante la instrucción SELECT y solo se pueden actualizar mediante los servicios ETL. |
Los sistemas OLTP admiten transacciones comerciales. | Data Warehouse respalda las decisiones comerciales que se toman después de analizar las transacciones comerciales completadas. |
Los datos se mantienen volátiles, es decir, siguen cambiando | No se supone que los datos se modifiquen. |
Contienen los datos más recientes. | Contienen los datos históricos. |
Mantiene los datos sin procesar sin ningún cálculo. | Contiene datos resumidos y bien calculados. |
Los datos se normalizarán. | Los datos permanecerán desnormalizados. |
El tamaño de la base de datos de Oracle puede variar de 50 MB a 100 GB. | El tamaño de la base de datos de Oracle puede variar de 100 GB a 2 TB. |
Data Warehouse y Data Mart contrastantes
Data Warehouse y DataMart, no son ambos términos que suenan similares y parecen estar relacionados con el almacenamiento de datos.
Sí, están relacionados y ambos se utilizan para almacenar datos. La principal diferencia entre ambos es la capacidad de almacenar los datos y esta diferencia ayuda a los usuarios finales a elegir la unidad de almacenamiento adecuada para sus sistemas.
Data Mart tiene menos capacidad para almacenar datos en comparación con el almacén de datos y, por lo tanto, puede considerarse como un subconjunto del mismo. Los data marts generalmente se identifican para almacenar datos limitados que podrían ser de un departamento o línea de negocio en particular, mientras que los almacenes de datos se pueden usar para almacenar los datos consolidados para todos.
Tomemos un ejemplo de un sitio web de comercio electrónico que tiene varias categorías de mercancías como Moda, Accesorios, Artículos para el hogar, Libros y útiles escolares, Electrodomésticos, etc.
Por lo tanto, los data marts pueden diseñarse para almacenar la categoría de datos del producto, mientras que los almacenes de datos se pueden usar para almacenar datos completos del sitio web, incluido el historial, en un solo lugar.
Los data marts son de menor tamaño, se pueden crear mucho más rápido sin mucho análisis como se requiere para diseñar un data warehouse. Sin embargo, se necesita mucho esfuerzo para mantener sincronizados varios almacenes de datos para mantener la coherencia de los datos.
Descripción general del proceso ETL
ETL (Extracción, transformación y carga) es un proceso de extracción de datos de diferentes sistemas de origen, transformándolos y cargándolos en el sistema de almacenamiento de datos. Es un proceso complejo que necesita interactuar con una variedad de sistemas de origen para la extracción de datos y, por lo tanto, también es un desafío técnico.
Nuevamente, la transformación necesita mucho análisis para comprender el formato de los sistemas de origen y llevar los datos al formato común para que los mismos datos se puedan almacenar en el almacén de datos.
cómo crear un panel de jira
El proceso ETL es un trabajo recurrente que puede ejecutarse diaria, semanal o incluso mensual, según los requisitos comerciales.
Arquitectura de almacenamiento de datos
Comprendamos la arquitectura de un almacén de datos que está diseñado principalmente para almacenar datos refinados para requisitos comerciales predefinidos. La arquitectura consta de 5 componentes con flujo de datos de arriba a abajo.
Los componentes son los siguientes:
- Fuentes de datos
- Puesta en escena de datos
- Almacén de datos (almacenamiento de datos)
- Marcha de datos (almacenamiento de datos)
- Presentación de datos
Entendamos todas las etapas enlistadas arriba una por una.
# 1) Fuentes de datos
Existen diferentes sistemas de origen que actúan como entrada para los sistemas de almacenamiento de datos.
Estos sistemas fuente pueden ser:
- Bases de datos relacionales como Oracle, DB2, MySQL, MS Access, etc. que se pueden utilizar para registrar las transacciones diarias de cualquier organización. Estas transacciones comerciales diarias podrían estar relacionadas con ERP, CRM, Ventas, Finanzas y Marketing, etc.
- Archivos planos
- servicios web
- Fuentes RSS y fuentes similares.
# 2) Puesta en escena de datos
Una vez que las fuentes de datos estén en su lugar, el siguiente paso sería extraer estos datos de los sistemas de origen al área de preparación del almacén.
Como los datos se han recuperado de diferentes sistemas que siguen diferentes formatos de almacenamiento, es necesario reestructurar los datos para llevarlos a un formato común. Por lo tanto, la transformación de datos se lleva a cabo como siguiente paso.
Durante la transformación, se produce una limpieza de datos que incluye la aplicación de reglas comerciales, el filtrado de datos, la eliminación de redundancias, el formateo de datos, la clasificación de datos, etc.
# 3) Almacén de datos (almacenamiento de datos)
Una vez que los datos se extraen y transforman, se cargarán en un entorno multidimensional, es decir, almacén de datos. Ahora, los usuarios finales pueden utilizar estos datos procesados para análisis y otros fines.
# 4) Data Marts (almacenamiento de datos)
Como se mencionó anteriormente, los datos ahora están listos para ser consumidos por los usuarios finales, existe un proceso opcional de creación de Data Marts como siguiente paso. Estos data marts se pueden utilizar para almacenar datos resumidos de un departamento en particular o una línea de negocio para uso específico.
Por ejemplo, Se pueden agregar mercados de datos separados para departamentos como Ventas, Finanzas y Marketing, etc. como un paso siguiente que contendrá datos específicos y permitirá que un analista realice consultas detalladas para las necesidades comerciales. También evita que cualquier otro usuario final acceda al almacén completo y, por lo tanto, protege los datos.
# 5) Herramientas de acceso a datos (presentación de datos)
Hay una serie de herramientas de inteligencia empresarial predefinidas que los usuarios pueden utilizar para acceder a almacenes de datos o mercados de datos. Estas herramientas de front-end están diseñadas de una manera extremadamente fácil de usar al brindarles a los usuarios una variedad de opciones para acceder a los datos.
Las opciones se mencionan a continuación:
- Aplicando la consulta a Oracle o cualquier otra base de datos directamente a través de SQL.
- La generación del informe.
- Aplicación en desarrollo.
- Uso de herramientas de minería de datos, etc.
Algunas herramientas de almacenamiento populares disponibles en el mercado son:
- Analytix DS
- Amazon Redshift
- Software Ab Initio
- Futuros de código
- Gestión integral de datos
- Corporación de informática
Almacenamiento de datos en la nube
Los almacenes de datos son excesivamente reconocidos por el mundo. La siguiente pregunta que surge: ¿estamos utilizando un enfoque optimizado para implementar almacenes de datos?
Luego, se introdujo el almacenamiento de datos en la nube, que tomó la delantera en el almacenamiento de datos empresariales (EDW). El concepto de almacenes de datos basados en la nube ha ofrecido varias ventajas.
cómo abrir archivos eps en Windows 10
Estos son los siguientes:
(i) Escalabilidad: Los datos en los sistemas en la nube se pueden escalar fácilmente hacia arriba y hacia abajo sin problemas, mientras que consume mucho tiempo y recursos para realizar el escalado en los almacenes de datos tradicionales.
(ii) Ahorro de costos: Los almacenes de datos basados en la nube han marcado una diferencia notable en la inversión requerida para la configuración de un almacén. Han reducido el costo inicial masivo al eliminar el costo de
-
- Mantenimiento de salas de hardware / servidores.
- Personal requerido para mantenimiento.
- Otros costos operativos.
(iii) Desempeño: El rendimiento es otro factor que permitió que los sistemas basados en la nube dominaran a los tradicionales. Si la empresa se expande a nivel mundial y es necesario acceder a los datos desde varias partes del mundo con un tiempo de respuesta más rápido, es mejor utilizar los almacenes basados en la nube.
El procesamiento masivo paralelo (MPP) es uno de los métodos de procesamiento colaborativo utilizados por los almacenes para lograr lo mismo.
(iv) Conectividad: Como se mencionó anteriormente, si es necesario acceder a los datos desde múltiples ubicaciones geográficas, los usuarios necesitan una excelente conectividad a estos almacenes y un almacén basado en la nube ofrece lo mismo.
Conclusión
Esperamos que todos tengan una idea clara sobre el sistema Oracle Data Warehousing después de leer el artículo anterior. Háganos saber si necesita información sobre un tema en particular sobre el almacenamiento de datos para que podamos cubrir lo mismo en los próximos tutoriales.
PREV Tutorial | SIGUIENTE Tutorial
Lectura recomendada
- ¿Qué es un lago de datos? Almacenamiento de datos frente a lago de datos
- Tutorial de pruebas de almacenamiento de datos con ejemplos | Guía de prueba ETL
- Las 10 herramientas más populares de almacenamiento de datos y tecnologías de prueba
- Modelo de datos dimensionales en el almacén de datos: tutorial con ejemplos
- Metadatos en el almacén de datos (ETL) explicados con ejemplos
- Tutorial de pruebas de almacenamiento de datos de pruebas ETL (una guía completa)
- Tipos de esquema en el modelado de almacén de datos: esquema de estrella y SnowFlake
- ¿Qué es el proceso ETL (extraer, transformar, cargar) en el almacén de datos?