what is data lake data warehouse vs data lake
Este tutorial explica todo sobre Data Lake, incluida su necesidad, definición, arquitectura, beneficios y diferencias entre Data Lake y Data Warehouse:
El término 'lago de datos' se utiliza con bastante frecuencia en el mundo de la TI actual. ¿Alguna vez te has preguntado qué es y de dónde proviene exactamente el término?
En la era de la tecnología de la información, en la que los datos se amplifican día y noche en numerosas formas, el concepto de lago de datos se vuelve ciertamente importante y útil.
Exploremos en detalle qué es un lago de datos y cuáles son sus beneficios, usos, etc.
Lo que vas a aprender:
- ¿Qué es un lago de datos y cómo funciona?
- Conclusión
¿Qué es un lago de datos y cómo funciona?
Un lago de datos es un sistema o repositorio centralizado de datos que le permite almacenar todos sus datos estructurados, semiestructurados, no estructurados y binarios en su formato natural / nativo / sin procesar.
Los datos estructurados pueden incluir tablas de RDBMS; Los datos semiestructurados incluyen archivos CSV, archivos XML, registros, JSON, etc .; Los datos no estructurados pueden incluir archivos PDF, documentos de Word, archivos de texto, correos electrónicos, etc .; y los datos binarios pueden incluir archivos de audio, video e imágenes.
Sigue una arquitectura plana para almacenar datos. Generalmente, los datos se almacenan en forma de objetos o archivos.
(imagen fuente )
Con un lago de datos, puede almacenar toda su empresa tal cual en un solo lugar, sin necesidad de estructurar primero los datos. Puede ejecutar directamente los diversos tipos de análisis en él, incluido el aprendizaje automático, el análisis en tiempo real, el movimiento de datos en las instalaciones, el movimiento de datos en tiempo real, los paneles y las visualizaciones.
Mantiene todos los datos en la forma original y supone que el análisis ocurrirá más tarde, bajo demanda.
Analogía del lago de datos
(imagen fuente )
El término Data Lake fue acuñado por James Dixon, el entonces director de tecnología de Pentaho. Él define data mart (un subconjunto de un almacén de datos) como similar a una botella de agua llena de agua limpia y destilada, empaquetada y estructurada para un uso directo y fácil.
Por otro lado, es análogo a un cuerpo de agua en su forma natural. Los datos fluyen desde los arroyos (varias funciones comerciales / sistemas de origen) al lago. Los consumidores del lago de datos, es decir, los usuarios tienen acceso al lago para analizar, examinar, recolectar muestras y bucear.
Al igual que el agua del lago satisface las diferentes necesidades de las personas, como pescar, pasear en bote, proporcionar agua potable, etc., de manera similar, la arquitectura del lago de datos tiene múltiples propósitos.
.net c # preguntas de la entrevista
Un científico de datos puede usarlo para explorar los datos y crear una hipótesis. Ofrece una oportunidad para que los analistas de datos analicen datos y descubran patrones. Proporciona un modo para que los usuarios comerciales y las partes interesadas exploren datos.
También ofrece una oportunidad para que los analistas de informes diseñen informes y se los presenten a la empresa. Por el contrario, el almacén de datos tiene datos empaquetados para propósitos bien definidos, como una botella de bisleri que solo se puede usar para agua potable.
Data Lake Market: crecimiento, tendencias y predicciones
El mercado del lago de datos se divide en función del producto (solución o servicio), la implementación (en las instalaciones o en la nube), la industria de los clientes (minorista, banca, servicios públicos, seguros, TI, atención médica, telecomunicaciones, publicaciones, fabricación) y geográfica. regiones.
Según el informe publicado por Mordor Intelligence, A continuación se muestra la instantánea del mercado para el lago de datos:
(imagen fuente )
# 1) Resumen del mercado
El mercado de Data Lakes se evaluó en USD 3,74 mil millones en 2019 y se anticipa que alcanzará los USD 17,60 mil millones para 2025, a una CAGR (tasa de crecimiento anual compuesta) del 29,9% durante el período de proyección 2020 - 2025.
Estos depósitos de datos se están convirtiendo cada vez más en una opción económica para muchas organizaciones en lugar de los depósitos de datos. A diferencia de los lagos de datos, el almacenamiento de datos requiere un procesamiento adicional de datos antes de ingresar al almacén.
El gasto de administrar un lago de datos es menor en comparación con un almacén de datos debido a una gran cantidad de procesamiento y se requiere espacio para crear la base de datos para los almacenes.
# 2) Jugadores principales
Se prevé que el mercado de Data Lake será un mercado consolidado dominado por los cinco jugadores clave como se ve en la imagen a continuación.
# 3) Tendencias clave
- Se espera que su uso crezca considerablemente en el sector bancario. Los bancos están adoptando lagos de datos para ofrecer análisis sobre la marcha. Además, está ayudando a disolver muchos silos en el sector bancario.
- Dado que hay un gran aumento en los pagos digitales / uso de billeteras móviles en todo el mundo, el alcance del análisis de big data y, por lo tanto, la oportunidad para ellos está aumentando.
- Se prevé que América del Norte tendrá una alta adopción de lagos de datos. Un estudio realizado por Capgemini dice que más del 60% de las organizaciones financieras en los EE. UU. Piensan que el análisis de big data actúa como un diferenciador para las empresas y les da una ventaja competitiva. Más del 90% de las organizaciones sienten que invertir en proyectos de big data aumenta las posibilidades de éxito en el futuro.
- Son necesarios para el uso de aplicaciones de medidores inteligentes y en los EE. UU. Se espera que se instalen alrededor de 90 millones de medidores inteligentes en 2021. Por lo tanto, se prevé una alta demanda de ellos.
¿Por qué se requiere Data Lake?
El propósito de un lago de datos es brindar una vista sin procesar de los datos (datos en su forma más pura).
Ejemplos
Hoy en día, muchas grandes empresas como Google, Amazon, Cloudera, Oracle, Microsoft y algunas más tienen ofertas de lago de datos.
Muchas organizaciones utilizan servicios de almacenamiento en la nube como Azure Data Lake o Amazon S3. Las empresas también están utilizando un sistema de archivos distribuido como Apache Hadoop. El concepto de un lago de datos personales que le permite administrar y compartir sus propios macrodatos también ha evolucionado.
Si hablamos de usos industriales, entonces es un ajuste muy adecuado para el dominio de la salud. Debido al formato no estructurado de muchos datos en la atención médica ( Por ejemplo, Notas del médico, datos clínicos, historial de enfermedades del paciente, etc.) y el requisito de información en tiempo real, un lago de datos es una excelente opción sobre el almacén de datos.
Ofrece soluciones flexibles también en el sector de la educación, donde los datos son muy amplios y muy crudos.
En el sector del transporte, principalmente en la gestión de la cadena de suministro o la logística, ayuda a hacer predicciones y a obtener beneficios de reducción de costos.
la mejor eliminación de malware para windows 7
Las industrias de la aviación y la energía eléctrica también están utilizando lagos de datos.
Un ejemplo de su implementación es GE Predix (desarrollado por General Electric), que es una plataforma de lago de datos industriales que ofrece sólidas competencias de gobernanza de datos para crear, implementar y gobernar aplicaciones industriales que se vinculan a activos industriales, recopilan y analizan datos y proporcionan información en tiempo real. conocimientos para mejorar la infraestructura y los procesos industriales.
Diferencia entre Data Warehouse Vs Data Lake
A menudo, a las personas les resulta difícil comprender en qué se diferencia un lago de un almacén de datos. También argumentan que es lo mismo que el almacén de datos. Pero esta no es la realidad.
El único punto en común entre el lago de datos y el almacén de datos es que ambos son repositorios de almacenamiento de datos. Descansa, son diferentes. Tienen diferentes casos de uso y propósitos.
Las diferencias se aclaran a continuación:
Lago de datos | Almacén de datos | |
---|---|---|
Analítica | Un lago de datos se puede utilizar para el aprendizaje automático, la creación de perfiles de datos de descubrimiento de datos y el análisis predictivo. | Un almacén de datos se puede utilizar para Business Intelligence, visualizaciones y generación de informes por lotes. |
Datos | Un lago de datos conservará todos los datos sin procesar. Puede ser estructurado, no estructurado o semiestructurado. Es posible que algunos de los datos del lago de datos nunca se utilicen. | Un almacén de datos incorpora solo los datos que se procesan y refinan, es decir, datos estructurados que se requieren para informar y resolver problemas comerciales específicos. |
Usuarios | Generalmente, los usuarios de un lago de datos son científicos y desarrolladores de datos. | Generalmente, los usuarios del almacén de datos son profesionales comerciales, usuarios operativos y analistas comerciales. |
Accesibilidad | El lago de datos es muy accesible y fácil y rápido de actualizar porque no tiene ninguna estructura. | En el almacén de datos, actualizar los datos es una operación más complicada y costosa porque los almacenes de datos están estructurados por diseño. |
Esquema | Esquema sobre escritura. Diseñado antes de la implementación de DW. | Schema-on-read. Escrito en el momento del análisis. |
Arquitectura | Arquitectura plana | Arquitectura jerárquica |
Propósito | El propósito de los datos sin procesar almacenados en lagos de datos no es fijo o indeterminado. A veces, los datos pueden fluir hacia un lago de datos con algún uso futuro específico en mente o simplemente para tener los datos a mano. El lago de datos tiene datos menos organizados y menos filtrados. | Los datos procesados almacenados en el Data warehouse tienen un propósito específico y definido. Un DW ha organizado y filtrado datos. Por lo tanto, requiere menos espacio de almacenamiento que el lago de datos. |
Almacenamiento | Diseñado para almacenamiento de bajo costo. El hardware del lago de datos es muy diferente del hardware del almacén de datos. Utiliza servidores estándar combinados con almacenamiento económico. Esto hace que el lago de datos sea bastante económico y altamente escalable a terabytes y petabytes. Esto se hace para mantener todos los datos en un lago de datos para que pueda volver a la hora en cualquier momento para realizar el análisis. | Caro para grandes volúmenes de datos. El almacén de datos tiene un costoso almacenamiento en disco para que tenga un alto rendimiento. Por lo tanto, para conservar el espacio, el modelo de datos se simplifica y solo los datos que realmente se requieren para tomar decisiones comerciales se mantienen en el almacén de datos. |
Soporte para tipos de datos | Un lago de datos admite muy bien los tipos de datos no tradicionales como registros del servidor, datos de sensores, actividad de redes sociales, texto, imágenes, multimedia, etc. Todos los datos se guardan independientemente de la fuente y la estructura. | Generalmente, un almacén de datos consta de datos extraídos de sistemas transaccionales. No admite muy bien los tipos de datos no tradicionales. Almacenar y consumir datos no tradicionales puede resultar costoso y difícil con el almacén de datos. |
Seguridad | La seguridad de los lagos de datos está en una etapa de 'maduración', ya que este es un concepto relativamente nuevo que el almacén de datos. | La seguridad de los almacenes de datos se encuentra en la etapa de 'maduración'. |
Agilidad | Altamente ágil; configurar y reconfigurar según sea necesario. | Menos ágil; configuración fija. |
Arquitectura de lago de datos
Diagrama de arquitectura
Arriba está el diagrama de arquitectura conceptual del lago de datos. En la parte más a la izquierda, puede ver que tenemos las fuentes de datos que pueden estar estructuradas, semiestructuradas o no estructuradas.
Estas fuentes de datos se combinan en un almacén de datos sin procesar que utiliza datos en su forma sin procesar, es decir, datos sin ninguna transformación. Este es un almacenamiento de bajo costo, permanente y escalable.
A continuación, tenemos entornos sandbox analíticos que se pueden utilizar para el descubrimiento de datos, el análisis de datos exploratorios y el modelado predictivo. Básicamente, esto lo utilizan los científicos de datos para explorar datos, construir nuevas hipótesis y definir casos de uso.
Luego, hay un motor de procesamiento por lotes que procesa los datos sin procesar en una forma utilizable por el consumidor, es decir, en un formato estructurado que se puede usar para informar a los usuarios finales.
Luego tenemos un motor de procesamiento en tiempo real que se toma en la transmisión de datos y los transforma.
Características clave de Data Lake
Para ser clasificado como Data Lake, un repositorio de big data debe poseer los siguientes tres atributos:
# 1) Un único repositorio común de datos generalmente alojado dentro de un sistema de archivos distribuido (DFS).
Los lagos de datos de Hadoop mantienen los datos en su forma nativa y capturan los cambios en los datos y la semántica relativa durante el ciclo de vida de los datos. Este enfoque es particularmente beneficioso para las verificaciones de cumplimiento y las auditorías internas.
Esta es una mejora por encima del almacén de datos empresarial convencional en el que cuando los datos pasan por transformaciones, agregaciones y modificaciones, es difícil colocar los datos como un todo cuando es necesario, y las empresas se esfuerzan por descubrir la fuente / origen de los datos.
# 2) Incorpora capacidades de planificación y programación de trabajos (por ejemplo, a través de cualquier herramienta de programación como YARN, etc.).
La ejecución de la carga de trabajo es una necesidad esencial para la empresa Hadoop y YARN ofrece administración de recursos y una plataforma central para proporcionar procesos constantes. seguridad y herramientas de gobernanza de datos en todos los clústeres de Hadoop, lo que garantiza que los flujos de trabajo analíticos posean el nivel requerido de acceso a datos y potencia informática.
# 3) Comprende el conjunto de utilidades y funciones necesarias para consumir, procesar o trabajar con los datos.
La accesibilidad fácil y rápida para los usuarios es una de las características clave de un lago de datos, ya que las organizaciones almacenan los datos en su forma nativa o pura.
Independientemente de la forma en que los datos estén, es decir, estructurados, no estructurados o semiestructurados, se insertan tal cual en el lago de datos. Permite a los propietarios de datos combinar datos de clientes, proveedores y operaciones, eliminando cualquier barrera técnica o política para compartir datos.
Beneficios
(imagen fuente )
- Versátil : Lo suficientemente competente para almacenar todo tipo de datos estructurados / no estructurados que van desde datos CRM hasta actividades de redes sociales.
- Más flexibilidad de esquema : No necesita planificación ni conocimientos previos de análisis de datos. Almacena todos los datos tal y como están en su forma original y supone que el análisis se realizará más tarde, a pedido. Esto es muy útil para OLAP. Por ejemplo, el lago de datos de Hadoop le permite estar libre de esquemas donde puede desacoplar el esquema de los datos.
- Análisis de decisiones en tiempo real : Disfrutan del beneficio de una gran cantidad de datos consistentes y algoritmos de aprendizaje profundo para alcanzar análisis de decisiones en tiempo real. Capaz de obtener valor a partir de tipos de datos ilimitados.
- Escalable: Son mucho más escalables que los almacenes de datos tradicionales y también son menos costosos.
- Análisis avanzado / Compatibilidad con SQL y otros lenguajes: Con los lagos de datos, existen numerosas formas de consultar los datos. A diferencia de los almacenes de datos tradicionales que solo admiten SQL para análisis simples, le brindan muchas otras opciones y soporte de lenguaje para analizar datos. También son compatibles con herramientas de aprendizaje automático como Spark MLlib.
- Democratizar los datos: Acceso democratizado a los datos a través de una vista única e integrada de los datos en toda la organización mientras se utiliza una plataforma de gestión de datos eficaz. Esto asegura la disponibilidad total de datos.
- Mejor calidad de datos: En general, obtiene una mejor calidad de datos con lagos de datos a través de beneficios tecnológicos como el almacenamiento de datos en formato nativo, escalabilidad, versatilidad, flexibilidad de esquema, compatibilidad con SQL y otros lenguajes y análisis avanzado.
Desafíos y riesgos
Los lagos de datos ofrecen muchas ventajas. Pero sí, también hay algunos desafíos y riesgos asociados con ellos que una organización debe abordar con cuidado.
Son:
- Si no se diseñan correctamente, pueden convertirse en pantanos de datos. A veces, las organizaciones simplemente terminan arrojando datos ilimitados en estos lagos sin ninguna estrategia ni propósito en mente.
- A veces, los analistas que desean utilizar los datos no saben cómo hacerlo, ya que es bastante difícil realizar minería en lagos de datos. Por lo tanto, pierden relevancia e impulso después de un tiempo. Las organizaciones deben trabajar para eliminar esta barrera para los analistas.
- Como tenemos una gran cantidad de datos desorganizados en los lagos de datos, no son lo suficientemente recientes o actuales para ser utilizados en producción. Por lo tanto, los datos de estos lagos permanecen en modo piloto y nunca se ponen en producción.
- Los datos no estructurados pueden dar lugar a datos inutilizables.
- A veces, las organizaciones experimentan que no está teniendo un impacto significativo en los negocios con respecto a las inversiones realizadas. Esto requiere un cambio de mentalidad. Para que ocurran los impactos, las empresas deben alentar a los gerentes y líderes a tomar decisiones basadas en los análisis derivados de estos depósitos de datos.
- La seguridad y el control de acceso también son uno de los riesgos cuando trabaja con ellos. Algunos de los datos que pueden requerir privacidad y regulaciones se colocan en lagos de datos sin ningún tipo de supervisión.
Implementación
En una empresa, es bastante sensato realizar la implementación del lago de datos de manera ágil.
Es decir, para implementar primero un MVP de Data Lake, los usuarios lo prueban con respecto a la calidad, la facilidad de acceso, el almacenamiento y las capacidades analíticas, reciben comentarios y luego agregan los requisitos y características complejos para agregar valor al lago.
Generalmente, una organización pasa por las siguientes cuatro etapas básicas de implementación:
(imagen fuente )
Nivel 1:
El lago de datos básico: En esta etapa, el equipo se establece en la arquitectura básica, la tecnología (basada en la nube o heredada) y las prácticas de seguridad y gobierno para el lago de datos. Está hecho capaz de almacenar todos los datos sin procesar provenientes de varias fuentes empresariales y combinar los datos internos y externos para entregar información enriquecida.
Etapa 2:
The Sandbox: Mejora de la capacidad analítica: En esta etapa, los científicos de datos acceden al depósito de datos para ejecutar experimentos preliminares para utilizar datos sin procesar y diseñar modelos analíticos para satisfacer las necesidades comerciales.
Etapa 3:
cómo abrir un archivo con java
Almacenes de datos y colaboración de lago de datos: En esta etapa, la organización comienza a utilizar el lago de datos en sinergia con los almacenes de datos existentes. Los datos de baja prioridad se les envían para que no se exceda el límite de almacenamiento de los almacenes de datos.
Presenta una perspectiva para producir información a partir de datos fríos o consultarlos para descubrir información que no está indexada por bases de datos convencionales.
Etapa 4:
Adopción de extremo a extremo de Data Lake: Esta es la última etapa de adquisición de madurez en la que se convierte en un elemento clave de la arquitectura de datos de la organización y la operación de búsqueda directa de manera efectiva. En ese momento, el lago de datos habría sustituido a EDW y se convertirían en la única fuente de todos los datos empresariales.
Una organización puede hacer lo siguiente a través del lago de datos:
- Cree soluciones complejas de análisis y modelado de datos para diferentes necesidades comerciales.
- Diseñe paneles interactivos que consoliden las comprensiones del lago de datos más diversas aplicaciones y fuentes de datos.
- Implemente programas avanzados de análisis o robótica, ya que maneja operaciones computacionales.
En este punto, también está teniendo fuertes medidas de seguridad y de gobierno.
Proveedores de Data Lake
Existen diferentes proveedores que ofrecen herramientas de lago de datos en la industria.
(imagen fuente )
Si miramos a las grandes empresas:
- Informatica proporciona una herramienta de lago de datos inteligente. BDM (Big Data Management) 10.2.2 es la última versión disponible.
- Hay un vendedor llamado espectador que también proporciona la herramienta.
- La empresa Talend que es popular por sus herramientas ETL, también proporciona la herramienta Data Lake.
- Luego, tenemos una herramienta de código abierto llamada Kylo desde el Teradata empresa. El equipo denominado 'Think Big' de la empresa Teradata ha desarrollado esta herramienta.
- La empresa Datos del barril Inc también proporciona estos servicios.
- Desde Microsoft , puedes encontrar Lago de datos de Azure disponible en la industria.
- Software Hvr también proporciona soluciones de consolidación de lago de datos.
- Datos del podio, una empresa de Qlik está proporcionando productos de herramientas como canalizaciones de lago de datos, lago de datos multizona.
- Copo de nieve también tiene un producto de lago de datos.
- Zaloni es una empresa de lago de datos que maneja grandes cantidades de datos utilizando Big Data.
Por lo tanto, todos estos son los proveedores de servicios populares, así como los proveedores de dichas herramientas.
Si está buscando practicar y desarrollar sus conocimientos sobre lagos de datos, puede optar por Informatica o Kylo. Si está buscando un servicio basado en la nube, puede optar por Looker, Informatica y Talend. Estos tres proveedores proporcionan lagos de datos en la nube de AWS. También puede obtener una prueba gratuita de 1 mes de Kylo.
Conclusión
En este tutorial, discutimos el concepto de lago de datos en detalle. Pasamos por la idea básica detrás del lago de datos, su arquitectura, características clave, beneficios, junto con sus ejemplos, casos de uso, etc.
También vimos en qué se diferencia un lago de datos del almacén de datos. También cubrimos a los principales proveedores que brindan servicios relacionados.
¡¡Feliz lectura!!
Lectura recomendada
- Tutorial de pruebas de almacenamiento de datos con ejemplos | Guía de prueba ETL
- Las 10 mejores herramientas de validación y pruebas de datos estructurados para SEO
- Minería de datos: procesos, técnicas y problemas principales en el análisis de datos
- Tutorial de Data Mart: tipos, ejemplos e implementación de Data Mart
- Las 10 principales herramientas de almacenamiento de datos y tecnologías de prueba más populares
- Modelo de datos dimensionales en el almacén de datos: tutorial con ejemplos
- 10+ mejores herramientas de recopilación de datos con estrategias de recopilación de datos
- Función de agrupación de datos en IBM Rational Quality Manager para la gestión de datos de prueba