big data tutorial beginners what is big data
Este tutorial explica todo sobre los conceptos básicos de Big Data. El tutorial incluye beneficios, desafíos, tecnologías y herramientas junto con aplicaciones de Big Data:
En este mundo digital con avances tecnológicos, intercambiamos grandes cantidades de datos a diario como en Terabytes o Petabyte .
Si intercambiamos esa cantidad de datos a diario, también debemos mantenerlos y almacenarlos en algún lugar. La solución para manejar grandes volúmenes de datos con alta velocidad y diferente variedad es Big Data.
Puede manejar datos complejos provenientes de múltiples fuentes como diferentes bases de datos, sitios web, widgets, etc. Además, puede vincular y hacer coincidir los datos provenientes de diferentes fuentes. De hecho, brinda un acceso más rápido a los datos ( Por ejemplo, social media).
Lista de tutoriales en esta serie de Big Data
Tutorial #1: ¿Qué es Big Data? (Este tutorial)
Tutorial #2: ¿Qué es Hadoop? Tutorial de Apache Hadoop para principiantes
Tutorial #3: Hadoop HDFS: sistema de archivos distribuido Hadoop
Tutorial #4: Guía de comandos de arquitectura Hadoop y HDFS
Tutorial #5: Tutorial de Hadoop MapReduce con ejemplos | ¿Qué es MapReduce?
Tutorial #6: Tutorial de Apache Hadoop YARN para principiantes | ¿Qué es YARN?
Tutorial #7: Tutorial completo de pruebas de Hadoop | Guía de prueba de Big Data
Lo que vas a aprender:
¿Qué es Big Data?
La palabra Huge no es suficiente para explicar BigData, ciertas características clasifican los datos en BigData.
Tenemos tres características principales de BigData, y si algún dato satisface estas características, será tratado como BigData. yo t es la combinación de las tres V mencionadas a continuación:
- Volumen
- Velocidad
- Variedad
Volumen : Los datos deben ser de gran volumen. Big Data tiene la solución para mantener una gran cantidad de datos en Terabyte o Petabyte. Podemos realizar operaciones CRUD (Crear, Leer, Actualizar y Eliminar) en BigData de manera fácil y efectiva.
Velocidad : Es responsable de un acceso más rápido a los datos. Por ejemplo, Hoy en día, las redes sociales necesitan un intercambio rápido de datos en una fracción de tiempo y BigData es la mejor solución para ello. Por tanto, la velocidad es otra característica y es la velocidad de procesamiento de los datos.
Variedad : En las redes sociales se trata de datos no estructurados como grabaciones de audio o vídeo, imágenes, etc. Además, diversos sectores como el de la banca necesitan datos estructurados y semiestructurados. BigData es la solución para mantener ambos tipos de datos en un solo lugar.
Variedad significa diferentes tipos de datos como datos estructurados / no estructurados que provienen de múltiples fuentes.
Datos estructurados : Los datos que tienen una estructura adecuada o que se pueden almacenar fácilmente en forma tabular en cualquier base de datos relacional como Oracle, SQL Server o MySQL se conocen como datos estructurados. Podemos procesarlo o analizarlo de manera fácil y eficiente.
qué programas pueden editar archivos pdf
Un ejemplo de datos estructurados son los datos almacenados en una base de datos relacional que se puede administrar mediante SQL (lenguaje de consulta estructurado). Por ejemplo, Los datos de los empleados (nombre, identificación, designación y salario) se pueden almacenar en formato tabular.
En una base de datos tradicional, podemos realizar operaciones o procesar datos no estructurados o semiestructurados solo después de formatearlos o ajustarlos a la base de datos relacional. Ejemplos de los datos estructurados son ERP, CRM, etc.
Datos semiestructurados: Los datos semiestructurados son los datos que no están completamente formateados. No se almacena en tablas de datos ni en ninguna base de datos. Pero aún así, podemos prepararlo y procesarlo fácilmente, ya que estos datos contienen etiquetas o valores separados por comas, etc. Ejemplo de datos semiestructurados son archivos XML, archivos CSV, etc.
Datos no estructurados: Los datos no estructurados son los datos que no tienen ninguna estructura. Puede ser de cualquier forma, no existe un modelo de datos predefinido. No podemos almacenarlo en bases de datos tradicionales. Es complejo buscarlo y procesarlo.
Además, el volumen de datos no estructurados es muy alto. Ejemplo de datos no estructurados es el cuerpo del correo electrónico, audio, video, imágenes, documentos obtenidos, etc.
Desafíos de las bases de datos tradicionales
- La base de datos tradicional no admite una variedad de datos, es decir, no puede manejar datos no estructurados y semiestructurados.
- Una base de datos tradicional es lenta cuando se trata de una gran cantidad de datos.
- En las bases de datos tradicionales, el procesamiento o análisis de una gran cantidad de datos es muy difícil.
- Una base de datos tradicional es capaz de almacenar datos en terabytes o petabytes.
- Una base de datos tradicional no puede manejar datos e informes históricos.
- Después de cierto tiempo, es necesario limpiar los datos de la base de datos.
- El costo de mantener una gran cantidad de datos es muy alto con una base de datos tradicional.
- La precisión de los datos es menor en la base de datos tradicional, ya que no se mantienen los datos históricos completos.
Big DataBeneficios sobre la base de datos tradicional
- Big Data es responsable de manejar, administrar y procesar diferentes tipos de datos como estructurados, semiestructurados y no estructurados.
- Es rentable en términos de mantener una gran cantidad de datos. Funciona en un sistema de base de datos distribuido.
- Podemos guardar grandes cantidades de datos durante mucho tiempo utilizando técnicas de BigData. Por tanto, es fácil manejar datos históricos y generar informes precisos.
- La velocidad de procesamiento de datos es muy rápida y, por lo tanto, las redes sociales utilizan técnicas de Big Data.
- La precisión de los datos es una gran ventaja de Big Data.
- Permite a los usuarios tomar decisiones eficientes para su negocio basadas en datos actuales e históricos.
- El manejo de errores, el control de versiones y la experiencia del cliente son muy efectivos en BigData.
Lectura sugerida => Big Data vs Big Data Analytics vs Data Science
Desafíos y riesgos en BigData
Desafíos:
- Uno de los principales desafíos en Big Data es administrar grandes cantidades de datos. Hoy en día, los datos llegan a un sistema de varias fuentes con variedad. Así que es un gran desafío para las empresas gestionarlo correctamente. Por ejemplo, para generar un informe que contenga los últimos 20 años de datos, es necesario guardar y mantener los últimos 20 años de datos de un sistema. Para proporcionar un informe preciso, es necesario introducir solo los datos relevantes en el sistema. No debe contener datos irrelevantes o innecesarios, de lo contrario, mantener esa cantidad de datos será un gran desafío para las empresas.
- Otro desafío con esta tecnología es la sincronización de varios tipos de datos. Como todos sabemos, Big Data admite datos estructurados, no estructurados y semiestructurados que provienen de diferentes fuentes, sincronizarlos y obtener la consistencia de los datos es muy difícil.
- El próximo desafío que enfrentan las empresas es la brecha de expertos que pueden ayudar e implementar los problemas que enfrentan en el sistema. Hay una gran brecha de talento en este campo.
- Manejar el aspecto de cumplimiento es costoso.
- La recopilación, agregación, almacenamiento, análisis e informes de datos de BigData tiene un costo enorme. La organización debería poder gestionar todos estos costes.
Riesgos:
- Puede manejar una variedad de datos, pero si las empresas no pueden comprender los requisitos adecuadamente y controlar la fuente de datos, proporcionará resultados erróneos. Como resultado, se necesitará mucho tiempo y dinero para investigar y corregir los resultados.
- La seguridad de los datos es otro riesgo con BigData. Con un gran volumen de datos, hay mayores posibilidades de que alguien los robe. Los piratas informáticos pueden robar y vender información importante (incluidos datos históricos) de la empresa.
- Además, la privacidad de los datos es otro riesgo para BigData. Si queremos proteger los datos personales y confidenciales de los piratas informáticos, entonces deben estar protegidos y deben aprobar todas las políticas de privacidad.
Tecnologías de Big Data
Las siguientes son las tecnologías que se pueden utilizar para gestionar Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Sin SQL
- Colmena
- Sqoop
- BigData en Excel
Una descripción detallada de estas tecnologías se cubrirá en nuestros próximos tutoriales.
Herramientas para utilizar conceptos de Big Data
A continuación se enumeran las herramientas de código abierto que pueden ayudar a utilizar los conceptos de Big Data:
# 1) Apache Hadoop
youtube a mp3 más de 90 minutos
# 2) Lumify
# 3) Tormenta Apache
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) BigData del sistema HPCC
Aplicaciones de Big Data
A continuación se muestran los dominios donde se usa:
- Bancario
- Medios de comunicación y entretenimiento
- Proveedores de servicios de salud
- Seguro
- Educación
- Venta minorista
- Fabricación
- Gobierno
BigData y almacén de datos
El almacén de datos es un concepto básico que debemos entender antes de hablar sobre Hadoop o BigData Testing.
Entendamos Data Warehouse a partir de un ejemplo en tiempo real. Por ejemplo , hay una empresa que ha establecido sus sucursales en tres países diferentes, supongamos una sucursal en India, Australia y Japón.
En cada sucursal, todos los datos del cliente se almacenan en la base de datos local. Estas bases de datos locales pueden ser RDBMS clásicos normales como Oracle o MySQL o SQL Server, etc. y todos los datos del cliente se almacenarán en ellas diariamente.
Ahora, de forma trimestral, semestral o anual, la organización desea analizar estos datos para el desarrollo empresarial. Para hacer lo mismo, la organización recopilará todos estos datos de múltiples fuentes y luego los pondrá juntos en un solo lugar y este lugar se llama 'Almacén de datos'.
Data Warehouse es un tipo de base de datos que contiene todos los datos extraídos de múltiples fuentes o múltiples tipos de bases de datos a través del 'ETL' (Cuál es el ES extraer, T transformar y L oad) proceso. Una vez que los datos están listos en el almacén de datos, podemos usarlos con fines analíticos.
Entonces, para el análisis, podemos generar informes a partir de los datos disponibles en el almacén de datos. Se pueden generar varios gráficos e informes utilizando las herramientas de inteligencia empresarial.
Necesitamos Data Warehouse con fines analíticos para hacer crecer el negocio y tomar las decisiones adecuadas para las organizaciones.
En este proceso están sucediendo tres cosas. Primero, hemos extraído los datos de varias fuentes y los hemos colocado en una única ubicación que es el almacén de datos.
Aquí usamos el proceso 'ETL', por lo tanto, mientras cargamos los datos de múltiples fuentes en un lugar, los aplicaremos en las raíces de transformación y luego podemos usar varios tipos de herramientas ETL aquí.
Una vez que los datos están listos en el almacén de datos, podemos generar varios informes para analizar los datos comerciales utilizando herramientas de inteligencia empresarial (BI) o también las llamamos herramientas de informes. Las herramientas como Tableau o Cognos se pueden utilizar para generar informes y tableros para analizar los datos para empresas.
OLTP y OLAP
Veamos qué son OLTP y OLAP.
Las bases de datos que se mantienen localmente y se utilizan con fines transaccionales se denominan OLTP, es decir, procesamiento de transacciones en línea. Las transacciones del día a día se almacenarán aquí y se actualizarán de inmediato y es por eso que las llamamos Sistema OLTP.
Aquí usamos bases de datos tradicionales, tenemos múltiples tablas y hay relaciones, por lo que todo se planifica sistemáticamente según la base de datos. No utilizamos estos datos con fines analíticos. Aquí, podemos usar bases de datos RDMBS clásicas como Oracle, MySQL, SQL Server, etc.
Cuando llegamos a la parte de Data Warehouse, usamos Teradata o Hadoop Systems, que también son una especie de base de datos, pero los datos en un DataWarehouse generalmente se utilizan con fines analíticos y se denominan OLAP o Procesamiento analítico en línea.
Aquí, los datos se pueden actualizar de forma trimestral, semestral o anual. A veces, los datos también se actualizan 'Offerly', donde Offerly significa que los datos se actualizan y se obtienen para su análisis según los requisitos del cliente.
Además, los datos para el análisis no se actualizan diariamente porque obtendremos los datos de múltiples fuentes, de manera programada y podemos realizar esta tarea ETL. Así es como funciona el Sistema de procesamiento analítico en línea.
Aquí nuevamente, las herramientas de BI o las herramientas de informes pueden generar informes y tableros, y en base a esto, los empresarios tomarán las decisiones para mejorar su negocio.
¿Dónde entra BigData en escena?
BigData son los datos que están más allá de la capacidad de almacenamiento y procesamiento de las bases de datos convencionales y están en formato estructurado y no estructurado, por lo que no pueden ser manejados por sistemas RDBMS locales.
Este tipo de datos se generará en TeraBytes (TB) o PetaBytes (PB) o más allá y está aumentando rápidamente en la actualidad. Existen múltiples fuentes para obtener este tipo de datos como Facebook, WhatsApp (que están relacionados con las Redes Sociales); Amazon, Flipkart relacionado con el comercio electrónico; Gmail, Yahoo, Rediff relacionados con correos electrónicos y Google y otros motores de búsqueda. También obtenemos bigdata de móviles como datos SMS, grabación de llamadas, registros de llamadas, etc.
Conclusión
Big Data es la solución para manejar grandes cantidades de datos de manera eficiente y segura. También es responsable de mantener los datos históricos. Hay muchas ventajas de esta tecnología por lo que todas las empresas quieren cambiar al Big Data.
Autor: Vaishali Tarey, director técnico de Syntel
Lectura recomendada
- Tutorial de Data Mart: tipos, ejemplos e implementación de Data Mart
- Las 10 mejores herramientas de diseño de bases de datos para crear modelos de datos complejos
- Más de 20 tutoriales de MongoDB para principiantes: curso gratuito de MongoDB
- ¿Qué es un lago de datos? Almacenamiento de datos frente a lago de datos
- Las 10 mejores herramientas de validación y pruebas de datos estructurados para SEO
- Modelo de datos dimensionales en el almacén de datos: tutorial con ejemplos
- Minería de datos: procesos, técnicas y problemas principales en el análisis de datos
- Cómo realizar pruebas basadas en datos en SoapUI Pro - Tutorial de SoapUI n. ° 14