complete guide big data analytics
Esta es una guía completa de Big Data Analytics con sus casos de uso, arquitectura, ejemplos y comparación con Big Data y Data Science:
El análisis de big data ha ganado terreno porque corporaciones como Facebook, Google y Amazon han establecido sus propios nuevos paradigmas de procesamiento y análisis de datos distribuidos para comprender las propensiones de sus clientes a la extracción de valor de big data.
En este tutorial, explicamos el análisis de Big Data y lo comparamos con Big Data y Data Science. Cubriremos los atributos necesarios que las empresas deben tener en su estrategia de big data y la metodología que funciona. También mencionaremos las últimas tendencias y algunos casos de uso de análisis de datos.
Como se muestra en la imagen a continuación, Analytics requiere que uno use habilidades de TI, habilidades comerciales y ciencia de datos. El análisis de big data es fundamental para hacer uso de los valores de big data, y ayuda a derivar información sobre consumibles para una organización.
(imagen fuente )
Lo que vas a aprender:
- ¿Qué es Big Data Analytics?
- Conclusión
¿Qué es Big Data Analytics?
Big Data Analytics se ocupa del uso de una colección de técnicas estadísticas, herramientas y procedimientos de análisis para Big Data.
Recomendado Leyendo => Introducción a Big Data
Son los análisis los que ayudan a extraer patrones valiosos y conocimientos significativos de big data para respaldar la toma de decisiones basada en datos. Es debido a la aparición de nuevas fuentes de datos, como las redes sociales y los datos de IoT, que el big data y la analítica se han vuelto populares.
Esta tendencia está dando lugar a un área de práctica y estudio denominada “ciencia de datos” que engloba las técnicas, herramientas, tecnologías y procesos de minería, limpieza, modelado y visualización de datos.
Big Data Vs Big Data Analytics Vs Data Science
A comparación entre big data, ciencia de datos y análisis de big data puede entenderse en la siguiente tabla.
Base | Big Data | Ciencia de los datos | Análisis de Big Data |
---|---|---|---|
Herramientas y tecnologías | Ecosistema Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Funciones y habilidades laborales | Mantenimiento de la infraestructura de almacenamiento, procesamiento de datos y conocimiento sobre Hadoop y su integración con otras herramientas. | Transformación de datos, ingeniería de datos, reorganización de datos, modelado de datos y visualización | BI y análisis avanzado, estadísticas, modelado de datos y aprendizaje automático, habilidades matemáticas, comunicación, consultoría. |
Designaciones | Arquitecto de Big Data Desarrollador de Big Data Ingeniero de Big Data | Científico de datos Ingeniero de aprendizaje automático | Analista de Big Data Analista de negocios Ingeniero de inteligencia empresarial Especialista en análisis empresarial Desarrollador de visualización de datos Gerente de análisis |
Aprox. Salario anual promedio en USD | 100,000 | 90,000 | 70,000 |
Lectura sugerida = >> Ciencia de datos Vs Ciencias de la computación
Lo que debe tener toda estrategia de análisis de Big Data
Una estrategia bien definida, integrada y completa contribuye y respalda la toma de decisiones basada en datos valiosos en una organización. En esta sección, hemos enumerado los pasos más críticos que deben tenerse en cuenta al definir una estrategia de análisis de big data.
Paso 1: evaluación
Una evaluación, ya alineada con los objetivos comerciales, requiere involucrar a las partes interesadas clave, crear un equipo de miembros con el conjunto de habilidades adecuado, evaluar políticas, personas, procesos, tecnología y activos de datos. Si es necesario, se puede involucrar a los clientes del evaluado en este proceso.
Paso 2: priorización
Después de la evaluación, es necesario derivar casos de uso, priorizarlos mediante análisis predictivo de big data, análisis prescriptivo y análisis cognitivo. También puede utilizar una herramienta como la matriz de priorización y filtrar aún más los casos de uso con la ayuda de comentarios y aportes de las partes interesadas clave.
Paso 3: RoadMap
En este paso, es necesario crear una hoja de ruta con un límite de tiempo y publicarla para todos. Una hoja de ruta debe incluir todos los detalles relacionados con las complejidades, los fondos, los beneficios inherentes de los casos de uso y los proyectos mapeados.
Paso 4: Gestión de cambios
La implementación de la gestión de cambios requiere que uno gestione la disponibilidad, integridad, seguridad y usabilidad de los datos. Un programa de gestión de cambios eficaz, que utiliza cualquier gobierno de datos existente, incentiva las actividades y los miembros en función de la supervisión continua.
Paso 5: Conjunto de habilidades correcto
Identificar el conjunto de habilidades adecuado es crucial para el éxito de la organización en medio de las tendencias actuales de la industria. Por lo tanto, es necesario seguir a los líderes adecuados y llevar programas educativos para educar a las partes interesadas críticas.
Paso 6: confiabilidad, escalabilidad y seguridad
El enfoque correcto y la estrategia efectiva de análisis de big data hacen que el proceso de análisis sea confiable, con un uso efectivo de modelos interpretables que involucran principios de ciencia de datos. Una estrategia de análisis de big data también debe incluir aspectos de seguridad desde el principio para una canalización de análisis sólida y estrechamente integrada.
Canalización y proceso de datos para análisis de datos
Al planificar la canalización de análisis de datos, hay tres aspectos fundamentales que se deben considerar. Estos son los siguientes:
- Aporte: Formato de datos y la selección de la tecnología para procesar, se basa en la naturaleza subyacente de los datos. si los datos son series de tiempo y calidad.
- Producción: Elección de conectores , los informes y la visualización dependen de la experiencia técnica de los usuarios finales y de sus requisitos de consumo de datos.
- Volumen: Soluciones de escala se planifican en función del volumen de datos para evitar la sobrecarga en el sistema de procesamiento de big data.
Ahora analicemos un proceso típico y las etapas de una canalización de análisis de big data.
Etapa 1: Ingestión de datos
La ingestión de datos es el primer paso y el más significativo en la canalización de datos. Considera tres aspectos de los datos.
- Fuente de datos - Es importante con respecto a la elección de la arquitectura de la canalización de big data.
- Estructura de datos - La serialización es la clave para mantener una estructura homogénea en toda la tubería.
- Limpieza de datos - La analítica es tan buena como los datos sin problemas como valores perdidos y valores atípicos, etc.
Etapa 2: ETL / Almacenamiento
El siguiente módulo importante son las herramientas de almacenamiento de datos para realizar ETL (Extract Transform Load). El almacenamiento de datos en un centro de datos adecuado depende de,
- Hardware
- Experiencia de gestión
- Presupuesto
(imagen fuente )
Algunas herramientas probadas en el tiempo para ETL / Almacenamiento en centros de datos son:
- Apache Hadoop
- Apache Hive
- Apache Parquet
- Motor de consultas de Presto
Las empresas de la nube como Google, AWS, Microsoft Azure proporcionan estas herramientas de pago y ahorran el gasto de capital inicial.
Etapa 3: Análisis y visualización
Teniendo en cuenta la limitación de Hadoop sobre consultas rápidas, es necesario utilizar plataformas y herramientas de análisis que permitan consultas rápidas y ad-hoc con la visualización de resultados requerida.
>> Lectura recomendada: Herramientas de Big Data
Etapa 4: Monitoreo
Después de configurar una infraestructura para la ingestión, el almacenamiento y el análisis con herramientas de visualización, el siguiente paso es tener herramientas de monitoreo de datos y TI para monitorear. Éstos incluyen:
- Uso de CPU o GPU
- Consumo de memoria y recursos
- Redes
Algunas herramientas que vale la pena considerar son:
- Datadog
- Grafana
Las herramientas de monitoreo son indispensables en una canalización de análisis de big data y ayudan a monitorear la calidad e integridad de la canalización.
Arquitectura de análisis de Big Data
El siguiente diagrama de arquitectura muestra cómo las tecnologías modernas utilizan fuentes de datos estructuradas y no estructuradas para el procesamiento de Hadoop & Map-reduce, los sistemas analíticos en memoria y el análisis en tiempo real para brindar resultados combinados para las operaciones en tiempo real y la toma de decisiones.
(imagen fuente )
Tendencias actuales en análisis de datos
En esta sección, hemos enumerado los aspectos esenciales a tener en cuenta al implementar o seguir las tendencias de análisis de big data en la industria.
# 1) Fuentes de Big Data
Hay principalmente tres fuentes de Big Data. Estos se enumeran a continuación:
- Datos sociales: Datos generados por el uso de redes sociales. Estos datos ayudan a comprender el sentimientos y comportamiento de los clientes y puede resultar útil en análisis de marketing.
- Datos de la máquina: Estos datos se capturan de equipos y aplicaciones industriales que utilizan sensores de IoT. Ayuda a comprender personas comportamiento y proporciona información sobre procesos .
- Datos transaccionales: Se genera como resultado de las actividades tanto offline como online de los usuarios con respecto a órdenes de pago, facturas, recibos, etc. La mayor parte de este tipo de datos necesita preprocesamiento y limpieza antes de que pueda utilizarse para análisis.
# 2) Almacenamiento de datos SQL / NoSQL
En comparación con las bases de datos tradicionales o RDBMS, las bases de datos NoSQL demuestran ser mejores para las tareas necesarias para el análisis de big data.
Las bases de datos NoSQL pueden tratar de manera inherente datos no estructurados bastante bien y no se limitan a modificaciones costosas del esquema, escalado vertical e interferencia de propiedades ACID.
# 3) Análisis predictivo
Predictive Analytics ofrece información personalizada que lleva a las organizaciones a generar nuevas respuestas de clientes o compras y oportunidades de venta cruzada. Las organizaciones están utilizando análisis predictivos para realizar predicciones sobre elementos individuales a niveles granulares para predecir resultados futuros y prevenir problemas potenciales. Esto además se combina con datos históricos y se convierte en análisis prescriptivo.
Algunas áreas en las que el análisis predictivo de macrodatos se ha utilizado con éxito son los negocios, la protección infantil, los sistemas de apoyo a las decisiones clínicas, la predicción de carteras, las predicciones a nivel económico y la suscripción.
# 4) Aprendizaje profundo
El big data es abrumador para la informática convencional. Resulta que las técnicas tradicionales de aprendizaje automático de análisis de datos se estabilizan en rendimiento con el aumento en la variedad y el volumen de datos.
La analítica se enfrenta a desafíos con respecto a las variaciones de formato, las fuentes de entrada altamente distribuidas, los datos de entrada desequilibrados y la transmisión de datos en rápido movimiento, y los algoritmos de aprendizaje profundo abordan estos desafíos de manera bastante eficiente.
El aprendizaje profundo ha encontrado su uso efectivo en la indexación semántica, la realización de tareas discriminatorias, el etiquetado de imágenes semánticas y de video, la focalización social y también en los enfoques de aprendizaje jerárquico de varios niveles en las áreas de reconocimiento de objetos, etiquetado de datos, recuperación de información y lenguaje natural. Procesando.
# 5) lagos de datos
Almacenar diferentes conjuntos de datos en diferentes sistemas y combinarlos para análisis con enfoques tradicionales de administración de datos resulta costoso y casi inviable. Por lo tanto, las organizaciones están creando lagos de datos, que almacenan datos en su formato nativo sin procesar para realizar análisis procesables.
La siguiente imagen muestra un lago de datos de ejemplo en la arquitectura de big data.
(imagen fuente )
Usos de Big Data Analytics
A continuación, enumeramos algunos casos de uso frecuentes:
# 1) Análisis de clientes
Big Data Analytics es útil para diversos fines, como el micro marketing, el marketing uno a uno, la segmentación más fina y la personalización masiva para los clientes de una empresa. Las empresas pueden crear estrategias para personalizar sus productos y servicios de acuerdo con las propensiones de los clientes a realizar ventas superiores o cruzadas de una gama de productos y servicios similar o diferente.
# 2) Análisis de operaciones
El análisis de operaciones ayuda a mejorar la toma de decisiones general y los resultados comerciales al aprovechar los datos existentes y enriquecerlos con la máquina y los datos de IoT.
Por ejemplo, La analítica de big data en el ámbito sanitario ha permitido afrontar retos y nuevas oportunidades relacionados con la optimización del gasto sanitario, mejorando el seguimiento de los ensayos clínicos, prediciendo y planificando respuestas a epidemias de enfermedades como el COVID-19.
# 3) Prevención de fraudes
Se considera que la analítica de big data tiene el potencial de ofrecer un beneficio masivo al ayudar a anticipar y reducir los intentos de fraude, principalmente en los sectores financiero y de seguros.
Por ejemplo, Las compañías de seguros capturan datos en tiempo real sobre demografía, ganancias, reclamos médicos, gastos de abogados, clima, grabaciones de voz de un cliente y notas del centro de llamadas. Los detalles específicos en tiempo real ayudan a derivar modelos predictivos al combinar la información mencionada anteriormente con datos históricos para identificar con anticipación las reclamaciones fraudulentas especuladas.
# 4) Optimización de precios
Las empresas utilizan el análisis de big data para aumentar los márgenes de beneficio al encontrar el mejor precio a nivel de producto y no a nivel de categoría. A las grandes empresas les resulta demasiado abrumador obtener los detalles granulares y la complejidad de las variables de precios, que cambian regularmente para miles de productos.
Una estrategia de optimización de precios impulsada por análisis, como la puntuación dinámica de acuerdos, permite a las empresas establecer precios para grupos de productos y segmentos en función de sus datos y conocimientos sobre niveles de acuerdos individuales para obtener ganancias rápidas de clientes exigentes.
Preguntas frecuentes
P # 1) ¿Es la analítica de big data una buena carrera?
Responder: Es un valor agregado para cualquier organización, ya que le permite tomar decisiones informadas y le proporciona una ventaja sobre la competencia. Un cambio de carrera de Big Data aumenta sus posibilidades de convertirse en un tomador de decisiones clave para una organización.
P # 2) ¿Por qué es importante el análisis de big data?
Responder: Ayuda a las organizaciones a crear nuevas oportunidades de crecimiento y categorías de productos completamente nuevas que pueden combinar y analizar datos de la industria. Estas empresas cuentan con amplia información sobre los productos y servicios, compradores y proveedores, preferencias de los consumidores que se pueden capturar y analizar.
P # 3) ¿Qué se requiere para el análisis de big data?
Responder: La gama de tecnologías con las que un buen analista de big data debe estar familiarizado es enorme. Para que uno domine el análisis de Big Data, se requiere una comprensión de varias herramientas, software, hardware y plataformas. Por ejemplo, Las hojas de cálculo, las consultas SQL y R / R Studio y Python son algunas herramientas básicas.
A nivel empresarial, herramientas como MATLAB, SPSS, SAS y Congnos son importantes además de Linux, Hadoop, Java, Scala, Python, Spark, Hadoop y HIVE.
Preguntas objetivas:
P # 4) ¿Cuál de las bases de datos que se indican a continuación no es una base de datos NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Responder: PostgreSQL
P # 5) ¿Cassandra es un NoSQL?
- Cierto
- Falso
Responder: Cierto
P # 6) ¿Cuál de las siguientes opciones no es propiedad de Hadoop?
¿Cómo abro archivos torrent?
- Fuente abierta
- Basado en Java
- Procesamiento distribuido
- Tiempo real
Responder: Tiempo real
P # 7) Elija todas las actividades que NO realice un científico de datos.
- Cree modelos de Machine Learning y mejore su rendimiento.
- Evaluación de modelos estadísticos para validar análisis
- Resumir análisis avanzados utilizando herramientas de visualización de datos
- Presentación de resultados de análisis técnico a equipos internos y clientes comerciales
Responder: Presentación de resultados de análisis técnico a equipos internos y clientes comerciales
Más lecturas = >> Diferencias clave entre analista de datos y científico de datos
P # 8) ¿Qué actividades realiza un analista de datos?
- Limpiar y organizar datos sin procesar
- Encontrar tendencias interesantes en los datos
- Cree paneles y visualizaciones para una fácil interpretación.
- Todo lo anterior
Responder: Todas las anteriores
P # 9) ¿Cuál de las siguientes acciones la realiza un ingeniero de datos?
- Integración de nuevas fuentes de datos a la canalización de análisis de datos existente
- El desarrollo de API para el consumo de datos.
- monitoreo y prueba del sistema para un rendimiento continuo
- Todas las anteriores
Responder: Todas las anteriores
P # 10) La secuencia correcta de flujo de datos para análisis es
- Fuentes de datos, preparación de datos, transformación de datos, diseño de algoritmos, análisis de datos
- Fuentes de datos, transformación de datos, diseño de algoritmos, preparación de datos, análisis de datos
- Fuentes de datos, diseño de algoritmos, preparación de datos, transformación de datos, análisis de datos
- Fuentes de datos, preparación de datos, diseño de algoritmos, transformación de datos, análisis de datos
Responder: Fuentes de datos, preparación de datos, transformación de datos, diseño de algoritmos, análisis de datos
P # 11) El análisis de datos es un proceso lineal.
- Cierto
- Falso
Responder: Falso
P # 12) El análisis exploratorio NO
- Responder preguntas de análisis de datos iniciales en detalle
- Determinar problemas con el conjunto de datos.
- Desarrolle un bosquejo de una respuesta a la pregunta.
- Determinar si los datos son correctos para responder una pregunta.
Responder: Responderpreguntas de análisis de datos iniciales en detalle
P # 13) Pregunta de predicción es otro nombre que se le da a una pregunta inferencial.
- Cierto
- Falso
Responder: Falso
Conclusión
Cubrimos los aspectos más importantes de la analítica de big data. Explicamos los casos de uso más frecuentes y las tendencias en la industria del análisis de big data para obtener los máximos beneficios.
Lectura recomendada
- Las 7 MEJORES empresas de análisis de datos en 2021 (Lista actualizada en 2021)
- Las 15 mejores herramientas de Big Data (herramientas de análisis de Big Data) en 2021
- Las 10 mejores herramientas de análisis de datos para una gestión de datos perfecta (LISTA 2021)
- Las 10 mejores herramientas de ciencia de datos en 2021 para eliminar la programación
- Tutorial de Big Data para principiantes | ¿Qué es Big Data?
- Las 13 mejores empresas de Big Data de 2021
- Las 10 mejores herramientas de modelado de datos para administrar diseños complejos
- Las 10 mejores herramientas de gobernanza de datos para satisfacer sus necesidades de datos en 2021