data mining process
Este tutorial detallado de minería de datos explica qué es la minería de datos, incluidos los procesos y las técnicas utilizadas para el análisis de datos:
Entendamos el significado del término minería tomando el ejemplo de la extracción de oro a partir de rocas, que se llama extracción de oro. Aquí lo útil es el “oro”, de ahí que se le llame minería de oro.
De manera similar, la extracción de información útil de una gran cantidad de datos se denomina minería de conocimiento y se conoce popularmente como minería de datos. Por el término información útil, denotamos los datos que pueden ayudarnos a predecir una salida.
Por ejemplo, encontrar las tendencias de compra de una cosa en particular (digamos hierro) por un grupo de edad en particular ( Ejemplo: 40-70 años).
=>DESPLAZARSE HACIA ABAJOpara ver la lista completa de 7 tutoriales detallados sobre minería de datos para principiantes
Lo que vas a aprender:
cómo inicializar una lista en java
- Lista de tutoriales de minería de datos
- Descripción general de los tutoriales de esta serie de minería de datos
- ¿Qué es la minería de datos?
- ¿Qué tipo de datos se pueden extraer?
- ¿Qué técnicas se utilizan en la minería de datos?
- Problemas importantes en el análisis de datos
- Conclusión
Lista de tutoriales de minería de datos
Tutorial #1: Minería de datos: procesos, técnicas y problemas principales en el análisis de datos (Este tutorial)
Tutorial #2: Técnicas de minería de datos: algoritmos, métodos y principales herramientas de minería de datos
Tutorial #3: Proceso de minería de datos: modelos, pasos del proceso y desafíos involucrados
Tutorial #4: Ejemplos de minería de datos: aplicaciones más comunes de minería de datos 2019
Tutorial #5: Ejemplos de algoritmos de árboles de decisión en minería de datos
Tutorial #6: Algoritmo a priori en minería de datos: implementación con ejemplos
Tutorial #7: Algoritmo de crecimiento de patrón frecuente (FP) en minería de datos
Descripción general de los tutoriales de esta serie de minería de datos
Tutorial # | Lo que vas a aprender |
---|---|
Tutorial_#7: | Algoritmo de crecimiento de patrón frecuente (FP) en minería de datos Este es un tutorial detallado sobre el algoritmo de crecimiento de patrones frecuentes que representa la base de datos en forma de árbol FP. La comparación FP Growth Vs Apriori también se explica aquí. |
Tutorial_#1: | Minería de datos: procesos, técnicas y problemas principales en el análisis de datos Este tutorial detallado de minería de datos explica qué es la minería de datos, incluidos los procesos y técnicas utilizados para el análisis de datos. |
Tutorial_#2: | Técnicas de minería de datos: algoritmos, métodos y principales herramientas de minería de datos Este tutorial sobre técnicas de minería de datos explica algoritmos, herramientas de minería de datos y métodos para extraer datos útiles. |
Tutorial_#3: | Proceso de minería de datos: modelos, pasos del proceso y desafíos involucrados Este tutorial sobre el proceso de minería de datos cubre los modelos de minería de datos, los pasos y los desafíos involucrados en el proceso de extracción de datos. |
Tutorial_#4: | Ejemplos de minería de datos: aplicaciones más comunes de minería de datos 2019 Los ejemplos de minería de datos más populares en la vida real se tratan en este tutorial. Obtendrá más información sobre la aplicación de minería de datos en finanzas, marketing, atención médica y CRM. |
Tutorial_#5: | Ejemplos de algoritmos de árboles de decisión en minería de datos Este tutorial detallado explica todo sobre el algoritmo de árbol de decisión en minería de datos. Aprenderá sobre ejemplos de árboles de decisión, algoritmos y clasificación. |
Tutorial_#6: | Algoritmo a priori en minería de datos: implementación con ejemplos Este es un tutorial simple sobre el algoritmo a priori para descubrir conjuntos de elementos frecuentes en la minería de datos. También conocerá los pasos en Apriori y comprenderá cómo funciona. |
¿Qué es la minería de datos?
La minería de datos tiene una gran demanda hoy en día, ya que ayuda a las empresas a estudiar cómo pueden aumentar las ventas de sus productos. Podemos entender esto por un ejemplo de una tienda de moda, que registrará a cada uno de sus clientes que compren un artículo en su tienda.
A partir de los datos facilitados por el cliente como edad, sexo, grupo de ingresos, profesión, etc., la tienda podrá saber qué tipo de clientes compran diferentes productos. Aquí, podemos ver que el nombre del cliente no sirve de nada ya que no podemos predecir la tendencia de compra por nombre en cuanto a si esa persona comprará un determinado producto o no.
Por lo tanto, la información útil se puede encontrar utilizando el grupo de edad, género, grupo de ingresos, profesión, etc. La búsqueda de conocimiento o patrón interesante en los datos es “Data Mining”. Otros términos que se pueden usar en su lugar son Minería de conocimientos a partir de datos, Extracción de conocimientos, Análisis de datos, Análisis de patrones, etc.
Otro término que se usa popularmente en la minería de datos es Descubrimiento de conocimiento a partir de datos o KDD.
Proceso de análisis de datos
El proceso de descubrimiento de conocimientos es una secuencia de los siguientes pasos:
- Limpieza de datos: Este paso elimina el ruido y los datos inconsistentes de los datos de entrada.
- Integración de datos: Este paso combina múltiples fuentes de datos. La limpieza de datos y la integración de datos se unen para formar el preprocesamiento de datos. Los datos preprocesados se almacenan en el almacén de datos.
- Selección de datos: Estos pasos seleccionan los datos para la tarea de análisis de la base de datos.
- Transformación de datos: En este paso, se aplican varias técnicas de agregación y resumen de datos para transformar los datos en una forma útil para la minería.
- Procesamiento de datos: En este paso, los patrones de datos se extraen aplicando métodos inteligentes.
- Evaluación de patrones: Los patrones de datos extraídos se evalúan y reconocen de acuerdo con las medidas de interés.
- Representación del conocimiento: Se utilizan técnicas de visualización y representación del conocimiento para presentar el conocimiento extraído a los usuarios.
Los pasos 1 a 4 se incluyen en la etapa de preprocesamiento de datos. Aquí, la minería de datos se representa como un solo paso, pero se refiere a todo el proceso de descubrimiento de conocimientos.
Por lo tanto, podemos decir que el análisis de datos es el proceso de descubrir patrones y conocimientos interesantes a partir de una gran cantidad de datos. Las fuentes de datos pueden incluir bases de datos, almacenes de datos, World Wide Web, archivos planos y otros archivos informativos.
¿Qué tipo de datos se pueden extraer?
Las formas más básicas de datos para la minería son datos de bases de datos, datos de almacenamiento de datos y datos transaccionales. Las técnicas de minería de datos también se pueden aplicar a otras formas como flujos de datos, datos secuenciados, datos de texto y datos espaciales.
# 1) Datos de la base de datos: El sistema de administración de bases de datos es un conjunto de datos interrelacionados y un conjunto de programas de software para administrar y acceder a los datos. El sistema de base de datos relacional es una colección de tablas y cada tabla consta de un conjunto de atributos y tuplas.
Minería de bases de datos relacionales busca tendencias y patrones de datos P.ej . riesgo crediticio de los clientes en función de la edad, los ingresos y el riesgo crediticio anterior. Además, la minería puede encontrar desviaciones de lo esperado. P.ej. un aumento significativo en el precio de un artículo.
# 2) Datos del almacén de datos: Un almacén de datos es una colección de información recopilada de múltiples fuentes de datos, almacenada bajo un esquema unificado en una sola ubicación. Un DW se modela como una estructura de datos multidimensional denominada cubo de datos que tiene celdas y dimensiones que proporcionan un cálculo previo y un acceso más rápido a los datos.
La minería de datos se realiza en un estilo OLAP combinando las dimensiones en diferentes niveles de granularidad.
# 3) Datos transaccionales: Los datos transaccionales capturan una transacción. Tiene una identificación de transacción y una lista de elementos utilizados en la transacción.
# 4) Otros tipos de datos: Otros datos pueden incluir: datos relacionados con el tiempo, datos espaciales, datos de hipertexto y datos multimedia.
¿Qué técnicas se utilizan en la minería de datos?
La minería de datos es un dominio altamente impulsado por aplicaciones. Muchas técnicas como la estadística, el aprendizaje automático, el reconocimiento de patrones, la recuperación de información, la visualización, etc., influyen en el desarrollo de métodos de análisis de datos.
¡¡Discutamos algunos de ellos aquí !!
Estadísticas
El estudio de recopilación, análisis, interpretación y presentación de datos se puede realizar utilizando modelos estadísticos. Por ejemplo , las estadísticas se pueden utilizar para modelar el ruido y los datos faltantes, y luego este modelo se puede utilizar en un conjunto de datos grande para identificar el ruido y los valores faltantes en los datos.
Aprendizaje automático
ML se utiliza para mejorar el rendimiento en función de los datos. El área principal de investigación es que los programas de computadora aprendan automáticamente a reconocer patrones complejos y tomen decisiones inteligentes basadas en los datos.
El aprendizaje automático se centra en la precisión y la minería de datos se centra en la eficiencia y escalabilidad de los métodos de minería en un gran conjunto de datos, datos complejos, etc.
cómo abrir .jar en windows 10
El aprendizaje automático es de tres tipos:
- Aprendizaje supervisado: Se conoce el conjunto de datos objetivo y la máquina se entrena de acuerdo con los valores objetivo.
- Aprendizaje sin supervisión: Los valores objetivo no se conocen y las máquinas aprenden por sí mismas.
- Aprendizaje semi-supervisado: Utiliza tanto las técnicas de aprendizaje supervisado como no supervisado.
Recuperación de información (IR)
Es la ciencia de buscar documentos o información en documentos.
Utiliza dos principios:
- Los datos que se van a buscar no están estructurados.
- Las consultas están formadas principalmente por palabras clave.
Mediante el uso de análisis de datos e IR, podemos encontrar los temas principales en la colección de documentos y también los temas principales involucrados en cada documento.
Problemas importantes en el análisis de datos
La minería de datos tiene una serie de problemas relacionados, como se menciona a continuación:
Metodología minera
- Como existen diversas aplicaciones, continúan surgiendo nuevas tareas de minería. Estas tareas pueden utilizar la misma base de datos de diferentes formas y requieren el desarrollo de nuevas técnicas de minería de datos.
- Mientras buscamos conocimiento en grandes conjuntos de datos, necesitamos explorar el espacio multidimensional. Para encontrar patrones interesantes, se deben aplicar varias combinaciones de dimensiones.
- Los datos inciertos, ruidosos e incompletos a veces pueden dar lugar a derivaciones erróneas.
La interacción del usuario
- El proceso de análisis de datos debe ser muy interactivo. Para facilitar el proceso de minería, es importante que el usuario sea interactivo.
- El conocimiento del dominio, los conocimientos previos, las limitaciones, etc., deben incorporarse en el proceso de minería de datos.
- El conocimiento descubierto al extraer los datos debería ser utilizable por humanos. El sistema debe adoptar una representación expresiva del conocimiento, técnicas de visualización fáciles de usar, etc.
Eficiencia y escalabilidad
- Los algoritmos de minería de datos deben ser eficientes y escalables para extraer de manera efectiva datos interesantes de una gran cantidad de datos en los repositorios de datos.
- La amplia distribución de datos, la complejidad en la computación motiva el desarrollo de algoritmos de datos intensivos en paralelo y distribuidos.
Diversidad de tipos de bases de datos
- La construcción de herramientas de análisis de datos efectivas y eficientes para diversas aplicaciones, un amplio espectro de tipos de datos de datos no estructurados, datos temporales, hipertexto, datos multimedia y código de programas de software sigue siendo un área de investigación activa y desafiante.
Impacto social
- La divulgación para utilizar los datos y la posible violación de la privacidad individual y la protección de los derechos son las áreas de preocupación que deben abordarse.
Conclusión
La minería de datos ayuda en la toma de decisiones y el análisis de una gran cantidad de datos. Hoy en día es la técnica empresarial más común. Permite el análisis automático de datos e identifica tendencias y comportamientos populares.
El análisis de datos se puede combinar con aprendizaje automático, estadísticas, inteligencia artificial, etc., para análisis de datos avanzados y estudio de comportamiento.
La minería de datos debe aplicarse teniendo en cuenta varios factores, como el costo de extraer información y el patrón de las bases de datos (se deben aplicar algoritmos complejos que requieren recursos expertos), el tipo de información (ya que los datos históricos pueden no ser los mismos que los en la actualidad, por lo que el análisis no será útil).
Esperamos que este tutorial enriqueció su conocimiento del concepto de Data Mining !!
Lectura recomendada
- Las 10 mejores herramientas de análisis de datos para una gestión de datos perfecta (LISTA 2021)
- Minería de datos Vs Aprendizaje automático Vs Inteligencia artificial Vs Aprendizaje profundo
- Las 10 mejores herramientas de mapeo de datos útiles en el proceso ETL (2021 LIST)
- ¿Qué son los datos de prueba? Técnicas de preparación de datos de prueba con ejemplo
- Parametrización de datos de JMeter mediante variables definidas por el usuario
- Las 15 mejores herramientas gratuitas de minería de datos: la lista más completa
- 10+ mejores herramientas de recopilación de datos con estrategias de recopilación de datos
- Función de agrupación de datos en IBM Rational Quality Manager para la gestión de datos de prueba