La minería de datos
(data mining)

Data mining is everywhere. Learn what it is, how it’s used, benefits, and current trends. This article will also cover leading data mining tools and common questions.

Qué es la minería de datos

La minería de datos (data mining) consiste en explorar y analizar datos de gran volumen para descubrir reglas y patrones relevantes. Se considera una disciplina del campo de estudio de la ciencia de los datos y, a diferencia del análisis predictivo, que describe datos históricos, el objetivo de la minería de datos es predecir resultados futuros. Además, las técnicas de minería de datos facilitan la creación de modelos de aprendizaje automático (machine learning, ML) que hacen realidad las aplicaciones modernas de inteligencia artificial (IA), como los algoritmos de los motores de búsqueda y los sistemas de recomendación.

Aplicaciones de la minería de datos

Data Mining Applications

Mercados objetivos y marketing de base de datos

En el sector comercial, la minería de datos permite a conocer mejor a los clientes. Por otra parte, facilita la segmentación de grupos de mercado y la personalización de promociones al profundizar en la obtención de la información para dar con las promociones acertadas adaptadas a los distintos tipos de clientes.

Calificación crediticia y gestión de riesgo crediticio

La banca implementa modelos de minería de datos para predecir la capacidad de un prestatario para asumir y devolver su deuda. Con diversa información personal y demográfica, estos modelos seleccionan automáticamente un tipo de interés a partir del nivel de riesgo asignado al cliente. Por lo general, los solicitantes con mejores puntuaciones crediticias reciben tipos de interés más bajos, ya que el modelo usa esta puntuación como factor de cálculo.

Prevención y detección del fraude

Las instituciones financieras implementan modelos de minería de datos para detectar y frenar automáticamente transacciones fraudulentas. Esta forma de cómputo forense se realiza en segundo plano con cada transacción y a veces sin que el consumidor sea consciente. Al hacer un seguimiento de los hábitos de gasto, estos modelos alertan de transacciones anómalas y aplican retenciones instantáneas en los pagos hasta que los clientes verifican la compra como buena. Los algoritmos de minería de datos pueden funcionar de forma autónoma para proteger a los consumidores de transacciones fraudulentas mediante un correo electrónico o una notificación de texto desde los que confirmar una compra.

Bioinformática de atención sanitaria

Los profesionales de la atención sanitaria usan modelos estadísticos para predecir la probabilidad de que un paciente se vea afectado por distintas patologías en función de determinados factores de riesgo. Se pueden crear modelos a partir de datos genéticos, familiares y demográficos que servirán para que los pacientes realicen cambios en sus estilos de vida para prevenir o mediar la aparición de enfermedades. Estos modelos se han aplicado recientemente en los países en desarrollo para ayudar a diagnosticar y priorizar la atención de los pacientes antes de que los doctores lleguen para administrar el tratamiento.

Filtrado de spam

La minería de datos también se usa para combatir la entrada de malware y spam en el correo electrónico. Los sistemas pueden analizar las características comunes de millones de mensajes maliciosos para informar al equipo de desarrollo del software de seguridad. A parte de la detección, este software específico puede incluso eliminar los mensajes antes de que lleguen a la bandeja de entrada del usuario.

Sistemas de recomendación

Los sistemas de recomendación son ya de uso común en el comercio electrónico. Numerosas organizaciones muestran ya gran interés por los modelos de comportamiento predictivo de los consumidores, que se consideran como herramientas fundamentales para competir. Empresas como Amazon y Macy’s han desarrollado sus propios modelos de minería de datos para pronosticar la demanda y mejorar la experiencia del cliente durante todas las fases de interacción en el ciclo de vida del cliente. Netflix llegó a ofrecer un premio de un millón de dólares por un algoritmo que lograra que su sistema de recomendación arrojara resultados más acertados. El modelo ganador mejoró la precisión de las recomendaciones en más de un 8 %.

Análisis de opinión

El análisis de opinión de los datos de las redes sociales es una aplicación común de la minería de datos y se basa en una técnica llamada minería de texto. Este método sirve para comprender las sensaciones u opiniones que un tema causa en un grupo de personas. En la minería de texto, las publicaciones realizadas en los canales de una red social u otra forma de contenido público sirven para obtener información detallada clave que se reconoce como parte de un patrón estadístico. A un nivel más sofisticado, con las técnicas de procesamiento del lenguaje natural (natural language processing, NLP) es posible interpretar el significado contextual oculto tras un mensaje del lenguaje humano.

Minería de datos cualitativa (QDM)

La investigación cualitativa puede estructurarse y analizarse con las técnicas de minería de datos para dar sentido a grandes conjuntos de datos no estructurados. Investigadores de Berkley publicaron un estudio sobre cómo esta técnica sirvió para estudiar el bienestar de los niños.

Cómo se realiza la minería de datos

El proceso de minería de datos aceptado se realiza en seis pasos:

  1. Comprensión del negocio

    En el primer paso se marcan los objetivos del proyecto y cómo la minería de datos puede contribuir a estos objetivos. En esta fase se debería trazar un plan que incluya plazos, acciones y funciones asignadas.

  2. Comprensión de los datos

    En este paso, los datos se recopilan de todos los orígenes de datos aplicables. Las herramientas de visualización suelen usarse en esta fase para explorar las propiedades de los datos a fin de garantizar que servirán para lograr los objetivos del negocio.

  3. Preparación de datos

    A continuación, los datos se depuran, y se incluyen los que podrían faltar para que todo esté listo para su análisis. El procesamiento de los datos puede prolongarse durante bastante tiempo en función de la cantidad de datos que se vayan a analizar y del número de orígenes de datos. Por tanto, en los sistemas de gestión de base de datos modernos (DBMS), se usan sistemas distribuidos que agilizan el proceso de minería de datos en lugar de sobrecargar con todo el proceso a un único sistema. También son más seguros que tener todos los datos de una organización en un único almacén de datos. Es importante incluir medidas de seguridad en la fase de manipulación de datos para evitar que se pierdan de forma permanente.

  4. Creación de modelos de datos

    Seguidamente, se usan modelos matemáticos para buscar patrones en los datos aplicando herramientas de datos sofisticadas.

  5. Evaluación

    Las conclusiones se evalúan y compara con los objetivos del negocio para determinar si se implementarán en toda la organización.

  6. Implementación

    En la fase final, las conclusiones de la minería de datos se comparten entre las distintas operaciones que participan a diario en la actividad del negocio. Una plataforma de inteligencia empresarial corporativa puede ser útil como fuente fiable de consulta “autoservicio” de datos.

Data Mining Process

Ventajas de la minería de datos

  • Proceso automatizado para la toma de decisiones

    Con la minería de datos, las organizaciones pueden analizar continuamente los datos y automatizar las decisiones rutinarias y las más importantes sin tener que dilatarlas a la espera de que alguien decida qué debe hacerse. Los bancos pueden detectar transacciones fraudulentas al instante, solicitar la verificación e incluso proteger la información personal para que los clientes no se vean expuestos a los riesgos del robo de identidad. Si se implementan en los algoritmos operacionales de una empresa, estos modelos pueden recopilar, analizar y decidir qué hacer a partir de los datos de forma independiente para optimizar la toma de decisiones y mejorar los procesos diarios de una organización.

  • Predicciones y pronósticos acertados

    La planificación es un proceso fundamental en cualquier organización. La minería de datos facilita la planificación y ofrece a los gerentes pronósticos fiables elaborados a partir de tendencias históricas y condiciones actuales. Macy’s implementa modelos de pronóstico de demanda para predecir la demanda de cada categoría de ropa en las distintas tiendas, así puede preparar los inventarios correctos con los que satisfacer las necesidades del mercado de forma eficiente.

  • Reducción de los costes

    La minería de datos permite un uso y una asignación más eficientes de los recursos. Las organizaciones pueden planificar y tomar decisiones automatizadas con pronósticos acertados que redundarán en una reducción máxima de los costes. Delta integró los chips RFID en los equipajes facturados de los pasajeros e implementó modelos de minería de datos para identificar errores en sus procesos y reducir el número de maletas que se manipulaban de forma errónea. Esta mejora del proceso se traduce en un aumento de la satisfacción de los pasajeros y una reducción de los costes, ya que se evita tener que buscar y reenviar al destino correcto los equipajes perdidos.

  • Información detallada de los clientes

    Las empresas implementan modelos de minería de datos de los clientes para descubrir características y diferencias claves entre sus clientes. La minería de datos puede usarse para crear una imagen pública y personalizar la atención en cada punto de interacción a fin de mejorar la experiencia general del cliente. En 2017, Disney invirtió más de mil millones de dólares para crear e implementar “Magic Bands”. Estas bandas tienen una relación simbiótica con los clientes: mejoran su experiencia durante la visita al complejo y a la vez van recopilando datos sobre sus actividades para que Disney pueda analizar aún más la experiencia de sus clientes.

Retos de la minería de datos

Si bien se trata de un proceso potente, la minería de datos tiene que luchar con la creciente cantidad y complejidad de los big data. A diario, las organizaciones recopilan exabytes de datos, y los responsables de la toma de decisiones tienen que averiguar cómo extraer, analizar y obtener información detallada de sus abundantes repositorios de datos.

  • Big Data

    Las dificultades asociadas a los big data son prolíficas y se extienden a todos los campos que recopilan, almacenan y analizan datos. Los big data se caracterizan por cuatro dificultades nada desdeñables: volumen, variedad, veracidad y velocidad. El objetivo de la minería de datos es servir de solución para obtener el verdadero valor de los datos.

    El volumen se refiere a la dificultad de almacenar y procesar la cantidad ingente de datos recopilados por las organizaciones. Entre todos estos datos, hay que saber solventar dos retos importantes: primero, con un volumen tan grande resulta más difícil encontrar los datos correctos, y segundo, se ralentiza la velocidad de procesamiento de las herramientas de minería de datos.

    La variedad se refiere a los numerosos tipos de datos recopilados y almacenados. Las herramientas de minería de datos deben poder procesar de forma simultánea toda una serie de formatos de datos. Si el análisis no presta atención a los datos estructurados y no estructurados, se pierde el valor extra obtenido con la minería de datos.

    La velocidad detalla la mayor celeridad con la que se crean, recopilan y almacenan datos nuevos. Aunque el volumen se aplica al mayor requisito de almacenamiento y la variedad a los crecientes tipos de datos, la velocidad es la dificultad asociada a la cada vez mayor frecuencia con la que se generan datos.

    Por último, la veracidad significa que no todos los datos son igual de precisos. Los datos pueden estar desordenados, incompletos, mal recopilados e incluso no ser objetivos. En cualquier caso, cuanto más rápido se recopilan los datos, más errores habrá. La dificultad de la veracidad es equilibrar la cantidad de los datos con su calidad.

  • Modelos sobreajustados

    Por sobreajustados se entienden los modelos que explican los errores naturales de la muestra en lugar de las tendencias subyacentes del conjunto de la recopilación. Los modelos sobreajustados suelen ser excesivamente complejos y usan demasiadas variables independientes para generar una predicción. Por tanto, el riesgo de sobreajustarlos se acusa con el aumento del volumen y la variedad de datos. Si las variables son escasas, el modelo resulta irrelevante, en cambio, cuando son muchas las variables, el modelo se limita a los datos conocidos de la muestra. La dificultad está en moderar el número de variables usadas en los modelos de minería de datos y equilibrar su poder predictivo con la precisión.

Data Mining Challenges
  • Coste de ampliación

    Conforme aumenta la velocidad de los datos para incrementar la variedad y el volumen de los datos, las empresas deben ampliar estos modelos y aplicarlos en el conjunto de la organización. Acceder a todas las ventajas de la minería de datos en estos modelos requiere una inversión importante en la infraestructura informática y potencia de procesamiento. Para esta adaptación, las organizaciones deben comprar y mantener ordenadores potentes, servidores y software diseñados para admitir la gran cantidad y diversidad de datos que manejan.

  • Privacidad y seguridad

    El mayor requisito de almacenamiento de los datos ha obligado a numerosas empresas a pasarse al almacenamiento y la informática en la nube. Aunque la nube ha permitido muchos avances modernos en la minería de datos, la naturaleza del servicio crea importantes amenazas para la seguridad y privacidad. Las organizaciones deben proteger sus datos de cifras engañosas para mantener la confianza de sus socios y clientes.

    La privacidad de los datos impone a las organizaciones la necesidad de desarrollar reglas y restricciones a nivel interno aplicadas al uso e implementación de los datos de un cliente. La minería de datos es una herramienta potente que ofrece a los negocios importante información detallada de sus clientes. Sin embargo, ¿hasta qué punto esta información detallada infringe la privacidad de una persona? Las organizaciones deben sopesar esta relación con sus clientes, desarrollar políticas que beneficien a estos clientes e informar de ellas para mantener una relación de verdadera confianza.

Tipos de minería de datos

La minería de datos tiene dos procesos principales: aprendizaje supervisado y no supervisado.

  • Aprendizaje supervisado

    El objetivo del aprendizaje supervisado es la predicción o clasificación. La forma más fácil de conceptualizar este proceso es buscar una variable de salida sencilla. Un proceso se considera aprendizaje supervisado si el objetivo del modelo es predecir el valor de una observación. Por ejemplo, los filtros de spam usan el aprendizaje supervisado para clasificar los correos electrónicos recibidos como contenido no deseado y eliminar automáticamente estos mensajes de su bandeja de entrada.

    Los modelos de análisis común usados en las metodologías de minería de datos supervisadas son:

    • Regresiones lineales

      predicen el valor de una variable continua usando una o varias entradas independientes. Las inmobiliarias usan las regresiones lineales para predecir el valor de un inmueble con las variables de metros cuadrados, relación de baños por dormitorios, año de construcción y código postal.

    • Regresiones logísticas

      predicen la probabilidad de una variable categórica usando una o varias entradas independientes. Los bancos usan las regresiones logísticas para predecir la probabilidad de que un solicitante de préstamo recurra en impacto con las variables de puntuación crediticia, declaración de la renta, edad y otros factores personales.

    • Serie temporal

      los modelos de serie temporal son herramientas de pronósticos que usan el tiempo como la principal variable independiente. En el sector comercial, establecimientos como Macy’s usan los modelos de serie temporal para predecir la demanda de productos como una función de tiempo y emplean el pronóstico para realizar planificaciones exactas y reponer los almacenes con los niveles de inventario necesarios.

    • Árboles de regresión o clasificación

      los árboles de clasificación son una técnica de creación de modelos predictivos que predice el valor tanto de variables de destino continuas como de variables categóricas. A partir de los datos, el modelo creará conjuntos de reglas binarias para dividir y agrupar la máxima proporción de variables de destino similares. Al seguir estas reglas, el grupo al que se ajuste una observación nueva se convertirá en su valor previsto.

    • Redes neuronales

      una red neuronal es un modelo de análisis inspirado en la estructura del cerebro, sus neuronas y sus conexiones. Estos modelos se crearon originalmente en los años 40, pero su popularidad es reciente gracias a su aplicación en las disciplinas estadísticas y de ciencia de los datos. Las redes neuronales usan entradas que, según su magnitud, “dispararán” o “no dispararán” su nodo si obedecen a su requisito de umbral. La señal o ausencia de señal pasa a combinarse con el resto de señales de “disparo” en las capas ocultas de la red, donde el proceso se repite por sí solo hasta que se crea una salida. Una de las ventajas de las redes neuronales es una salida casi instantánea, por eso, el sector de la automoción está empleando estos modelos en los coches de guiado automático para procesar datos de forma precisa y eficiente a fin de dotar al vehículo de autonomía para tomar decisiones importantes.

    • Algoritmo de vecino más próximo K

      el método de algoritmo de vecino más próximo K se usa para categorizar una observación nueva a partir de observaciones pasadas. A diferencia de los métodos anteriores, el del vecino más próximo K está orientado a los datos y no a los modelos. Este método no realiza suposiciones subyacentes sobre los datos ni emplea procesos complejos para interpretar sus entradas. La idea básica del modelo de vecino más próximo K es que clasifica las observaciones nuevas identificando sus vecinos más próximos K para asignarles el valor de la mayoría. Muchos sistemas de recomendación incluyen este método para identificar y clasificar contenido similar que posteriormente se extraerá con el algoritmo de nivel superior.

Types of Data Mining
  • Aprendizaje no supervisado

    Las tareas no supervisadas se centran en entender y describir los datos para revelar patrones subyacentes que puedan contener. Los sistemas de recomendación emplean el aprendizaje no supervisado para hacer un seguimiento de los patrones de los usuarios y proporcionarles recomendaciones personalizadas a fin de mejorar sus experiencias como clientes.

    Los modelos de análisis común usados en las metodologías de minería de datos no supervisadas son:

    • Agrupación

      Los modelos de agrupación crean grupos de datos similares. Se emplean mejor con conjuntos de datos complejos que describen una entidad simple. Por ejemplo, un modelo de similitudes, para agrupar semejanzas entre segmentos, identificar grupos y orientarse a grupos nuevos que se parezcan a un grupo existente.

    • Análisis de asociación

      El análisis de asociación también se conoce como análisis de la cesta de la compra y se usa para identificar elementos que suelen ocurrir juntos. Los supermercados suelen usar esta herramienta para identificar productos emparejados y distribuirlos por el establecimiento para incitar a los clientes a pasar junto a la mercancía y comprar más.

    • Análisis de componentes principales

      El análisis de componentes principales se usa para ilustrar correlaciones ocultas entre variables de entrada y crear variables nuevas, llamadas componentes principales, que capturan la misma información contenida en los datos originales, pero con menos variables. Al reducir el número de variables usadas para transmitir idéntico nivel de información, los analistas pueden aumentar la utilidad y precisión de los modelos de minería de datos supervisados.

  • Metodologías supervisadas y no supervisadas en la práctica

    Si bien puede usar cada metodología por separado, es habitual combinarlas durante un análisis. Cada una tiene sus propias ventajas y juntas aumentan la solidez, estabilidad y utilidad general de los modelos de minería de datos. Los modelos supervisados pueden beneficiarse de las variables anidadas derivadas de los modelos no supervisados. Por ejemplo, la variable de un grupo de un modelo de regresión permite a un analista descartar variables redundantes del modelo y mejorar su precisión. Ya que la metodología no supervisada revela las relaciones subyacentes de los datos, los analistas deberían usar la información detallada del aprendizaje no supervisado para potenciar sus análisis supervisados.

Herramientas de minería de datos

Las soluciones de minería de datos han proliferado, por lo que es importante saber bien qué objetivos concretos persigue para poder usar las plataformas y herramientas correctas.

RapidMiner

RapidMiner es un software de código abierto escrito en Java. RapidMiner es una de las mejores plataformas para realizar análisis predictivos y ofrece entornos integrados para el aprendizaje exhaustivo, la minería de texto y el aprendizaje mecánico. La plataforma puede usar servidores en instalaciones físicas o en la nube y se ha implementado en diversas organizaciones. RapidMiner logra equilibrar de forma óptima las funciones de codificación personalizada y una interfaz intuitiva para el usuario, de modo que los usuarios con conocimientos sólidos de minería de datos y codificación podrán usar esta herramienta de forma efectiva.

Orange

Orange es un software de componentes de código abierto escrito en Python. Orange incluye funciones fáciles de preprocesamiento de datos y es una de las mejores plataformas para análisis básicos de minería de datos. Orange usa un enfoque orientado al usuario para la minería de datos, con una interfaz de usuario de diseño exclusivo y uso intuitivo. Sin embargo, una de sus principales desventajas es su limitado número de conectores de datos externos. Orange es perfecto para organizaciones que busquen una solución de minería de datos sencilla y que usan sistemas físicos de almacenamiento.

Mahout

Mahout es una plataforma de código abierto, desarrollada por la Apache Foundation, que se centra en el proceso de aprendizaje no supervisado. El software es inmejorable en la creación de algoritmos de aprendizaje mecánico para la agrupación, clasificación y filtración colaborativa. Mahout está pensado para usuarios con conocimientos más avanzados. El programa permite a matemáticos, estadísticos y científicos de datos crear, probar e implementar sus propios algoritmos. Aunque Mahout incluye varios algoritmos inmediatos, como uno de sistema de recomendación, que las organizaciones pueden usar fácilmente, cuanto más grande es la plataforma, más conocimientos especializados se requieren para poder sacar partido de todo su potencial.

Microstrategy

MicroStrategy es el software de análisis de datos e inteligencia empresarial que complementa a todos los modelos de minería de datos. Con toda una serie de puertas de enlace y controladores nativos, la plataforma puede conectarse a cualquier recurso de la empresa y analizar sus datos. MicroStrategy sobresale transformando datos complejos en visualizaciones accesibles que se distribuirán por el conjunto de una organización. El software puede controlar y analizar el rendimiento de todos los modelos de minería de datos en tiempo real y visualizar con total transparencia esta información detallada para los responsables de la toma de decisiones. Al complementar MicroStrategy con una herramienta de minería de datos, los usuarios pueden crear modelos de minería de datos avanzados, implementarlos en la organización y tomar decisiones a partir de la información detallada obtenida y de su rendimiento en el mercado.

Preguntas frecuentes

¿Qué es la minería de datos?
¿Por qué se realiza la minería de datos?
¿Qué ejemplos de aplicaciones de la minería de datos existen?
¿En qué consiste el proceso de minería de datos?
¿Cuáles son las técnicas de minería de datos?
¿Cuáles son las ventajas de la minería de datos?
¿Cuáles son las dificultades de la minería de datos?
¿En qué se diferencia la minería de datos y el descubrimiento de datos?
¿Cuáles son las tendencias futuras de la minería de datos?
¿Qué es la minería web?
¿Cuáles son las mejores herramientas de minería de datos?
¿Cómo evalúo los modelos de minería de datos?
¿Qué es la minería de datos relacional?