Data Mining: la importancia de fiarte de los datos para tomar decisiones

Miguel Aguado

Advertising Business Developer en Schibsted Spain

MineríaDatos

En su día ya hablamos de la importancia que el Big Data estaba tomando para empresas, ciudades y ciudadanos de todo el mundo (podéis leer el artículo aquí). Cómo el uso de datos masivos nos podía ayudar a predecir catástrofes naturales, nuevas tendencias de consumo o dónde iba a producirse el próximo atasco y actuar en consecuencia (recomiendo este post de Bryan Borzykowski en forbes).
El uso de mezcla de datos estructurados y desestructurados, así como el desvanecimiento de las estructuras de silos en los que los guardábamos hasta hace poco, nos abre puertas que aún ni sabemos que existen. Y aunque se ha avanzado mucho hasta ahora, siempre nos encontramos con el mismo escollo: ¿Cómo de fiables son los datos con los que estamos trabajando?

Si bien el término de minería de datos se ha convertido en algo marketiniano últimamente, el proceso en sí es una fase vital en los procesos de Business Intelligence. Se define como el proceso por el cual se descubren patrones en los datos que permitan una extracción de los mismos en un formato entendible y tratable. Como ejemplo muy simple de su importancia, cuando se trabaja con hojas de cálculo, casi siempre aparece el típico problema al exportar datos de una hoja de cálculo configurada en inglés a una en español, y los famosos puntos y comas que no indican los mismo en según qué idioma. Es un ejemplo de problema sencillo que una mala minería de datos puede convertir en algo muy serio si no se ataja. Porque, no nos engañemos, en una hoja donde calculas si una línea de negocio es rentable o no, la diferencia entre 3.546 y 3,456 puede ser crucial. Y ya no te digo en diseños de ingeniería civil si necesitamos sacar unas medidas, donde aparte del punto y coma, entran en juego las unidades…

La idea de escribir algo sobre este tema me surgió este verano cuando leí el fantástico post de Analía Plaza en el que hablaba de la integración de la capa del transporte público de Madrid en Apple Maps. Tanto Google como Apple parten del mismo (o similar) set de datos, es en el tratamiento de los mismos donde radica la diferencia. En cómo se pueden “humanizar” los datos para convertirlos en una herramienta útil, en este caso, para un servicio público. De la lectura harto recomendable de su post (independientemente de dónde vivas), surgió la idea de escribir sobre la importancia de la minería de datos (o Data Mining) y de lo importantísimo que es fiarte de los datos para poder tomar decisiones.

Técnicas de la minería de datos

Para realizar esta minería de datos, pueden aplicarse diferentes técnicas, que podemos resumir en:

  • Método descriptivo: se buscan patrones interpretables para describir datos. Por ejemplo, me permiten analizar cestas de la compra en supermercados, descubrir qué productos suelen comprarse conjuntamente en mayor medida y detectar patrones de consumo.
  • Método predictivo: a partir de unas variables existentes, permite averiguar (o predecir) cómo se van a comportar otras. Por ejemplo: un seísmo en una zona del país puede implicar problemas de comunicaciones, lo que permitiría actuar incluso antes sobre las infraestructuras para evitarlos.

Pasos para aplicar el estándar CRISP de la minería de datos

Para poder poner orden, la minería de datos tiene su propio estándar: CRISP-DM (Cross-Industry Standard Process for Data Mining), donde se describen los pasos para aplicarlo, a saber:

  • Conocimiento del negocio: hay que entender el área en el que queremos usar data mining para definir con claridad el problema.
  • Conocimiento de los datos intrínsecos al mismo (por ejemplo, moneda, unidad de medida, etc.).
  • Preparación de los datos: desde hacer tablas con los campos requeridos, hasta eliminar aquellos datos que no vayamos a usar.
  • Modelado: Construcción del modelo de minado y puesta a prueba del mismo. Habitualmente toca volver al punto tres si el modelo no encaja.
  • Evaluación y revisión.
  • Despliegue: habitualmente el modelado en sí no es el final del viaje, y muchas veces es necesario generar reportes (entendibles por diferentes niveles de usuarios). De hecho, en muchos casos son éstos los responsables últimos de esta fase.

Así que antes de empezar a montar tus clusters de Big Data, piensa en los datos (estructurados o no), en su formato, en cómo los vas a tratar y en qué herramientas vas a usar para ello, teniendo en cuenta que cualquier análisis se basa en estos tres principios: Pre-procesamiento, Data Mining y Validación de resultados.

Facebook Comments