miércoles, julio 01, 2009

La verdad sobre la minería de datos - 4

Página 4 de 5

1. Evaluación

El paso final es la evaluación del modelo de minería de datos. Una perspectiva prudente para la minería de datos es crear varios modelos. Esto se puede llevar a cabo aplicando varios algoritmos al mismo grupo de datos, o creando varios modelos sincronizando el mismo algoritmo hasta lograr el nivel de exactitud deseado. El resultado de las predicciones en el modelo puede ser comparado con resultados conocidos para lograr una medida de exactitud. Se recomienda separar los datos usados en la evaluación, de los datos en la habilitación del modelo.

Una gráfica de resultados acumulados es una de las múltiples técnicas de prueba de exactitud del modelo. En la gráfica de resultados acumulados, se mide la exactitud del modelo contra un valor elegido por el usuario. Por ejemplo, el valor elegido como objetivo puede ser el porcentaje de clientes que responderán a una campaña de correo electrónico. La línea base (o modelo aleatorio) siempre indica que un porcentaje X del objetivo, será alcanzado con un porcentaje X de datos. Ello indica los resultados de una campaña para la cual los usuarios son seleccionados aleatoriamente, en lugar de usar un modelo de minería de datos. Usando las predicciones del modelo, el porcentaje de respuestas positivas es mapeado con el porcentaje de datos seleccionados para crear una gráfica de sustentación. La siguiente gráfica ilustra el ejemplo que se da a continuación.

Mientras más cerca este la curva de sustentación del modelo ideal, mejor será la exactitud de la capacidad de predicción del modelo, y consecuentemente la distancia entre la línea base y la curva de sustentación será mayor.

Proveedores de sistemas para la minería de datos

SAS es un líder en el mercado de la minería de datos con un record impresionante de implementaciones exitosas. Su Enterprise Miner ofrece una amplia gama de análisis predictivos y formas de visualización. El producto contiene los procesos de minería de datos de SAS llamados SEMMA: muestreo (extrayendo ejemplos representativos que puede ser manipulados fácilmente y particionando los datos para la habilitación y las pruebas); exploración (búsqueda de tendencias o patrones inesperados por medio de técnicas estadísticas o medios visuales); modificación (procesamiento iterativo de datos enfocado en información relevante e inclusión periódica de datos); modelado (aplicando algoritmos de minería de datos para generar pronósticos); y evaluación (pruebas para comprobar la exactitud del modelo).

SPSS ofrece una variedad de productos para el análisis estadístico y la minería de datos. El PASW Modeler provee funcionalidades avanzadas de análisis y visualización. El producto promete aparentemente su integración con la infraestructura de los sistemas existentes de TI, y usa múltiples hilos, clustering y contiene algoritmos para alto rendimiento y escalabilidad. SPSS ofrece una amplia gama de algoritmos, además de minería Web y análisis de pruebas como productos adicionales.

Angoss Software ofrece una solución de análisis de cliente bajo demanda enfocada en las estrategias de ventas y mercadeo. Su KnowledgeSEEKER provee visualización para la exploración de datos; y su KnowledgeSTUDIO representa su herramienta para el modelado, con acceso a una variedad de algoritmos incluyendo árboles de decisión, regresión y clustering.

Microsoft ha realizado un paso significativo en la arena de la minería de datos, con el lanzamiento de SQL Server 2005. Es uno de los componentes de Microsoft BI suite. Este producto incluye varios algoritmos para la minería de datos desarrollados en colaboración entre el grupo de investigación de Microsoft y el grupo de SQL Server. La minería de datos de SQL Server se integra con otras partes del producto BI: servicios de análisis, servicios de integración y servicios de reportes.

No hay comentarios: