DEMETOLE-TICS: La verdad sobre la minería de datos

miércoles, julio 01, 2009

La verdad sobre la minería de datos - 3

Página 3 de 5

Algoritmo	Descripción
Reglas de asociación	Este algoritmo ayuda a descubrir elementos que están asociados. Una implementación común de este algoritmo es el análisis de la cesta de compras, donde se responde a la pregunta "¿si un cliente compra el artículo A y B, que otro artículo tenderá a comprar?” por medio de el examen de las asociaciones entre A y B con otros artículos comprados en el pasado.
Clustering	El Clustering crea grupos de objetos de datos basados en su similitud. Los objetos dentro de un cluster son similares a sí mismos y diferentes a los objetos de otros clusters. Clustering tiene una extensa aplicabilidad: en biología para el desarrollo de taxonomías; en los negocios sirve para agrupar clientes basados en su comportamiento, en geografía se usa para agrupar lugares.
Arboles de decisión	Los árboles de decisión son estructuras donde una rama divide el grupo de datos para particionar su distribución. Cada rama está basada en un atributo que genera una división significativa en la información. Se pueden realizar pronósticos aplicando los valores del nuevo atributo al árbol de decisiones.
Bayes simples	Los algoritmos Bayes tienen un método sistemático de aprendizaje basado en la evidencia. Allí se combinan probabilidades condicionales e incondicionales para calcular las probabilidades de una hipótesis.
Regresión	La Regresión ayuda a descubrir la dependencia del valor de un atributo con respecto a otros atributos dentro de la misma entidad u objeto. La regresión es similar a los árboles de decisión en cuanto a su contribución para clasificar datos, pero predice atributos continuos, en lugar de separados.
Series de tiempo	Las series de tiempo representan datos en varios intervalos de tiempo o cualquier otro indicador cronológico. Este se usa para pronosticar valores futuros como la demanda y el tráfico de un sitio Web, usando técnicas en auto regresión (una rama del análisis regresivo dedicada al análisis de series de tiempo) y árboles de decisión.

Fig. 2. Training el modelo de minería de datos

La habilitación del modelo involucra correr el algoritmo con datos históricos (conocido también como habilitación de datos). El algoritmo analiza y encuentra relaciones entre los datos. El resultado son patrones que se almacenan en el modelo de habilitación de datos para crear un modelo de minería de datos. La habilitación puede ser un proceso largo, ya que involucra la aplicación del algoritmo de minería a vastas cantidades de datos, de manera interactiva.

De los datos usados en la evaluación, sabemos que el 40% de los datos representan el objetivo. Este es el modelo ideal.
Usando las predicciones del modelo, se puede observar que el modelo puede alcanzar 100% del objetivo con el 90% de los datos.
Si usamos el modelo de minería (ver la grafica coeficiente de sustentación), podemos alcanzar el 36% de los datos (Ejemplo: 90% de 40%).
Si elegimos los clientes aleatoriamente (véase la línea base), solo alcanzaremos el 20% de los datos (Ejemplo: 50% de 40%)

Fig. 3. Pronósticos a partir del modelo de minería habilitado

La predicción o pronóstico involucra un nuevo grupo de datos a través del modelo habilitado. Para crear los pronósticos, se aplican las reglas y los patrones creados en la habilitación. Los pronóstico se pueden realizar en la medida en que entra nueva información y en tiempo real. El modelo habilitado de minería representa todos los valores posibles de atributos relevantes e incluye un valor de probabilidad asociado a cada combinación. Los pronósticos pueden implicar el proceso de determinar valores diferenciados o etiquetas de clases (como en las técnicas de clasificación), o los pronósticos de valores continuos (como en las técnicas de regresión).

No hay comentarios:

Publicar un comentario