DEMETOLE-TICS: La verdad sobre la minería de datos

miércoles, julio 01, 2009

La verdad sobre la minería de datos - 2

¿Por qué no OLAP o estadística?

La minería de datos incluye técnicas avanzadas para comprender los datos que superan la habilidad de OLAP (online analytical processing). Las herramientas OLAP proveen los medios para realizar análisis multidimensionales por medio de poderosos algoritmos para agrupar y resumir datos. Mientras OLAP le permite visualizar las ventas de ciertos productos dentro de una región y periodo específicos, la minería de datos puede descubrir relaciones entre varios atributos en los datos y deducir porqué las ventas han bajado en una región sobre un periodo de tiempo. OLAP y la minería de datos son usados en conjunto y encontramos que estas dos tecnologías coexisten alegremente en los ambientes de almacenamiento y BI.

La comparación entre la estadística y la minería de datos, no están directa como parece. La razón principal es que ellas pertenecen a dos ramas de estudio separadas, las matemáticas y las ciencias de la computación. Mientras la minería se refiere a la explotación de grandes cantidades de datos (gigabytes o terabytes), la estadística se enfoca en la confirmación de hipótesis establecidas en un modelo y provee evidencia bien para apoyar la teoría o establece la falta de evidencia. Consecuentemente, la mayoría de los paquetes estadísticos no manejan la cantidad de información que se usa normalmente en los procesos de minería de datos.

Arquitectura de los sistemas de minería de datos

Al describir la arquitectura de un sistema de minería de datos, suponemos la presencia de un almacén o bodega de datos que contienen los datos de la organización. Aunque la minería de datos se puede aplicar a una amplia gama de fuentes de datos, es mejor iniciar con un almacén de datos en el que los hechos y las dimensiones se han identificado, y un marco de limpieza de datos establecido con el fin de garantizar una buena calidad de los mismos.

1. La base de conocimientos:
La corteza de un sistema de minería de datos es la base de datos de una organización. Este es el campo de conocimiento que describe los datos de una organización. Él incluye jerarquías de conceptos que organizan atributos o atribuyen valores de conceptos o clases específicas hacia generales. Los conceptos pueden ser implícitos, como las direcciones que se describen con número, calle, cuidad, estado y país. Las jerarquías de conceptos pueden ser creadas por medio de la organización de los valores. Un ejemplo de dicha jerarquía, comúnmente conocida como grupo predefinido de jerarquías, es el tamaño de la empresa, que puede ser definido como micro (<> 500 empleados)

Los niveles de interés constituyen otro ejemplo del campo de los conocimientos. Estas medidas ayudan a clasificar o filtrar las normas que se generan a partir de los datos para determinar los patrones que serán más útiles para un negocio. Los niveles de interés pueden incluir medidas objetivas que se identifican estadísticamente y medidas subjetivas que se derivan de las creencias al respecto de las relaciones de los datos ayudando a evaluar el grado de probabilidad de que un evento ocurra o no, segun los resultados obtenidos a partir de minería de datos. La base de conocimientos es un elemento esencial en todas las etapas del proceso de minería de datos.

2. El proceso de la minería de datos:

Fig. 1. Creación del modelo de minería de datos
La discusión sobre los procesos de la minería de datos en este articulo, está centrada en la creación de los modelos y su evaluación. El modelo constituye el corazón o centro de la minería de datos. El primer paso es la creación del modelo, a través de la selección de datos importantes para el objetivo. Por ejemplo, si un ejercicio de investigación sobre educación necesita estudiar el rendimiento de los estudiantes a través de varias ciudades en un estado o departamento especifico, solo los datos de ese estado son relevantes. Así mismo, si el objetivo es estudiar las relaciones entre la asistencia y la ocupación y salario de los padres, los atributos importantes incluirán la asistencia de la entidad estudiantes (sin las calificaciones o niveles) y la ocupación y salario de la entidad padres (sin importar edad o grupo cultural).

Una vez establecido el objetivo del ejercicio de la minería de datos, se debe elegir la función o algoritmo. El modelo se estructura para almacenar los resultados encontrados por el algoritmo. La siguiente tabla señala a grandes rasgos, los algoritmos más comúnmente usados (una discusión en detalle de estos algoritmos, se sale del marco de este artículo).

No hay comentarios:

Publicar un comentario