Minería de Datos

El desarrollo de la computadoras ha permitido por la velocidad de tratamiento de datos el análisis de grandes cantidades de datos en un tiempo mínimo.

La aplicación de avanzadas técnicas estadísticas a la rapidez en el procesamiento han permitido en desarrollo de la minería de datos. Actualmente en un desarrollo tal con internet que se habla de "big data", siendo cantidades enormes las que se analizan cercanas a un terabyte.

Las técnicas que usa la minería de datos son cogidas de la estadística y la informática:

Análisis de varianza, mediante el cual se evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintas.

Regresión: define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.

Prueba chi-cuadrado: por medio de la cual se realiza el contraste de la hipótesis de dependencia entre variables.

Análisis de agrupamiento o clustering: permite la clasificación de una población de individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en un número determinado de grupos, con base en las semejanzas o diferencias de los individuos.

Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.

Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.

Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración..

Inteligencia Artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales..

Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto..

Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto..

Redes neuronales: Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado..

En la mayoría de los casos éste es nuestro método de trabajo:

-Definción de los objetivos del estudio con el cliente.

-Recogida de datos o estudio de las fuentes necesarias para la minería de datos.

-Limpieza y adaptación de los datos.

-Tratamiento Informático, mediante programas como SPSS, R Statistics, Weka o Matlab entre otros.

-Elaboración del informe con las conclusiones y explicación al cliente.

El principal problema al que nos enfrentamos es la búsqueda de información realmente útil y usable por el cliente. Por ello es muy importante la definición del problema a tratar y la interpretación de los resultados.