miércoles, 20 de abril de 2011

Minería de datos.


Como extraer de las redes y bancos de datos el máximo de información sin “eternizarse” en el intento

Data mining (minería de datos); así se denomina a esta reciente rama de las ciencias de la computación que se encarga de la extracción de información relevante por distintos procesos y algoritmos de las bases de datos y la optimización de la búsqueda de estos en las redes que los transportan.

La información si no se guarda evidentemente se pierde, de ahí que la mayoría de los sistemas de computación dispongan de herramientas de almacenamiento de estos datos. Esto es cierto, pero no es menos cierto que el almacenamiento de datos reviste no sólo problemas de capacidad de los soportes en los que se deben colocar estos, sino también la aplicación de criterios de búsqueda y recuperación que permitan su disponibilidad rápida y eficaz. Es evidente que el manejo inteligente de una base de datos permite inferir importantes conclusiones y por lo tanto es de una gran utilidad dotar a los sistemas de mecanismos de clasificación y búsqueda inteligente. De esto justamente se encarga la minería de datos.

Cualquier empresa paga a “precio de oro” determinadas informaciones que le permiten reconducir sus estrategias comerciales y sus métodos de producción. Los mismos gobiernos recurren a la minería de datos para la elaboración de sus informes estadísticos y la realización de estudios que se basan en la predicción.

El volumen de datos, que en tiempo real, son manipulados y/o transmitidos en las redes de comunicación y en los computadores que están conectados a ellas es gigantesco; de tal manera que los sistemas de análisis de datos crecen en complejidad de forma exponencial. La información irrelevante o mal procesada se convierte no sólo en basura inútil sino en obstáculo para el análisis de la que resulta de interés. Podemos hablar de “basura digital”.

La minería de datos implementa tecnologías muy relacionadas con el campo de la “inteligencia artificial” que permiten, mediante modelos estadísticos, clasificar, predecir y segmentar la información. La parte más significativa de la minería de datos realmente es la denominada “extracción del conocimiento”, es decir aquella que infiere conclusiones del análisis de los datos, facilitándonos el camino para elaborar un modelo de comportamiento predictivo de un fenómeno o un sistema del tipo que sea: social, biológico, físico, climático, energético, etc.…

La minera de datos al ser aplicada en un determinado negocio, empresa o estamento social cumplirá siempre con una serie de fases en su desarrollo. Entre las fases a tener en cuenta podemos mencionar: conocimiento del problema a analizar, diseño y utilización de las herramientas para la obtención de los datos, elaboración de un modelo matemático que se adecue al comportamiento funcional y temporal del fenómeno, validación y contrastación de los datos, elaboración de conclusiones y realimentación de las conclusiones sobre el mismo modelo con el fin de corregir las incorrecciones y/o anomalías o vicios del sistema.

En el campo de la gestión comercial la minería de datos es muy útil. Pongamos un sencillo ejemplo. Si deseamos diseñar un cierto producto financiero para los clientes de un banco, sería muy costoso y poco eficaz realizar una encuesta entre todos los clientes. Sin embargo, si aplicamos técnicas de minería de datos, analizando los perfiles de nuestros clientes que se encuentran en las bases de datos del banco podemos extraer de todos ellos un conjunto de los que realmente pueden ser futuros clientes interesados en este producto y a ellos solamente nos dedicaremos a la hora de diseñar nuestro nuevo producto. De otro modo más sencillo. Si usted vende cañas de pescar es una pérdida de tiempo y dinero mandarles publicidad de sus cañas a todos los clientes de la base de datos de unos grande almacenes, lo inteligente será mandarles la información solo a los que presenten un perfil adecuado al de pescador. En un futuro inmediato dejaran de cansarle con el envío de publicidad de productos que no le interesen, gracias a la minería de datos sólo le mandarán de aquellos en los que usted tiene interés.

Son muy numerosas las aplicaciones de esta nueva rama de la informática: terrorismo, genética, recursos humanos, estudios de audiencia, análisis de tráfico en internet, campañas publicitarias, consumo, contratación de seguros, etc..

Alessandro Vespignani, que es el director del Centro para la Investigación de Sistemas y Redes Complejas en la Universidad de Indiana, es un especialista en la materia y sus trabajos empiezan a dar resultados importantes. Vespignani ha estado trabajando en la teoría y la modelación de redes complejas que nos permitirá a los humanos alcanzar una capacidad de predicción notable en áreas nunca antes imaginadas.

Vespignani considera “… un día predeciremos con una anticipación, especificidad y escala sin precedentes, cosas como los efectos económicos y sociales de miles de millones de nuevos usuarios de internet en China e India, o la ubicación y la cantidad exactas de vuelos de aerolíneas que conviene cancelar en todo el mundo para frenar la expansión de una pandemia”.

La cuestión más importante es rastrear el comportamiento y los movimientos de un conjunto de personas en tiempo real de tal manera que podamos tener información de acontecimientos y decisiones que toman los individuos en un determinado escenario. Para ello, se pueden utilizar sistemas de seguimiento mediante sensores y otros elementos que generan datos a escala individual, tales como los Sistemas de Posicionamiento Global, el Bluetooth y el WiFi, los cuales dejan rastros detallados de algunos aspectos de nuestras vidas, incluido el movimiento del dinero a escala mundial como un indicador de la movilidad humana. Existen sensores que hacen posible, en estos momentos, procesar la información de hasta 100.000 individuos en un escenario, lo cual permitirá realizar una minería de datos en red pudiendo realizar predicciones de comportamiento con una rapidez y fiabilidad increíbles.