Selecciona Edición
Iniciar sesión

El ‘big data’ ya no necesita a los humanos

Un software es capaz de realizar predicciones a partir de grandes volúmenes de datos digitales sin intervención humana y en una fracción del tiempo requerido por un analista

Imagen de la exposición 'Big Bang Data' en la Fundación Telefónica (Madrid).

El mundo está cada vez más informatizado e interconectado, y se generan cantidades ingentes de datos digitales. Desde nuestros teléfonos móviles, tarjetas de crédito, ordenadores, sensores en coches y ciudades, el volumen de información que generamos se incrementa constantemente y se acumula, esperando ser analizado. Dicho análisis puede mejorar la gestión de los negocios, permitiría realizar predicciones en multitud de campos y revelaría relaciones causa-efecto entre los datos que han podido pasar desapercibidas. Por estas razones el perfil del data scientist, o analista de datos, es uno de los más solicitados en Silicon Valey.

Si bien el análisis de estos datos requiere del uso de ordenadores y programas informáticos, también requiere de cierta intuición por lo que el factor humano juega un papel importante. Son los analistas quienes deciden qué colecciones de datos se van a analizar y qué tipo de relaciones se va a buscar entre ellos.

Vemos el Data Science Machine como un complemento natural a la inteligencia humana”

Esta necesidad puede haberse visto superada gracias a un nuevo sistema desarrollado por ingenieros del Instituto Tecnológico de Massachusetts (MIT por sus siglas en inglés) al que han bautizado Data Science Machine o DSM. Se trata de un software capaz de encontrar patrones en las relaciones entre los datos y realizar predicciones a partir de las mismas mejor que la mayoría de los humanos y en un periodo de tiempo mucho menor.

“A partir de nuestra experiencia realizando análisis de datos hemos visto que uno de los pasos críticos es identificar las variables que se van a extraer de la base de datos”, explica Kalyan Veeramachaneni, investigador en el Laboratorio de Informática e Inteligencia Artificial del MIT, co-creador del DSM junto con Max Kanter, un estudiante de máster en el mismo departamento. Para identificar estas variables el software comienza por buscar las relaciones inherentes en el diseño de las bases de datos. En ellas habitualmente se clasifican datos diferentes en tablas separadas, indicando la existencia de relaciones entre ellos con etiquetas numéricas. El programa desarrollado por Veeramachaneni y Kanter analiza estas etiquetas y las usa como guía para buscar correlaciones entre los datos.

Por ejemplo, una base de datos puede contener en una tabla una lista de productos y su coste, y en otra tabla, una lista de artículos que han sido adquiridos por ciertos clientes. El sistema comenzaría por importar los costes de la primera tabla a la segunda, generando una serie de características a partir de ellas: coste total de las compras, coste medio, coste mínimo y así sucesivamente. Cuantas más tablas y más relaciones existan entre ellas, más variables puede estudiar. Si están disponibles, el programa también puede incluir en el análisis los denominados “datos categóricos” que son aquellos cuyos valores están restringidos a un rango de valores como es el caso de nombres de marcas o días de la semana. Con ellos genera aún más características que, potencialmente, pueden tener un valor predictivo.

El DSM ha quedado por delante de más de la mitad de los participantes humanos en todas las competiciones a las que se ha presentado

Una vez hecho esto, el software comienza a ver qué relaciones numéricas existen entre el conjunto de características que ha generado previamente. Si existe una relación, el programa probará una serie de operaciones que darán lugar a predicciones, que se recombinan de distintas maneras para optimizar su precisión.

Para poner a prueba su sistema, Veeramachaneni y Kanter se inscribieron en tres competiciones de análisis de datos en los que se enfrentaron a equipos humanos. El DSM quedó por delante de más de la mitad de los participantes en todas ellas y, aunque no consiguió el mejor resultado en ningún caso, logró crear unas predicciones casi tan acertadas como las de los equipos ganadores. En lo que el DSM fue el ganador indiscutible fue en el tiempo empleado en realizar su trabajo: tardó tan sólo entre dos y doce horas en obtener sus resultados mientras que a los otros equipos les llevó entre uno y dos meses. “Si el resultado es adecuado para los objetivos del problema no es necesario trabajar más en ello” concluyen los autores en un artículo presentado en la International Data Science and Advanced Analytics Conference, una de las reuniones más importantes de la industria, celebrada recientemente en París.

A pesar del éxito demostrado, los autores insisten en que su sistema no se ha desarrollado con la idea de reemplazar a los humanos. Según Veeramachaneni, “el DSM puede producir un primer modelo que los humanos pueden refinar. En el mundo real lo primero que hace el analista es realizar un estudio preliminar para determinar si los datos tienen algún poder predictivo de cara a un resultado concreto. En estas circunstancias el DSM puede dar una respuesta de manera muy rápida”.

“Vemos el Data Science Machine como un complemento natural a la inteligencia humana”, apunta Kanter, “hay muchísimos datos esperando ser analizados y ahora mismo no se hace nada con ellos. Ya hemos recibido ofertas de compañías interesadas en utilizar nuestra tecnología, que hemos comenzado a comercializar a través de una compañía llamada FeatureLab”.

Más información