_
_
_
_
_

Este programa juega mejor a los 'marcianitos' que un humano

Expertos en inteligencia artificial de Google crean un algoritmo que aprende por sí solo a jugar con decenas de videojuegos de los años 80 como 'Space Invaders' o el 'Comecocos'

Miguel Ángel Criado
Esta recreación muestra la red neuronal artificial que usa el programa DQN para vencer a las hordas del mítico juego 'Space Invaders'.
Esta recreación muestra la red neuronal artificial que usa el programa DQN para vencer a las hordas del mítico juego 'Space Invaders'.Google DeepMind

La inteligencia artificial le está ganando la partida a la humana paso a paso. Las máquinas lo hacen mejor al ajedrez o al póquer, están desplazando a los cirujanos en los quirófanos y, en la Bolsa de Nueva York, el 75% de las operaciones las realizan algoritmos matemáticos. Ahora, expertos en inteligencia artificial de Google han creado un algoritmo capaz de conseguir más puntos que un humano jugando a los marcianitos. Y lo logra tras aprender de la experiencia, reforzado por los premios y reposando lo aprendido. Casi como lo hacen los seres humanos.

DeepMind es una joven empresa británica dedicada a la inteligencia artificial de solo cinco años de vida. Algo debían de estar haciendo bien cuando Google la compró el año pasado en una dura pugna con Facebook por casi 700 millones de euros. Lo suyo es el aprendizaje de máquinas, las redes neuronales artificiales o agentes y algoritmos matemáticos, los elementos sobre los que se apoya la inteligencia artificial.

La última creación de DeepMind es DQN (o deep Q-network). Se trata de un programa, o agente en la jerga de la inteligencia artificial, que juega y muy bien a los videojuegos. Con un mínimo de información sobre las reglas del juego, las acciones permitidas (como el movimiento del cursor o los disparos) y las pantallas, este algoritmo se tuvo que enfrentar a una cincuentena de juegos de la mítica videoconsola Atari 2600 y las máquinas Arcade que, con títulos como el Comecocos (Pacman), Space Invaders o Pong, desplazaron al futbolín o al pinball de los salones recreativos en la década de los años 80 del siglo pasado.

"DQN superó a los anteriores sistemas de aprendizaje de máquinas en 43 de los 49 juegos", comenta Demis Hassabis, uno de los fundadores de DeepMind. Aunque el objetivo de la investigación, publicada hoy en la revista Nature, no era demostrar que también podía batir a los humanos, este agente "rindió por encima del 75% del nivel de un jugador humano profesional en más de la mitad de los juegos", añade Hassabis.

El algoritmo se enfrentó a 49 juegos Arcade de los años 80 superando a otros algoritmos y a un jugador humano profesional

En los títulos más populares de entonces, como el juego de boxeo Boxing, los de matar marcianos como Space Invaders, el juego de bolas Video Pinball o Pong, basado en el tenis de mesa, DQN superó al jugador humano, llegando a obtener puntuaciones 25 veces más altas.

Pero lo más llamativo de este agente de inteligencia artificial es su capacidad para aprender y el método con el que lo hace. Hassabis lo ejemplifica con el juego Breakout, evolución del Pong donde había que derribar series de ladrillos situados en la parte superior de la pantalla con una pelota. En las primeras fases de su entrenamiento, DQN mueve torpemente la barra para devolver la bola, perdiendo muchas vidas. Pero tras unos centenares de ensayos, descubre algo que parecería solo al alcance de un jugador humano: si rompía los ladrillos del lateral, podía colar la pelota sobre ellos y derribarlos por arriba mientras la barra sestea.

"DQN adoptó estrategias sorprendentemente anticipatorias que le permitieron conseguir la máxima puntuación posible", comenta el investigador de DeepMind. Y lo hizo sin ninguna instrucción o truco que le chivaran sus programadores. En su código, disponible para usos no comerciales, solo cuenta con los parámetros generales del juego y las pantallas en forma de píxeles. El algoritmo y su red neuronal artificial hicieron el resto.

Hay un elemento más que hace a DQN especial es su modo de aprender. Lo llaman aprendizaje por refuerzo, tomado de la psicología conductista del autor estadounidense Burrhus F. Skinner (1904-1990). Entre otros aspectos, el conductismo sostiene que humanos y animales modifican su conducta, aprenden, en función de estímulos que refuerzan o penalizan una acción. En esto de los premios y castigos, DQN sabe que su objetivo es lograr la mayor puntuación posible cada vez y no olvida las acciones pasadas. De hecho, el algoritmo repasa su comportamiento anterior y sus frutos en los momentos de descanso. Es como la función retroalimentadora que el sueño tiene sobre el cerebro humano.

Sin embargo, a DQN aún le queda mucho por aprender. En una decena de juegos, como en Ms Pac-Man, la versión del fabricante Atari del Comecocos, el algoritmo apenas llegó al 10% del nivel logrado por el jugador humano. Destaca el caso del título Montezuma's Revenge, un juego de plataforma al estilo de Mario Bros, donde DQN fue incapaz de puntuar. Como explican los autores, "los juegos que exigen estrategias de planificación más extendidas en el tiempo aún son uno de los grandes retos de todos los agentes actuales, incluido DQN".

A los agentes de inteligencia artificial aún les cuesta desenvolverse bien en juegos diseñados en los años 80, limitados no solo de recursos gráficos, sino en el propio recorrido del juego, en buena medida por culpa de los humanos. Si ni siquiera se sabe bien cómo aprende el cerebro humano, ¿cómo enseñar correctamente a una máquina a aprender?

"Sabemos muy poco sobre cómo aprenden realmente los humanos. Sabemos que hay algunos parámetros ajustables en el cerebro, como la longitud de las sinapsis [las conexiones entre neuronas], pero desconocemos en realidad cómo, por medio de qué algoritmos o normas, aprende nuestro cerebro", recuerda el investigador Bernhard Schölkopf, del Instituto Max Planck de Sistemas Inteligentes.

Más información
Dos programas ‘demuestran’ ser más humanos que los humanos en un juego
¿Pueden pensar las máquinas?
Google compra la inteligencia artificial de Deepmind
‘Iamus’, la máquina que quiere ser todos los compositores

Este experto en inteligencia artificial, que no ha participado en la investigación de DeepMind, sostiene, sin embargo, que en las últimas décadas se ha avanzado en la comprensión del aprendizaje en abstracto. "Sabemos cómo extraer conocimiento de forma automática de lo que observamos y cómo llevar esto a un sistema que pueda realizar una tarea", añade.

Para Schölkopf, esta comprensión de lo abstracto sirve para crear sistemas tecnológicos capaces de aprender. "Por ejemplo, sistemas para internet que deciden lo que probablemente quieres comprar o qué anuncio vas a abrir o qué resultados del buscador vas a encontrar más interesantes. También en sistemas físicos, como robots que aprenden a coger objetos o coches autoconducidos que aprenden a evitar obstáculos", menciona.

Estos son algunos de los objetivos a largo plazo de algoritmos como DQN. En el blog de Google donde explican su creación, los investigadores recuerdan que su fin no es crear un sistema que pueda ganar a los marcianitos. "Este tipo de tecnología debería ayudarnos a crear más y mejores productos. Imagina si pudiera pedirle a la app de Google que realizara cualquier tipo de tarea compleja", escriben.

Ahí está buena parte del interés de Google en DeepMind y sus investigaciones. "Google usa aprendizaje de máquinas en todo. Su modelo de negocio es recoger datos de la gente e inferir modelos predictivos basados en los datos, que convierte en dinero. Una pequeña mejora de estos modelos puede generar grandes beneficios", recuerda Schölkopf.

Más información
Documento: 'Human-level control through deep reinforcement learning'

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte
_

Sobre la firma

Miguel Ángel Criado
Es cofundador de Materia y escribe de tecnología, inteligencia artificial, cambio climático, antropología… desde 2014. Antes pasó por Público, Cuarto Poder y El Mundo. Es licenciado en CC. Políticas y Sociología.

Más información

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_