Quake III Arena es el último juego en el que una IA supera a los humanos

new_results_gameplay

Pocos juegos son más simples en principio que capturar la bandera. Dos equipos tienen cada uno un marcador ubicado en sus respectivas bases, y el objetivo es capturar el marcador del otro equipo y devolverlo de forma segura a su base. Sin embargo, algo que los seres humanos entienden fácilmente no siempre es captado tan rápidamente por las máquinas. Pero en un artículo publicado esta semana en la revista Science, aproximadamente un año después de la preimpresión, los investigadores de DeepMind, la filial con sede en Londres de la empresa matriz de Google Alphabet, describen un sistema capaz no solo de aprender a jugar a capturar la bandera en Id Software’s Quake III Arena, sino también de idear estrategias totalmente novedosas basadas en equipos comparables a las humanas.

Jaderberg, un científico investigador de DeepMind, explicó que la técnica clave en juego es el aprendizaje por refuerzo, que emplea recompensas para impulsar las políticas de software hacia los objetivos. Los agentes apodados ingeniosamente como For The Win (FTW) aprenden directamente de los píxeles en pantalla utilizando una red neuronal convolucional, una colección de neuronas organizadas en capas modeladas a partir de la corteza visual. Los datos obtenidos se pasan a dos redes de memoria de largo-corto plazo (LSTM) recurrentes, o redes capaces de aprender dependencias en el tiempo. Una está en una escala de tiempo rápida y la otra opera en una escala de tiempo lenta, y ambas están acoplados por un objetivo variacional, un tipo de memoria que usan conjuntamente para hacer predicciones sobre el mundo del juego y generar acciones a través de un controlador de juego simulado.

Los agentes FTW fueron entrenados en una población de 30 en total, lo que les proporcionó una gama de compañeros de equipo y oponentes con los que jugar, y se seleccionaron niveles al azar para evitar que los agentes memorizaran los mapas. Cada agente aprendió su propio tipo de recompensa, lo que les permitió generar sus propios objetivos internos (como capturar la bandera). En total, los agentes jugaron individualmente alrededor de 450,000 juegos de captura de la bandera, el equivalente a aproximadamente cuatro años de experiencia.

En un torneo que involucró a 40 jugadores humanos, en los cuales los humanos y los agentes se combinaron al azar en los juegos (tanto como oponentes como compañeros de equipo), los agentes FTW fueron más competentes que los métodos estándar de referencia. De hecho, superaron sustancialmente la tasa de victorias de los jugadores humanos, con una calificación de Elo (que corresponde a la probabilidad de ganar) de 1.600, en comparación con los 1.300 de jugadores humanos “fuertes”, y 1.050 de jugadores humanos promedio. Los agentes tuvieron tiempos de reacción rápidos, como era de esperar, lo que les dio una ligera ventaja en los experimentos iniciales. Pero incluso cuando su precisión y tiempo de reacción se redujeron a través de un retraso incorporado de un cuarto de segundo (257 milisegundos), aún superaron a sus contrapartes humanas, con jugadores humanos fuertes y jugadores intermedios ganando solo el 21% y el 12% del tiempo, respectivamente.

“Creo que una de las cosas a tener en cuenta es que estas ideas, estos dominios multiagentes, son excepcionalmente poderosos, y este artículo nos lo demuestra”, dijo Jaderberg. “Esto es lo que estamos aprendiendo cada vez mejor en los últimos años: cómo construir un problema de aprendizaje por refuerzo. El aprendizaje por refuerzo realmente brilla en nuevas situaciones”.

DeepMind’s AI can defeat human players in Quake III Arena’s Capture the Flag mode.

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s