Quake III Arena es el último juego en el que una IA supera a los humanos

new_results_gameplay

Pocos juegos son más simples en principio que capturar la bandera. Dos equipos tienen cada uno un marcador ubicado en sus respectivas bases, y el objetivo es capturar el marcador del otro equipo y devolverlo de forma segura a su base. Sin embargo, algo que los seres humanos entienden fácilmente no siempre es captado tan rápidamente por las máquinas. Pero en un artículo publicado esta semana en la revista Science, aproximadamente un año después de la preimpresión, los investigadores de DeepMind, la filial con sede en Londres de la empresa matriz de Google Alphabet, describen un sistema capaz no solo de aprender a jugar a capturar la bandera en Id Software’s Quake III Arena, sino también de idear estrategias totalmente novedosas basadas en equipos comparables a las humanas.

Jaderberg, un científico investigador de DeepMind, explicó que la técnica clave en juego es el aprendizaje por refuerzo, que emplea recompensas para impulsar las políticas de software hacia los objetivos. Los agentes apodados ingeniosamente como For The Win (FTW) aprenden directamente de los píxeles en pantalla utilizando una red neuronal convolucional, una colección de neuronas organizadas en capas modeladas a partir de la corteza visual. Los datos obtenidos se pasan a dos redes de memoria de largo-corto plazo (LSTM) recurrentes, o redes capaces de aprender dependencias en el tiempo. Una está en una escala de tiempo rápida y la otra opera en una escala de tiempo lenta, y ambas están acoplados por un objetivo variacional, un tipo de memoria que usan conjuntamente para hacer predicciones sobre el mundo del juego y generar acciones a través de un controlador de juego simulado.

Los agentes FTW fueron entrenados en una población de 30 en total, lo que les proporcionó una gama de compañeros de equipo y oponentes con los que jugar, y se seleccionaron niveles al azar para evitar que los agentes memorizaran los mapas. Cada agente aprendió su propio tipo de recompensa, lo que les permitió generar sus propios objetivos internos (como capturar la bandera). En total, los agentes jugaron individualmente alrededor de 450,000 juegos de captura de la bandera, el equivalente a aproximadamente cuatro años de experiencia.

En un torneo que involucró a 40 jugadores humanos, en los cuales los humanos y los agentes se combinaron al azar en los juegos (tanto como oponentes como compañeros de equipo), los agentes FTW fueron más competentes que los métodos estándar de referencia. De hecho, superaron sustancialmente la tasa de victorias de los jugadores humanos, con una calificación de Elo (que corresponde a la probabilidad de ganar) de 1.600, en comparación con los 1.300 de jugadores humanos “fuertes”, y 1.050 de jugadores humanos promedio. Los agentes tuvieron tiempos de reacción rápidos, como era de esperar, lo que les dio una ligera ventaja en los experimentos iniciales. Pero incluso cuando su precisión y tiempo de reacción se redujeron a través de un retraso incorporado de un cuarto de segundo (257 milisegundos), aún superaron a sus contrapartes humanas, con jugadores humanos fuertes y jugadores intermedios ganando solo el 21% y el 12% del tiempo, respectivamente.

“Creo que una de las cosas a tener en cuenta es que estas ideas, estos dominios multiagentes, son excepcionalmente poderosos, y este artículo nos lo demuestra”, dijo Jaderberg. “Esto es lo que estamos aprendiendo cada vez mejor en los últimos años: cómo construir un problema de aprendizaje por refuerzo. El aprendizaje por refuerzo realmente brilla en nuevas situaciones”.

DeepMind’s AI can defeat human players in Quake III Arena’s Capture the Flag mode.

 

Aprendizaje Automático para hacer que un robot canino sea más rápido y ágil.

Un equipo de investigadores del Robotic Systems Lab en Suiza y del Intelligent Systems Lab en Alemania y los EE. UU han encontrado una manera de aplicar el aprendizaje por refuerzo a la robótica para otorgarle a tales máquinas mayores habilidades. En su artículo publicado en la revista Science Robotics, el grupo describe cómo aplicaron el aprendizaje automático a la robótica y al hacerlo le dieron más agilidad y velocidad a un robot parecido a un canino.

El aprendizaje por refuerzos funciona al establecer objetivos para un sistema y luego darle un medio para probar maneras de alcanzar esos objetivos, mejorando continuamente a medida que se alcanzan los puntos de referencia. Las pruebas se realizan una y otra vez, a veces miles de veces. Tales pruebas son difíciles con un robot tanto por los muchos factores involucrados (como todos los atributos involucrados en mantener el equilibrio) y por la enorme inversión de tiempo. Después de encontrar una manera de abordar el primer problema, los investigadores encontraron una forma de solucionar el segundo problema. En lugar de tener a ANYmal (un robot parecido a un perro) luchando a través de su régimen de aprendizaje en el mundo real, los investigadores crearon una versión virtual del robot que podía ejecutarse en una simple computadora de escritorio.

Los investigadores señalan que permitir que el robot aprendiera mientras estaba en su encarnación virtual era aproximadamente 1000 veces más rápido de lo que habría sido en el mundo real. Dejaron que el perro virtual se entrenara por hasta 11 horas y luego descargaron los resultados al robot físico. Las pruebas mostraron que el enfoque funcionó muy bien. La nueva y mejorada versión de ANYmal era más ágil (capaz de evitar que un humano lo pateara y podía enderezarse si se caía) y corría aproximadamente un 25 por ciento más rápido.

ANYmal lleva baterías para más de 2 horas de autonomía y diferentes equipos sensoriales, como cámaras ópticas y térmicas, micrófonos, sensores de detección de gases e iluminación activa. Con esta carga útil, la máquina pesa menos de 30 kg y, por lo tanto, puede ser transportada y desplegada fácilmente por un solo operador.

 

Using a machine learning technique to make a canine-like robot more agile and faster.

 

AlphaZero: arrojando nueva luz sobre los grandes juegos de ajedrez, shogi y Go

replacement2520AZ2520blog2520bar2520graph25207252012252018.width-1500

A fines de 2017, DeepMind presentó a AlphaZero, un sistema único que aprendió desde cero cómo dominar los juegos de ajedrez, shogi (ajedrez japonés) y Go, superando a un programa campeón del mundo en cada caso. Hoy ofrecen la evaluación completa de AlphaZero, que confirma y actualiza los resultados preliminares, y describe cómo puede aprender rápidamente cada juego, a pesar de comenzar su entrenamiento de forma aleatoria, sin conocimiento incorporado del dominio, y con solo las reglas básicas del juego.

Esta capacidad de aprender cada juego de cero, sin restricciones por las normas del juego humano, da como resultado un estilo de juego distintivo, poco ortodoxo, a la vez que creativo y dinámico. El Gran Maestro de Ajedrez Matthew Sadler y la Maestra Internacional de Mujeres Natasha Regan, que analizaron miles de juegos de ajedrez de AlphaZero para su próximo libro Game Changer, dicen que su estilo es diferente a cualquier motor de ajedrez tradicional. “Es como descubrir los cuadernos secretos de algún gran jugador del pasado”, dice Matthew.

Los motores de ajedrez tradicionales, incluido el campeón mundial de ajedrez por computadora Stockfish y el innovador Deep Blue de IBM, se basan en miles de reglas y heurísticas creadas por fuertes jugadores humanos que intentan explicar cada eventualidad en un juego. Los programas de Shogi también son específicos del juego, y utilizan motores de búsqueda y algoritmos similares a los de los programas de ajedrez. AlphaZero adopta un enfoque totalmente diferente, reemplazando estas reglas hechas a mano con una red neuronal profunda y algoritmos de propósito general que no saben nada sobre el juego más allá de las reglas básicas.

Para aprender cada juego, una red neuronal no entrenada juega millones de juegos contra sí misma a través de un proceso de prueba y error llamado aprendizaje por refuerzo. Al principio, se juega de forma completamente aleatoria, pero con el tiempo el sistema aprende de las ganancias, las pérdidas y los empates para ajustar los parámetros de la red neuronal, lo que hace que sea más probable que elija movimientos ventajosos en el futuro. La cantidad de entrenamiento que necesita la red depende del estilo y la complejidad del juego: aproximadamente 9 horas para el ajedrez, 12 horas para el shogi y 13 días para el Go.

La red entrenada se usa para guiar un algoritmo de búsqueda, conocido como Búsqueda de árboles de Monte-Carlo (MCTS), para seleccionar los movimientos más prometedores en los juegos. Para cada movimiento, AlphaZero busca solo una pequeña fracción de las posiciones consideradas por los motores de ajedrez tradicionales. En Ajedrez, por ejemplo, busca solo 60 mil posiciones por segundo en el ajedrez, en comparación con aproximadamente 60 millones para Stockfish.

Los sistemas completamente entrenados se probaron contra los motores más fuertes hechos a mano para el ajedrez (Stockfish) y el shogi (Elmo), junto con el anterior sistema autodidacta AlphaGo Zero, el jugador Go más fuerte conocido. En cada evaluación, AlphaZero venció convincentemente a su oponente.

Sin embargo, fue el estilo en el que AlphaZero juega estos juegos que los jugadores pueden encontrar más fascinantes. En Ajedrez, por ejemplo, AlphaZero descubrió y jugó de manera independiente estrategias humanas comunes durante su entrenamiento de juego propio, como aperturas, seguridad de rey, y estructura de peones. Sin embargo, al ser autodidacta y, por lo tanto, no estar limitado por la sabiduría convencional sobre el juego, también desarrolló sus propias intuiciones y estrategias, agregando un conjunto nuevo y expansivo de ideas emocionantes y novedosas que aumentan siglos de pensamiento sobre la estrategia del ajedrez.

La capacidad de AlphaZero para dominar tres juegos complejos diferentes, y potencialmente cualquier juego de información perfecto, es un paso importante para crear un único sistema capaz de resolver un amplio rango de problemas del mundo real, y demuestra que un solo algoritmo puede aprender a descubrir nuevos conocimientos en una variedad de configuraciones.

 

> AlphaZero: Shedding new light on the grand games of chess, shogi and Go.

IBM explora la intersección entre la IA, la ética y el Pac-Man

reinflearn-001

IBM utiliza el término Trusted AI para cubrir cuestiones éticas relacionadas con la tecnología, así como cuestiones de seguridad y solidez general, que serán cada vez más importantes a medida que pidamos al software que tome decisiones con un impacto potencialmente profundo en los seres humanos. A medida que desarrolla los sistemas de inteligencia artificial, IBM está investigando cuestiones acerca de “cómo enseñar nuestras normas éticas de comportamiento y moralidad, pero también cómo enseñarles a ser justos y a comunicarse y explicar sus decisiones”, dice Saska Mojsilovic, de IBM.

Todavía hay una gran ventaja al permitir que un algoritmo inteligente se enseñe a sí mismo a resolver problemas. “No se trata de decirle a la máquina qué hacer”, dice el miembro del personal de investigación Nicholas Mattei. “Se trata de dejar que decida qué hacer, porque realmente desea obtener esa creatividad… [La IA] va a probar cosas que una persona tal vez no pensaría ”. Pero mientras el software piense menos como un ser humano, más difícil será anticiparse a lo que podría salir mal, lo que significa que no puede simplemente programarse una lista de cosas que no se quiere que haga. “Hay muchas reglas que quizás no recuerdes hasta que ves que suceden de una manera que no esperabas.”, dice Mattei.

Mientras los investigadores de IBM pensaban en el desafío de hacer que el software siguiera pautas éticas, decidieron realizar un experimento a nivel básico como un proyecto para algunos pasantes de verano. ¿Qué pasaría si intentas que una IA juegue a Pac-Man sin comerse fantasmas? No declarando que ese es el objetivo explícito, sino alimentándolo con datos de juegos jugados por humanos que jugaron con esa estrategia. Esa capacitación formaría parte de una estrategia especial, que también incluía las técnicas de juego autodidacta y sin restricciones del software, lo que le da un estilo de juego influenciado por inteligencia humana y puramente sintética.

El sistema combina tres componentes principales: el aprendizaje por refuerzo inverso le muestra al agente cómo se quiere que funcione; después el aprendizaje por refuerzo directo le permite al agente aprender a maximizar su puntaje; y finalmente un orquestador contextual permite al agente combinar estas dos políticas de manera compleja al tiempo que indica qué objetivo está impulsando el comportamiento en cada paso.

El enfoque y los resultados se detallan en nuestro artículo  Interpretable Multi-Objective Reinforcement Learning through Policy Orchestration. El proyecto forma parte de la iniciativa Ciencia para el Bien Social de IBM, que enfoca la ciencia y la tecnología para enfrentar los desafíos de la sociedad. El trabajo futuro podría aplicar esta técnica a dominios aún más complejos, como los videojuegos más realistas y, finalmente, a escenarios del mundo real.

 

> IBM explores the intersection of AI, ethics–and Pac-Man.

OpenAI creó jugadores robot que pueden funcionar en equipo con una precisión inhumana

openai-beats-dota-2-pros-elon-musk-warns-ai-risk-scarier-n-korea

OpenAI anunció que sus bots de IA más nuevos pueden defenderse como un equipo de cinco contra jugadores humanos en Dota 2, un juego multijugador popular en e-sports por su complejidad y necesidad de trabajo en equipo. El laboratorio de investigación de IA busca llevar a los bots a los campeonatos de Dota 2 en agosto para competir contra los profesionales.

Dota 2 es un juego desafiante para una IA simplemente por la cantidad de decisiones que los jugadores tienen que hacer. Mientras que el ajedrez puede terminar en menos de 40 jugadas, o el GO en menos de 150, los robots de Dota 2 de OpenAI hacen 20,000 movimientos en el transcurso de un juego de 45 minutos. Si bien OpenAI mostró el año pasado que los bots podrían ir uno contra uno contra un profesional humano en un fragmento curado del juego, la compañía no estaba del todo segura de poder escalar hasta cinco contra cinco.

Pero el equipo de investigación no acredita este avance a una nueva técnica sino una idea simple. “Mientras la IA pueda explorar aprenderá, dado el tiempo suficiente”, dijo Greg Brockman, director de tecnología de OpenAI.

Los bots se entrenan desde el autoaprendizaje, es decir, dos bots jugando entre ellos y aprendiendo de los éxitos y fracasos de cada bando. Mediante el uso de una enorme pila de 256 unidades de procesamiento de gráficos (GPU) con 128,000 núcleos de procesamiento, los investigadores pudieron acelerar la jugabilidad de la IA para que aprendieran el equivalente a 180 años de juego por cada día que entrenaron. Una versión de los robots se entrenó durante cuatro semanas, lo que significa que jugaron más de 5.000 años del juego.

“Simplemente seguimos esperando que la magia se agote. Seguimos esperando chocar contra una pared, y pero nunca parecemos llegar a la pared “, dijo Brockman, refiriéndose a la disminución de los retornos en el entrenamiento con más poder de cómputo.

En este momento, los bots están restringidos a jugar ciertos personajes, no pueden usar ciertos elementos que permiten a los jugadores ver más del mapa o cualquier cosa que les otorgue invisibilidad, o convocar a otras unidades para ayudarlos a luchar con hechizos. OpenAI espera eliminar esas restricciones por parte de la competencia en agosto.

 

> OpenAI built gaming bots that can work as a team with inhuman precision.

DeepMind puede renderizar objetos 3D a partir de imágenes 2D

deepmind-001

DeepMind presentó hoy un nuevo tipo de algoritmo de visión por computadora que puede generar modelos 3D de una escena a partir de instantáneas en 2D: la red de consulta generativa (GQN).

La GQN, cuyos detalles fueron publicados en Science, puede “imaginar” y representar escenas desde cualquier ángulo sin supervisión o entrenamiento humano. Dadas solo unas pocas imágenes de una escena -una habitación empapelada con una esfera coloreada en el suelo, por ejemplo- el algoritmo puede representar lados opuestos e invisibles de los objetos y generar una vista 3D desde múltiples puntos de vista, incluso teniendo en cuenta cosas como la iluminación en las sombras.

Su objetivo es replicar la forma en que el cerebro humano aprende sobre su entorno y las interacciones físicas entre los objetos, y elimina la necesidad de que los investigadores anoten imágenes en conjuntos de datos. La mayoría de los sistemas de reconocimiento visual requieren que un ser humano etiquete cada aspecto de cada objeto en cada escena en un conjunto de datos, un proceso laborioso y costoso.

“Al igual que los bebés y los animales, el GQN aprende tratando de dar sentido a sus observaciones del mundo que lo rodea”, escribieron los investigadores de DeepMind en una publicación de blog. “Al hacerlo, el GQN aprende sobre escenas plausibles y sus propiedades geométricas, sin ningún etiquetado humano del contenido de las escenas… [T] él GQN aprende sobre escenas plausibles y sus propiedades geométricas… sin ningún etiquetado humano de los contenidos de las escenas. “

El sistema de dos partes se compone de una red de representación y una red de generación. El primero toma los datos de entrada y los traduce en una representación matemática (un vector) que describe la escena, y el segundo imágenes de la escena. Para entrenar el sistema, los investigadores de DeepMind alimentaron las imágenes GQN de escenas desde diferentes ángulos, que son usados para aprender sobre las texturas, los colores y la iluminación de los objetos de forma independiente entre sí y las relaciones espaciales entre ellos. Luego predijo cómo se verían esos objetos a un lado o por detrás (ver video).

El sistema sin embargo tiene sus limitaciones, solo se ha probado en escenas simples que contienen una pequeña cantidad de objetos y no es lo suficientemente sofisticado como para generar modelos 3D complejos. Pero DeepMind está desarrollando sistemas más robustos que requieren menos potencia de procesamiento y un corpus más pequeño, así como marcos que pueden procesar imágenes de mayor resolución.

 

> Neural scene representation and rendering.

Google entrena a una IA para escribir artículos de Wikipedia

summary-001

Un equipo dentro de Google Brain, el laboratorio de investigación de aprendizaje de máquinas crack del gigante de la web, ha enseñado a un software a generar artículos al estilo Wikipedia al resumir información en páginas web… con diversos grados de éxito.

Un artículo, publicado el mes pasado y recién aceptado para la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, por sus siglas en inglés) de este año, en abril, describe cuán difícil es en realidad resumir un texto. Algunas compañías lo han tenido. Salesforce entrenó una red neuronal recurrente con aprendizaje por refuerzo a tomar información y volver a decirla en pocas palabras, y los resultados no fueron malos. Sin embargo, las oraciones generadas por ese modelo son simples y cortas; carecen del estilo creativo y el ritmo del texto escrito por humanos. El último esfuerzo de Google Brain es ligeramente mejor: las oraciones son más largas y parecen más naturales.

El modelo funciona tomando las diez mejores páginas web de un tema determinado, excluyendo la entrada de Wikipedia, o compilando información de los enlaces en la sección de referencias de un artículo de Wikipedia. La mayoría de las páginas seleccionadas se utilizan para el entrenamiento, y algunas se guardan para desarrollar y probar el sistema. Los párrafos de cada página se clasifican y el texto de todas las páginas se agrega para crear un documento largo. El texto está codificado y acortado, dividiéndolo en 32,000 palabras individuales y utilizado como entrada. Esto se alimenta en un modelo abstracto, donde las oraciones largas en la entrada se acortan. Es un truco ingenioso utilizado para crear y resumir texto. Las oraciones generadas se toman de la fase de extracción anterior y no se construyen desde cero, lo que explica por qué la estructura es bastante repetitiva y rígida.

Mohammad Saleh, coautor del artículo y un ingeniero de software en el equipo de Google AI, le dijo a The Register: “La fase de extracción es un cuello de botella que determina qué partes de la entrada serán alimentadas a la etapa de abstracción. Idealmente, nos gustaría pasar toda la información de los documentos de referencia.”

Todavía estamos muy lejos de la generación o resumen de texto efectivo. Y aunque el proyecto Google Brain es bastante interesante, probablemente sería imprudente usar un sistema como este para generar automáticamente entradas de Wikipedia. Por ahora, de todos modos.

 

> Google trains AI to write Wikipedia articles.