Quake III Arena es el último juego en el que una IA supera a los humanos

new_results_gameplay

Pocos juegos son más simples en principio que capturar la bandera. Dos equipos tienen cada uno un marcador ubicado en sus respectivas bases, y el objetivo es capturar el marcador del otro equipo y devolverlo de forma segura a su base. Sin embargo, algo que los seres humanos entienden fácilmente no siempre es captado tan rápidamente por las máquinas. Pero en un artículo publicado esta semana en la revista Science, aproximadamente un año después de la preimpresión, los investigadores de DeepMind, la filial con sede en Londres de la empresa matriz de Google Alphabet, describen un sistema capaz no solo de aprender a jugar a capturar la bandera en Id Software’s Quake III Arena, sino también de idear estrategias totalmente novedosas basadas en equipos comparables a las humanas.

Jaderberg, un científico investigador de DeepMind, explicó que la técnica clave en juego es el aprendizaje por refuerzo, que emplea recompensas para impulsar las políticas de software hacia los objetivos. Los agentes apodados ingeniosamente como For The Win (FTW) aprenden directamente de los píxeles en pantalla utilizando una red neuronal convolucional, una colección de neuronas organizadas en capas modeladas a partir de la corteza visual. Los datos obtenidos se pasan a dos redes de memoria de largo-corto plazo (LSTM) recurrentes, o redes capaces de aprender dependencias en el tiempo. Una está en una escala de tiempo rápida y la otra opera en una escala de tiempo lenta, y ambas están acoplados por un objetivo variacional, un tipo de memoria que usan conjuntamente para hacer predicciones sobre el mundo del juego y generar acciones a través de un controlador de juego simulado.

Los agentes FTW fueron entrenados en una población de 30 en total, lo que les proporcionó una gama de compañeros de equipo y oponentes con los que jugar, y se seleccionaron niveles al azar para evitar que los agentes memorizaran los mapas. Cada agente aprendió su propio tipo de recompensa, lo que les permitió generar sus propios objetivos internos (como capturar la bandera). En total, los agentes jugaron individualmente alrededor de 450,000 juegos de captura de la bandera, el equivalente a aproximadamente cuatro años de experiencia.

En un torneo que involucró a 40 jugadores humanos, en los cuales los humanos y los agentes se combinaron al azar en los juegos (tanto como oponentes como compañeros de equipo), los agentes FTW fueron más competentes que los métodos estándar de referencia. De hecho, superaron sustancialmente la tasa de victorias de los jugadores humanos, con una calificación de Elo (que corresponde a la probabilidad de ganar) de 1.600, en comparación con los 1.300 de jugadores humanos “fuertes”, y 1.050 de jugadores humanos promedio. Los agentes tuvieron tiempos de reacción rápidos, como era de esperar, lo que les dio una ligera ventaja en los experimentos iniciales. Pero incluso cuando su precisión y tiempo de reacción se redujeron a través de un retraso incorporado de un cuarto de segundo (257 milisegundos), aún superaron a sus contrapartes humanas, con jugadores humanos fuertes y jugadores intermedios ganando solo el 21% y el 12% del tiempo, respectivamente.

“Creo que una de las cosas a tener en cuenta es que estas ideas, estos dominios multiagentes, son excepcionalmente poderosos, y este artículo nos lo demuestra”, dijo Jaderberg. “Esto es lo que estamos aprendiendo cada vez mejor en los últimos años: cómo construir un problema de aprendizaje por refuerzo. El aprendizaje por refuerzo realmente brilla en nuevas situaciones”.

DeepMind’s AI can defeat human players in Quake III Arena’s Capture the Flag mode.

 

Anuncios

Un sistema inteligente para realizar tareas del mundo real por teléfono

rnn_big

Un objetivo desde hace mucho en la interacción humano-computadora ha sido permitir a las personas tener una conversación natural con las computadoras, como lo harían entre sí. En los últimos años, hemos sido testigos de una revolución en la capacidad de las computadoras para comprender y generar un habla natural, especialmente con la aplicación de redes neuronales profundas. Aún así, incluso con los sistemas más modernos de hoy en día, a menudo es frustrante tener que hablar con voces computarizadas que no entienden el lenguaje natural. En particular, los sistemas telefónicos automatizados todavía están luchando para reconocer palabras y comandos simples. No se involucran en un flujo de conversación y obligan a la persona que llama a ajustarse al sistema en lugar de que el sistema se ajuste a la persona que llama.

Recientemente Google anunció Duplex, una nueva tecnología para llevar a cabo conversaciones naturales para realizar tareas del “mundo real” por teléfono. La tecnología está dirigida a completar tareas específicas, como la programación de ciertos tipos de citas. Para tales tareas, el sistema hace que la experiencia de conversación sea lo más natural posible, permitiendo que las personas hablen normalmente, como lo harían con otra persona, sin tener que adaptarse a una máquina. Uno de los puntos clave de la investigación fue restringir Duplex a dominios cerrados, que son lo suficientemente estrechos como para explorar de manera extensa. Duplex solo puede llevar a cabo conversaciones naturales después de haber sido entrenado profundamente en tales dominios. No puede llevar a cabo conversaciones generales.

En el núcleo de Duplex se encuentra una red neuronal recurrente (RNN) diseñada para hacer frente a estos desafíos, construida utilizando TensorFlow Extended (TFX). Para obtener su alta precisión, entrenaron la RNN de Duplex en un corpus de datos de conversación telefónica anonimizados. La red utiliza la salida de la tecnología de reconocimiento automático de voz (ASR) de Google, así como las características del audio, el historial de la conversación, los parámetros de la conversación (por ejemplo, el servicio deseado para una cita o la hora actual) y más. Capacitaron al modelo de comprensión por separado para cada tarea, pero aprovecharon el corpus compartido en las tareas. Finalmente, utilizaron la optimización de hiperparámetros de TFX para mejorar aún más el modelo.

Además utilizaron una combinación de un motor concatenativo de texto a voz (TTS) y un motor de síntesis TTS (usando Tacotron y WaveNet) para controlar la entonación dependiendo de las circunstancias. El sistema también suena más natural gracias a la incorporación de disfluencias del habla (por ejemplo, “hmm” y “uh”). Estos se agregan cuando se combinan unidades de sonido muy diferentes en el TTS concatenativo o cuando se agregan esperas sintéticas, lo que permite que el sistema indique de manera natural que todavía está procesando. (Esto es lo que hacen las personas mientras están pensando). En estudios con usuarios, se encontró que las conversaciones que usan estas disfluencias suenan más familiares y naturales.

 

> An AI System for Accomplishing Real World Tasks Over the Phone.

Google entrena a una IA para escribir artículos de Wikipedia

summary-001

Un equipo dentro de Google Brain, el laboratorio de investigación de aprendizaje de máquinas crack del gigante de la web, ha enseñado a un software a generar artículos al estilo Wikipedia al resumir información en páginas web… con diversos grados de éxito.

Un artículo, publicado el mes pasado y recién aceptado para la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, por sus siglas en inglés) de este año, en abril, describe cuán difícil es en realidad resumir un texto. Algunas compañías lo han tenido. Salesforce entrenó una red neuronal recurrente con aprendizaje por refuerzo a tomar información y volver a decirla en pocas palabras, y los resultados no fueron malos. Sin embargo, las oraciones generadas por ese modelo son simples y cortas; carecen del estilo creativo y el ritmo del texto escrito por humanos. El último esfuerzo de Google Brain es ligeramente mejor: las oraciones son más largas y parecen más naturales.

El modelo funciona tomando las diez mejores páginas web de un tema determinado, excluyendo la entrada de Wikipedia, o compilando información de los enlaces en la sección de referencias de un artículo de Wikipedia. La mayoría de las páginas seleccionadas se utilizan para el entrenamiento, y algunas se guardan para desarrollar y probar el sistema. Los párrafos de cada página se clasifican y el texto de todas las páginas se agrega para crear un documento largo. El texto está codificado y acortado, dividiéndolo en 32,000 palabras individuales y utilizado como entrada. Esto se alimenta en un modelo abstracto, donde las oraciones largas en la entrada se acortan. Es un truco ingenioso utilizado para crear y resumir texto. Las oraciones generadas se toman de la fase de extracción anterior y no se construyen desde cero, lo que explica por qué la estructura es bastante repetitiva y rígida.

Mohammad Saleh, coautor del artículo y un ingeniero de software en el equipo de Google AI, le dijo a The Register: “La fase de extracción es un cuello de botella que determina qué partes de la entrada serán alimentadas a la etapa de abstracción. Idealmente, nos gustaría pasar toda la información de los documentos de referencia.”

Todavía estamos muy lejos de la generación o resumen de texto efectivo. Y aunque el proyecto Google Brain es bastante interesante, probablemente sería imprudente usar un sistema como este para generar automáticamente entradas de Wikipedia. Por ahora, de todos modos.

 

> Google trains AI to write Wikipedia articles.