Quake III Arena es el último juego en el que una IA supera a los humanos

new_results_gameplay

Pocos juegos son más simples en principio que capturar la bandera. Dos equipos tienen cada uno un marcador ubicado en sus respectivas bases, y el objetivo es capturar el marcador del otro equipo y devolverlo de forma segura a su base. Sin embargo, algo que los seres humanos entienden fácilmente no siempre es captado tan rápidamente por las máquinas. Pero en un artículo publicado esta semana en la revista Science, aproximadamente un año después de la preimpresión, los investigadores de DeepMind, la filial con sede en Londres de la empresa matriz de Google Alphabet, describen un sistema capaz no solo de aprender a jugar a capturar la bandera en Id Software’s Quake III Arena, sino también de idear estrategias totalmente novedosas basadas en equipos comparables a las humanas.

Jaderberg, un científico investigador de DeepMind, explicó que la técnica clave en juego es el aprendizaje por refuerzo, que emplea recompensas para impulsar las políticas de software hacia los objetivos. Los agentes apodados ingeniosamente como For The Win (FTW) aprenden directamente de los píxeles en pantalla utilizando una red neuronal convolucional, una colección de neuronas organizadas en capas modeladas a partir de la corteza visual. Los datos obtenidos se pasan a dos redes de memoria de largo-corto plazo (LSTM) recurrentes, o redes capaces de aprender dependencias en el tiempo. Una está en una escala de tiempo rápida y la otra opera en una escala de tiempo lenta, y ambas están acoplados por un objetivo variacional, un tipo de memoria que usan conjuntamente para hacer predicciones sobre el mundo del juego y generar acciones a través de un controlador de juego simulado.

Los agentes FTW fueron entrenados en una población de 30 en total, lo que les proporcionó una gama de compañeros de equipo y oponentes con los que jugar, y se seleccionaron niveles al azar para evitar que los agentes memorizaran los mapas. Cada agente aprendió su propio tipo de recompensa, lo que les permitió generar sus propios objetivos internos (como capturar la bandera). En total, los agentes jugaron individualmente alrededor de 450,000 juegos de captura de la bandera, el equivalente a aproximadamente cuatro años de experiencia.

En un torneo que involucró a 40 jugadores humanos, en los cuales los humanos y los agentes se combinaron al azar en los juegos (tanto como oponentes como compañeros de equipo), los agentes FTW fueron más competentes que los métodos estándar de referencia. De hecho, superaron sustancialmente la tasa de victorias de los jugadores humanos, con una calificación de Elo (que corresponde a la probabilidad de ganar) de 1.600, en comparación con los 1.300 de jugadores humanos “fuertes”, y 1.050 de jugadores humanos promedio. Los agentes tuvieron tiempos de reacción rápidos, como era de esperar, lo que les dio una ligera ventaja en los experimentos iniciales. Pero incluso cuando su precisión y tiempo de reacción se redujeron a través de un retraso incorporado de un cuarto de segundo (257 milisegundos), aún superaron a sus contrapartes humanas, con jugadores humanos fuertes y jugadores intermedios ganando solo el 21% y el 12% del tiempo, respectivamente.

“Creo que una de las cosas a tener en cuenta es que estas ideas, estos dominios multiagentes, son excepcionalmente poderosos, y este artículo nos lo demuestra”, dijo Jaderberg. “Esto es lo que estamos aprendiendo cada vez mejor en los últimos años: cómo construir un problema de aprendizaje por refuerzo. El aprendizaje por refuerzo realmente brilla en nuevas situaciones”.

DeepMind’s AI can defeat human players in Quake III Arena’s Capture the Flag mode.

 

Algoritmos de aprendizaje profundo identifican estructuras en células vivas

nihms-1501928-f0001

Para los biólogos celulares, la microscopía de fluorescencia es una herramienta invaluable. Puede ayudar a los científicos a diferenciar estructuras subcelulares en imágenes microscópicas impenetrables. Pero esta técnica tiene sus inconvenientes. Hay límites en el número de etiquetas fluorescentes que se pueden introducir en una célula. El ingeniero biomédico Greg Johnson, del Allen Institute for Cell Science en Seattle, quería desarrollar un método para identificar los componentes de una célula viva en imágenes tomadas con microscopía de campo claro. Esta técnica es más sencilla y económica que la microscopía fluorescente, pero tiene una gran desventaja: produce imágenes que aparecen solo en tonos de gris, lo que hace que las estructuras internas de una célula sean difíciles de descifrar. Así que los científicos decidieron crear un algoritmo que pudiera combinar los beneficios de ambos métodos al aprender cómo detectar y etiquetar estructuras celulares de la forma en que pueden hacerlo las etiquetas fluorescentes, pero a partir de imágenes de campo claro.

Para hacer esto, el equipo recurrió al aprendizaje profundo, un enfoque de inteligencia artificial (IA) donde los algoritmos aprenden a identificar patrones en conjuntos de datos. Entrenaron redes neuronales convolucionales, un enfoque de aprendizaje profundo que normalmente se usa para analizar y clasificar imágenes, para identificar similitudes entre las imágenes de microscopía de campo claro y fluorescencia de varios componentes celulares, incluida la envoltura nuclear, la membrana celular y las mitocondrias. Después de comparar muchos pares de imágenes, el algoritmo fue capaz de predecir la ubicación de las estructuras que habrían etiquetado las etiquetas fluorescentes, pero en imágenes de campo claro en 3D de células vivas. Los investigadores encontraron que la herramienta era muy precisa: sus etiquetas predichas estaban altamente correlacionadas con las etiquetas fluorescentes reales para muchos componentes celulares. Johnson señala que una gran ventaja del método de su equipo es que, contrariamente a la creencia común de que los algoritmos de aprendizaje profundo requieren miles de imágenes para aprender, esta herramienta podría entrenarse con solo docenas de ejemplos.

El equipo ahora está investigando algunas aplicaciones potenciales de la técnica. Además de poder realizar estudios de imágenes más rápidos y baratos, la herramienta podría aplicarse en patología para ayudar a identificar células enfermas o para identificar rápidamente cómo cambian las estructuras celulares en los estados enfermos. Las técnicas que aplican el aprendizaje profundo al análisis de imágenes podrían ser útiles donde se use un microscopio o un telescopio. Este último estudio es “sólo la punta del iceberg”.

 

Deep Learning Algorithms Identify Structures in Living Cells.

 

La IA de Affectiva oye tu ira en 1.2 segundos.

emodet-002

Alexa de Amazon puede detectar el habla susurrada, así es como sabe cuándo susurrar. Pero ¿qué pasa con la inteligencia artificial que es capaz de percibir la frustración? La red neuronal de Affectiva del MIT Media Lab, SoundNet, puede clasificar la ira en datos de audio en tan solo 1,2 segundos, independientemente del idioma del hablante, igual que el tiempo que los humanos tardan en percibir la ira.

Los investigadores de Affectiva lo describen en un trabajo recientemente publicado. “Un problema importante en el aprovechamiento del poder de las redes de aprendizaje profundo para el reconocimiento de las emociones es la diferencia entre la gran cantidad de datos requeridos por las redes profundas y el pequeño tamaño de los conjuntos de datos de voz etiquetados con emociones”, escribieron los coautores del artículo. “Nuestro modelo de detección de ira entrenado mejora el rendimiento y generaliza bien en una variedad de conjuntos de datos emocionales actuados, provocados y naturales. Además, nuestro sistema propuesto tiene una baja latencia, adecuada para aplicaciones en tiempo real “.

SoundNet consiste en una red neuronal convolucional, un tipo de red neuronal comúnmente aplicada para analizar imágenes visuales, entrenada sobre un conjunto de datos de video. Para lograr que reconozca la ira en el habla, el equipo primero obtuvo una gran cantidad de datos de audio generales (dos millones de videos, o un poco más de un año) con el etiquetado producido por otro modelo. Luego, lo ajustaron con un conjunto de datos más pequeño, IEMOCAP, que contiene 12 horas de datos de emoción audiovisual anotados, que incluyen video, voz y transcripciones de texto. Para probar la generalización del modelo AI, el equipo evaluó su modelo entrenado en inglés sobre los datos de la emoción del habla en chino mandarín (el Corpus del habla afectiva del mandarín, o MASC). Informan que no solo se generalizó bien a los datos del habla en inglés, sino que fue efectivo en los datos chinos, aunque con una leve degradación en el rendimiento.

Finalmente dejan como trabajo futuro el aprovechar otros grandes conjuntos de datos disponibles públicamente, y  el entrenar sistemas de inteligencia artificial para tareas relacionadas con el habla, como reconocer otros tipos de emociones y estados afectivos.

 

Affectiva’s AI hears your anger in 1.2 seconds.

 

Los radioastrónomos utilizan cada vez más redes neuronales para filtrar grandes cantidades de datos

conv-frb

Hasta la fecha, los radioastrónomos han catalogado menos de 300 ráfagas rápidas de radio, misteriosas señales de banda ancha que se originan mucho más allá de la Vía Láctea. Casi un tercio de ellas, 72, para ser precisos, no fueron detectadas por los astrónomos en absoluto, sino que fueron descubiertas recientemente por un programa de inteligencia artificial (IA) entrenado para detectar estas señales, incluso ocultas debajo de fondos ruidosos.

La primera ráfaga rápida de radio grabada, o FRB, fue detectada por radioastrónomos en 2007, registrada en datos del 2001. Hoy en día, los algoritmos detectan FRB al filtrar cantidades masivas de datos a medida que ingresan. Sin embargo, aún los mejores algoritmos de la actualidad no pueden detectar cada FRB que llega a la Tierra.

Lo que sabemos es que los FRB provienen del espacio profundo y cada ráfaga dura solo unos pocos milisegundos. Tradicionalmente, los algoritmos los extraen de los datos identificando las señales cuadráticas asociadas con los FRB. Pero estas señales provienen de galaxias lejanas. “Debido a que estos pulsos viajan tan lejos, hay muchas complicaciones en camino”, dice Zhang del Berkeley SETI Research Center. Los pulsos se pueden distorsionar y deformar en el camino. E incluso cuando uno llega a la Tierra, nuestro propio planeta ruidoso puede ofuscar el pulso. Es por eso que tiene sentido entrenar una red neuronal convolucional para hojear los datos y encontrar las que los algoritmos tradicionales omitieron.

Incluso para darle a la IA la información suficiente para aprender a detectar esas señales en primer lugar el equipo generó alrededor de 100.000 pulsos FRB falsos. La estructura cuadrática simple de FRB hace que sea bastante fácil construir impulsos falsos para el entrenamiento. Luego, disfrazaron estas señales entre los datos del Telescopio Green Bank.

Como explica el equipo en su artículo, aceptado por The Astrophysical Journal, llevó 20 horas entrenar a la IA con esos pulsos falsos utilizando una GPU Nvidia Titan XP. Al final, la IA podría detectar el 88 por ciento de las señales de prueba falsas. Además, el 98 por ciento de las identificaciones que hizo la IA fueron en realidad señales plantadas, a diferencia de identificar erróneamente el ruido de fondo como un pulso FRB.

Al terminar la IA identificó 72 nuevos pulsos, mientras que un algoritmo tradicional que previamente había utilizado los mismos datos solo había encontrado 21. Curiosamente, los 93 pulsos provenían de FRB 121102, una fuente de FRB en algún lugar de una galaxia enana ubicada 3 mil millones de años luz de distancia y una rareza espacial entre las fuentes de FRB porque se repite, casi todos los demás pulsos de FRB son eventos puntuales. No está claro por qué FRB 121102 es una fuente repetitiva de pulsos.

How Breakthrough Listen Trained AI to Spot Elusive, Mysterious Radio Bursts.

Un clasificador de aprendizaje profundo identifica pacientes con insuficiencia cardíaca utilizando solo imágenes de diapositivas de tejido

cnnclas-001

Más de 26 millones de personas en todo el mundo sufren de insuficiencia cardíaca anualmente. Cuando no se puede identificar la causa de la insuficiencia cardíaca, la biopsia endomiocárdica (EMB) representa el estándar de oro para la evaluación de la enfermedad. Sin embargo, la interpretación manual de EMB tiene una alta variabilidad entre evaluadores. Las redes neuronales convolucionales profundas (CNN) se han aplicado con éxito para detectar cáncer, retinopatía diabética y lesiones dermatológicas a partir de imágenes. En este estudio, se desarrolla un clasificador CNN para detectar la insuficiencia cardíaca clínica a partir de imágenes de diapositivas completas teñidas con H&E de un total de 209 pacientes, 104 pacientes fueron utilizados para el entrenamiento y los 105 pacientes restantes para pruebas independientes. La CNN pudo identificar a los pacientes con insuficiencia cardíaca o patología severa con una sensibilidad del 99% y una especificidad del 94% en el conjunto de prueba, superando los enfoques convencionales de ingeniería funcional. Es importante destacar que la CNN superó a dos patólogos expertos en casi un 20%. Estos resultados sugieren que el análisis de aprendizaje profundo de EMB se puede utilizar para predecir el resultado en diagnósticos cardíacos.

 

> A deep-learning classifier identifies patients with clinical heart failure using whole-slide images of H&E tissue.

Ejemplos adversos que engañan tanto a la visión humana como a la artificial

adevrs-001

La transferencia de ejemplos adversos ocurre cuando los ejemplos antagónicos que engañan a un modelo también engañan a otro con una arquitectura, conjunto de entrenamiento, o algoritmo de entrenamiento diferentes. Esta técnica ha demostrado tener éxito en estudios recientes y nos lleva a preguntarnos si es posible la transferencia de ataques adversos al cerebro humano.

Ha habido estudios que demuestran similitudes entre la visión biológica y artificial. Por ejemplo se han descubierto similitudes en la representación y el comportamiento de las redes neuronales convolucionales profundas (que típicamente subyacen a los modelos de visión por computadora) y el sistema visual de los primates. Los estudios en transferencia de estilo también han demostrado que las capas ocultas en CNN capturan ideas abstractas de estilo artístico que son intuitivas para los humanos.

Para crear un modelo de visión artificial que haga que los humanos clasifiquen incorrectamente las imágenes, debemos comprender y emular el sistema visual humano. Cuando vemos un objeto, la luz de diferentes partes de una imagen cae en diferentes partes de nuestra retina. Algunas partes de la retina pueden procesar las señales de luz con mayor claridad. Para aplicar este concepto a un modelo de visión por computadora, la resolución de las imágenes se ajusta en función de la geometría entre un observador humano y una imagen durante el tiempo de prueba. Después se generan ejemplos adversarios utilizando el ataque dirigido iterativo. El modelo atacado es un conjunto de diez modelos de CNN formados en ImageNet. Para fomentar una alta tasa de transferencia, solo se conservan los ejemplos antagónicos que logran engañar al menos a 7 de 10 modelos.

Durante el tiempo de prueba, se les pide a los participantes humanos que clasifiquen dentro de un marco de tiempo limitado los ejemplos acusatorios generados. Se informa que los humanos pueden clasificar las imágenes con perturbaciones adversas con una tasa de precisión del 65%.

Si se ha encontrado un modelo que podría engañar a las Redes Neuronales Convolucionales (CNN) y a los humanos, ¿esto se debe a que existe una similitud entre la CNN y el cerebro humano? ¿O deberíamos empezar por cuestionar la objetividad de las tareas de visión por computadora? ¿Es una imagen de, por ejemplo, un gato adversarialmente perturbado para parecerse a un perro objetivamente un perro? ¿O es objetivamente un gato, pero nos han engañado al creer que es un perro? Podríamos investigar más sobre esto estudiando qué propiedades de los ejemplos adversarios son responsables de engañar a los humanos, y cómo estas propiedades se relacionan con el mundo físico.

 

> Adversarial Examples that Fool both Human and Computer Vision.

Un nuevo modelo de redes convolucionales llena espacios en blanco en las fotos

20180214aiphoto_article_main_image

La tecnología fue desarrollada por un equipo dirigido por Hiroshi Ishikawa, profesor de la Universidad Waseda de Japón. Utiliza redes neuronales convolucionales, un tipo de aprendizaje profundo, para predecir partes faltantes de imágenes. La tecnología podría usarse en aplicaciones de edición de fotos. También se puede usar para generar imágenes tridimensionales a partir de imágenes bidimensionales reales.

El equipo al principio preparó unos 8 millones de imágenes de paisajes reales, rostros humanos y otros temas. Usando un software especial, el equipo generó numerosas versiones para cada imagen, añadiendo al azar espacios en blanco artificiales de varias formas, tamaños y posiciones. Con todos los datos, el modelo tardó tres meses en aprender a predecir los espacios en blanco para que pudiera llenarlos y hacer que las imágenes resultantes parezcan idénticas a los originales.

El algoritmo de aprendizaje del modelo primero predice y rellena espacios en blanco. Luego evalúa qué tan consistente es la parte añadida con su entorno.

La consistencia se examina alrededor de los bordes de las partes reales y falsas. El modelo luego juzga si la imagen completa parece natural y real. Ishikawa dice que la verdadera innovación radica en la capacidad de la tecnología.

Después de repetir el ciclo de predicción y evaluación, el modelo de aprendizaje se vuelve capaz de construir artificialmente una imagen completa utilizando solo las partes predichas. Esto le permite tomar una imagen bidimensional real y convertirla en 3-D.

El equipo espera que su modelo se use en aplicaciones de edición de fotos. El sistema también es capaz de modificar ligeramente las imágenes, como las características faciales de los niños. El equipo cree que esto les permitirá a los padres tomar fotos de sus hijos con cuidado, y luego publicar las imágenes en las redes sociales con la mínima preocupación de poner en riesgo sus identidades.

 

> New AI model fills in blank spots in photos.