Un algoritmo genera caras de personas a partir de su voz

ganimg-002

¿Alguna vez ha construido una imagen mental de una persona que nunca has visto, basada únicamente en su voz?  Una red neuronal llamada Speech2Face fue entrenada para hacer esto usando millones de videos educativos de Internet que mostraban a más de 100,000 personas hablando.

De este conjunto de datos, Speech2Face aprendió asociaciones entre señales vocales y ciertas características físicas en un rostro humano, escribieron los investigadores en un nuevo estudio. La IA luego usó un clip de audio para modelar una cara fotorrealista que coincide con la voz. La red neuronal puede reconocer ciertos marcadores en el habla que apuntan al género, la edad y el origen étnico. Es decir, características que comparte mucha gente, pero es incapaz de saber exactamente qué aspecto tiene una persona específica en función de su voz.

Sin embargo, las interpretaciones del algoritmo estuvieron lejos de ser perfectas. Speech2Face demostró “rendimiento mixto” cuando se enfrentó a variaciones de lenguaje. Por ejemplo, cuando la IA escuchó un clip de audio de un hombre asiático que habla chino, el programa produjo una imagen de una cara asiática. Sin embargo, cuando el mismo hombre habló en inglés en un clip de audio diferente, la IA generó el rostro de un hombre occidental.

Otra preocupación sobre este conjunto de datos de video surgió cuando una persona que había aparecido en un video de YouTube se sorprendió al saber que su imagen se había incorporado al estudio. Nick Sullivan, jefe de criptografía de la compañía de seguridad de Internet Cloudflare en San Francisco, vio inesperadamente su rostro como uno de los ejemplos utilizados para entrenar a Speech2Face (y que el algoritmo había reproducido de manera aproximada). Sullivan no había aceptado aparecer en el estudio, pero se considera que los videos de YouTube en este conjunto de datos están disponibles para que los investigadores los utilicen sin adquirir permisos adicionales.

 

AI Listened to People’s Voices. Then It Generated Their Faces.

 

Los ataques adversarios no son bugs, son features

adevrs-002

Investigadores han encontrado una nueva ventaja defensiva contra los ataques adversarios, informaron en la Conferencia Internacional sobre Representaciones de Aprendizaje. Este trabajo no solo puede ayudar a proteger al público, también ayuda a revelar por qué la IA, notoriamente difícil de entender, es víctima de tales ataques en primer lugar.

Para identificar esta vulnerabilidad, los investigadores crearon un conjunto especial de datos de entrenamiento: imágenes que a nosotros nos parecen una cosa, pero se parecen a otra para la IA; por ejemplo una imagen de un perro que, examinada de cerca por una computadora, es identifica como la de un gato. Luego, el equipo etiquetó erróneamente las imágenes, por ejemplo, calificando a la imagen del perro como gato, y entrenó un algoritmo para aprender las etiquetas. Una vez que la IA había aprendido a ver a los perros con rasgos de gato sutiles como gatos, lo probaron pidiéndole que reconociera imágenes nuevas y no modificadas. A pesar de que la IA se había entrenado de esta manera extraña, podía identificar correctamente a los perros, gatos, etc., casi la mitad del tiempo. En esencia, había aprendido a hacer coincidir las características sutiles con las etiquetas, independientemente de las características obvias.

El experimento de entrenamiento sugiere que las IA usan dos tipos de características: macros, obvias como orejas y colas que las personas reconocen, y micro que solo podemos adivinar. Además, sugiere que los ataques adversos no solo confunden una IA con ajustes sin sentido en una imagen. En esos ajustes, la IA está viendo inteligentemente rastros de otra cosa. Una IA puede ver una señal de stop como una señal de límite de velocidad, por ejemplo, porque algo acerca de los adhesivos en realidad hace que se parezca sutilmente a una señal de límite de velocidad de una manera que los humanos son demasiado ajenos a comprender.

Cuando el equipo entrenó un algoritmo en imágenes sin las características sutiles, su software de reconocimiento de imagen fue engañado por ataques adversos solo el 50% del tiempo, informaron los investigadores en la conferencia y en un trabajo publicado online. Eso se compara con una tasa de vulnerabilidad del 95% cuando la IA es entrenada con imágenes que incluyen los patrones obvios y los sutiles. En general, estos hallazgos sugieren que las vulnerabilidades de una IA se encuentran en sus datos de entrenamiento, no en su programación, dice Dimitris Tsipras de MIT, coautor.

 

Scientists help artificial intelligence outsmart hackers.

 

Algoritmos de aprendizaje profundo identifican estructuras en células vivas

nihms-1501928-f0001

Para los biólogos celulares, la microscopía de fluorescencia es una herramienta invaluable. Puede ayudar a los científicos a diferenciar estructuras subcelulares en imágenes microscópicas impenetrables. Pero esta técnica tiene sus inconvenientes. Hay límites en el número de etiquetas fluorescentes que se pueden introducir en una célula. El ingeniero biomédico Greg Johnson, del Allen Institute for Cell Science en Seattle, quería desarrollar un método para identificar los componentes de una célula viva en imágenes tomadas con microscopía de campo claro. Esta técnica es más sencilla y económica que la microscopía fluorescente, pero tiene una gran desventaja: produce imágenes que aparecen solo en tonos de gris, lo que hace que las estructuras internas de una célula sean difíciles de descifrar. Así que los científicos decidieron crear un algoritmo que pudiera combinar los beneficios de ambos métodos al aprender cómo detectar y etiquetar estructuras celulares de la forma en que pueden hacerlo las etiquetas fluorescentes, pero a partir de imágenes de campo claro.

Para hacer esto, el equipo recurrió al aprendizaje profundo, un enfoque de inteligencia artificial (IA) donde los algoritmos aprenden a identificar patrones en conjuntos de datos. Entrenaron redes neuronales convolucionales, un enfoque de aprendizaje profundo que normalmente se usa para analizar y clasificar imágenes, para identificar similitudes entre las imágenes de microscopía de campo claro y fluorescencia de varios componentes celulares, incluida la envoltura nuclear, la membrana celular y las mitocondrias. Después de comparar muchos pares de imágenes, el algoritmo fue capaz de predecir la ubicación de las estructuras que habrían etiquetado las etiquetas fluorescentes, pero en imágenes de campo claro en 3D de células vivas. Los investigadores encontraron que la herramienta era muy precisa: sus etiquetas predichas estaban altamente correlacionadas con las etiquetas fluorescentes reales para muchos componentes celulares. Johnson señala que una gran ventaja del método de su equipo es que, contrariamente a la creencia común de que los algoritmos de aprendizaje profundo requieren miles de imágenes para aprender, esta herramienta podría entrenarse con solo docenas de ejemplos.

El equipo ahora está investigando algunas aplicaciones potenciales de la técnica. Además de poder realizar estudios de imágenes más rápidos y baratos, la herramienta podría aplicarse en patología para ayudar a identificar células enfermas o para identificar rápidamente cómo cambian las estructuras celulares en los estados enfermos. Las técnicas que aplican el aprendizaje profundo al análisis de imágenes podrían ser útiles donde se use un microscopio o un telescopio. Este último estudio es “sólo la punta del iceberg”.

 

Deep Learning Algorithms Identify Structures in Living Cells.

 

Herramientas Artificialmente Inteligentes Capturan Movimiento Animal

leap-is-accurate-and-requires-little-training-or-labeled-data-a-part-wise-accuracy

Se tarda un promedio de 17 minutos para que una pareja de moscas de la fruta pase de encontrarse a aparearse. El encuentro está marcado por muchas etapas complejas, posiblemente más complejas que el cortejo humano. Talmo Pereira, un estudiante de doctorado que estudia neurociencia en los laboratorios de Joshua Shaevitz y Mala Murthy en la Universidad de Princeton, está estudiando cómo la danza del cortejo está representada en el cerebro de las moscas. Él y sus colegas desarrollaron un método poderoso para seguir el comportamiento animal. Su herramienta, LEAP Estimates Animal Pose (LEAP), aprovecha un tipo de inteligencia artificial llamada red neuronal profunda, esencialmente una “máquina fantástica que puede aprender a hacer… cualquier operación arbitraria para la que sea entrenada”, dice Diego Aldarondo, actualmente estudiante de doctorado en la Universidad de Harvard, quien construyó la herramienta con Pereira durante sus estudios universitarios en Princeton. “Desarrollamos toda esta inteligencia artificial solo para tratar de entender el sexo entre moscas”, bromea Pereira. “O ni siquiera el sexo realmente, solo lo que conduce a ello”.

Tradicionalmente, los investigadores han recopilado datos sobre los movimientos de los animales revisando videos cuadro por cuadro y etiquetando las partes del cuerpo de interés. Es un proceso laborioso que puede llevar a los estudiantes de grado o voluntarios horas y horas. El éxito de LEAP proviene de una combinación de aportes humanos y artificiales. Después de recibir un conjunto de cuadros de video etiquetados, los utiliza para aprender cómo se colocan los puntos de acuerdo con las características de cada imagen, y luego produce las etiquetas para el siguiente conjunto de cuadros, que posteriormente un investigador revisa. A fines del año pasado, publicaron una versión de la herramienta que necesita alrededor de 100 cuadros para lograr una precisión de hasta el 95 por ciento en el seguimiento de 32 puntos en el cuerpo de una mosca. En su informe, los investigadores utilizaron LEAP para rastrear las seis piernas de una mosca, más sus alas, cuerpo y cabeza. También aplicaron su herramienta para capturar los movimientos de las extremidades de un ratón.

Estas herramientas podrían tener aplicaciones en muchos campos, desde la ecología del comportamiento hasta la investigación médica, en donde podrían ayudar a estudiar trastornos como el autismo que están asociados con movimientos estereotipados. También ayudaría a los neurocientíficos a investigar las conexiones entre el cerebro y el comportamiento.

 

Artificially Intelligent Tools Capture Animal Movement.

 

Los investigadores están entrenando IAs para generación de imágenes con menos etiquetas

ganclas-001

Los modelos generativos tienen la propiedad de aprender distribuciones complejas de datos, pero su entrenamiento requiere muchos datos etiquetados y, dependiendo de la tarea en cuestión, los corpus necesarios a veces son escasos.

La solución podría estar en un enfoque propuesto por los investigadores de Google y ETH Zurich. En un artículo publicado describen un “extractor semántico” que puede extraer características de los datos de entrenamiento, junto con métodos para inferir etiquetas para un conjunto de entrenamiento completo a partir de un pequeño subconjunto de imágenes etiquetadas. Estas técnicas auto y semi supervisadas juntas pueden superar los métodos de vanguardia en pruebas de referencia como ImageNet.

En uno de los varios métodos no supervisados que los investigadores postulan, primero extraen una representación de características (un conjunto de técnicas para descubrir automáticamente las representaciones necesarias para la clasificación de datos sin procesar) en un conjunto de datos objetivo utilizando el extractor de características mencionado anteriormente. Luego, realizan un análisis de clusters, es decir, agrupan las representaciones de tal manera que aquellos en el mismo grupo comparten más en común que aquellos en otros grupos. Y, por último, entrenan una GAN, una red neuronal de dos partes que consta de generadores que producen muestras y discriminadores que intentan distinguir entre las muestras generadas y las muestras del mundo real, deduciendo las etiquetas. En otro método de pre-entrenamiento, denominado “co-entrenamiento”, los autores del artículo aprovechan una combinación de métodos sin supervisión, semi-supervisados y auto-supervisados para inferir información de la etiqueta concurrente con el entrenamiento de GAN. Durante el paso no supervisado, toman uno de los dos métodos siguientes: eliminar completamente las etiquetas o asignar etiquetas aleatorias a imágenes reales. Por el contrario, en la etapa semi-supervisada, entrenan a un clasificador en la representación característica del discriminador cuando las etiquetas están disponibles para un subconjunto de los datos reales, que utilizan para predecir las etiquetas para las imágenes reales sin etiquetar.

Para probar el rendimiento de las técnicas, los investigadores seleccionaron ImageNet, una base de datos que contiene más de 1.3 millones de imágenes de entrenamiento y 50,000 imágenes de prueba, cada una correspondiente a una de 1,000 clases de objetos, y obtuvieron conjuntos de datos parcialmente etiquetados al seleccionar al azar una parte de las muestras de cada imagen clase (es decir, “camiones de bomberos”, “montañas”, etc.). Después de entrenar a cada GAN utilizando los enfoques sin supervisión, pre-entrenado y de co-entrenamiento, compararon la calidad de los resultados con dos métricas de puntuación: Frechet Inception Distancia (FID) y Puntuación Inicial (IS). Los métodos no supervisados no fueron particularmente exitosos: lograron un FID e IS de alrededor de 25 y 20, respectivamente, en comparación con la línea de base de 8.4 y 75. El pre-entrenamiento mediante auto supervisión y agrupación redujo el FID en un 10% y el aumento de ID en aproximadamente un 10%, y el método co-entrenado obtuvo un FID de 13.9 y un IS de 49.2. Pero el más exitoso fue el de auto-supervisión que logró un rendimiento “vanguardista” con un 20% de datos etiquetados.

En el futuro, los investigadores esperan investigar cómo se podrían aplicar las técnicas a conjuntos de datos “más grandes” y “más diversos”. “Hay varias direcciones importantes para el trabajo futuro”, escribieron, “[pero] creemos que este es un gran primer paso hacia el objetivo final de la síntesis de imágenes de alta fidelidad con pocos datos”.

Researchers are training image-generating AI with fewer labels.

 

Redes Neuronales se utilizan para mejor las texturas de juegos más antiguos

ganimg-001

La Red Generadora Adversaria de Súper Resolución Mejorada, o ESRGAN, es un método capaz de generar texturas realistas ampliando la resolución de una imagen. Básicamente es una técnica de aprendizaje automático que utiliza una red adversaria generativa para agrandar la escala de imágenes más pequeñas. Al hacerlo en varias pasadas, generalmente producirá una imagen con más fidelidad que otros métodos como SRCNN y SRGAN. De hecho, ESRGAN se basa en SRGAN. La diferencia entre los dos es que ESRGAN mejora la arquitectura de la red de SRGAN, la pérdida adversa y la pérdida perceptiva.

Además ESRGAN:

  • Adopta un modelo más profundo utilizando Residual-in-Residual Dense Block (RRDB) sin capas de normalización de lotes.
  • Emplea una GAN promedio relativista en lugar de un GAN estándar.
  • Mejora la pérdida perceptiva utilizando las features antes de la activación.

En contraste con SRGAN, que afirmaba que los modelos más profundos son cada vez más difíciles de entrenar, un modelo más profundo de ESRGAN muestra su rendimiento superior con un entrenamiento fácil. Obviamente, esto no va a hacer que cada imagen se vea increíble, pero vale la pena darle una oportunidad. Hay algunos resultados realmente buenos.

Además de la publicación existe un repositorio github que incluye modelos entrenados, y hasta hay una guía escrita por alguien más con los pasos necesarios para poder probarlo uno mismo.

 

> AI Neural Networks being used to generate HQ textures for older games (You can do it yourself!).

Nvidia usa redes neuronales para renderizar mundos virtuales en tiempo real

Nvidia anunció que ahora pueden dibujar nuevos mundos sin utilizar las técnicas de modelado tradicionales o los motores de representación gráfica. Esta nueva tecnología utiliza una Red Neuronal Profunda (RNP) para analizar videos existentes y luego aplicar los elementos visuales a los nuevos entornos 3D.  Esta nueva tecnología podría proporcionar un avance revolucionario en la creación de mundos en 3D, ya que los modelos de RNP están entrenados a partir de videos para renderizar automáticamente edificios, árboles, vehículos y objetos en nuevos mundos en 3D, en lugar de requerir el trabajoso proceso de modelado de los elementos en la escena.

Los investigadores también han usado esta técnica para modelar otros movimientos, como movimientos de baile, y luego aplicar esos mismos movimientos a otros personajes en videos en tiempo real. Eso plantea cuestiones morales, especialmente dada la proliferación de videos alterados como las deepfakes.

La gran pregunta es cuándo llegará esto al reino de los juegos, pero Nvidia advierte que esto no es aún un producto terminado. La compañía teorizó que sería útil para mejorar los juegos antiguos al analizar las escenas y luego aplicar modelos capacitados para mejorar los gráficos, entre muchos otros usos potenciales. También podría usarse para crear nuevos niveles y contenido en juegos más antiguos. Con el tiempo, la compañía espera que la tecnología se extienda y se convierta en otra posibilidad en la caja de herramientas de los desarrolladores de juegos. La compañía ha abierto el proyecto, por lo que cualquier persona puede descargarlo y comenzar a usarlo hoy, aunque actualmente está dirigido a investigadores de IA.

 

> Nvidia Uses AI to Render Virtual Worlds in Real Time.