Un algoritmo genera caras de personas a partir de su voz

ganimg-002

¿Alguna vez ha construido una imagen mental de una persona que nunca has visto, basada únicamente en su voz?  Una red neuronal llamada Speech2Face fue entrenada para hacer esto usando millones de videos educativos de Internet que mostraban a más de 100,000 personas hablando.

De este conjunto de datos, Speech2Face aprendió asociaciones entre señales vocales y ciertas características físicas en un rostro humano, escribieron los investigadores en un nuevo estudio. La IA luego usó un clip de audio para modelar una cara fotorrealista que coincide con la voz. La red neuronal puede reconocer ciertos marcadores en el habla que apuntan al género, la edad y el origen étnico. Es decir, características que comparte mucha gente, pero es incapaz de saber exactamente qué aspecto tiene una persona específica en función de su voz.

Sin embargo, las interpretaciones del algoritmo estuvieron lejos de ser perfectas. Speech2Face demostró “rendimiento mixto” cuando se enfrentó a variaciones de lenguaje. Por ejemplo, cuando la IA escuchó un clip de audio de un hombre asiático que habla chino, el programa produjo una imagen de una cara asiática. Sin embargo, cuando el mismo hombre habló en inglés en un clip de audio diferente, la IA generó el rostro de un hombre occidental.

Otra preocupación sobre este conjunto de datos de video surgió cuando una persona que había aparecido en un video de YouTube se sorprendió al saber que su imagen se había incorporado al estudio. Nick Sullivan, jefe de criptografía de la compañía de seguridad de Internet Cloudflare en San Francisco, vio inesperadamente su rostro como uno de los ejemplos utilizados para entrenar a Speech2Face (y que el algoritmo había reproducido de manera aproximada). Sullivan no había aceptado aparecer en el estudio, pero se considera que los videos de YouTube en este conjunto de datos están disponibles para que los investigadores los utilicen sin adquirir permisos adicionales.

 

AI Listened to People’s Voices. Then It Generated Their Faces.

 

Anuncios

Los investigadores están entrenando IAs para generación de imágenes con menos etiquetas

ganclas-001

Los modelos generativos tienen la propiedad de aprender distribuciones complejas de datos, pero su entrenamiento requiere muchos datos etiquetados y, dependiendo de la tarea en cuestión, los corpus necesarios a veces son escasos.

La solución podría estar en un enfoque propuesto por los investigadores de Google y ETH Zurich. En un artículo publicado describen un “extractor semántico” que puede extraer características de los datos de entrenamiento, junto con métodos para inferir etiquetas para un conjunto de entrenamiento completo a partir de un pequeño subconjunto de imágenes etiquetadas. Estas técnicas auto y semi supervisadas juntas pueden superar los métodos de vanguardia en pruebas de referencia como ImageNet.

En uno de los varios métodos no supervisados que los investigadores postulan, primero extraen una representación de características (un conjunto de técnicas para descubrir automáticamente las representaciones necesarias para la clasificación de datos sin procesar) en un conjunto de datos objetivo utilizando el extractor de características mencionado anteriormente. Luego, realizan un análisis de clusters, es decir, agrupan las representaciones de tal manera que aquellos en el mismo grupo comparten más en común que aquellos en otros grupos. Y, por último, entrenan una GAN, una red neuronal de dos partes que consta de generadores que producen muestras y discriminadores que intentan distinguir entre las muestras generadas y las muestras del mundo real, deduciendo las etiquetas. En otro método de pre-entrenamiento, denominado “co-entrenamiento”, los autores del artículo aprovechan una combinación de métodos sin supervisión, semi-supervisados y auto-supervisados para inferir información de la etiqueta concurrente con el entrenamiento de GAN. Durante el paso no supervisado, toman uno de los dos métodos siguientes: eliminar completamente las etiquetas o asignar etiquetas aleatorias a imágenes reales. Por el contrario, en la etapa semi-supervisada, entrenan a un clasificador en la representación característica del discriminador cuando las etiquetas están disponibles para un subconjunto de los datos reales, que utilizan para predecir las etiquetas para las imágenes reales sin etiquetar.

Para probar el rendimiento de las técnicas, los investigadores seleccionaron ImageNet, una base de datos que contiene más de 1.3 millones de imágenes de entrenamiento y 50,000 imágenes de prueba, cada una correspondiente a una de 1,000 clases de objetos, y obtuvieron conjuntos de datos parcialmente etiquetados al seleccionar al azar una parte de las muestras de cada imagen clase (es decir, “camiones de bomberos”, “montañas”, etc.). Después de entrenar a cada GAN utilizando los enfoques sin supervisión, pre-entrenado y de co-entrenamiento, compararon la calidad de los resultados con dos métricas de puntuación: Frechet Inception Distancia (FID) y Puntuación Inicial (IS). Los métodos no supervisados no fueron particularmente exitosos: lograron un FID e IS de alrededor de 25 y 20, respectivamente, en comparación con la línea de base de 8.4 y 75. El pre-entrenamiento mediante auto supervisión y agrupación redujo el FID en un 10% y el aumento de ID en aproximadamente un 10%, y el método co-entrenado obtuvo un FID de 13.9 y un IS de 49.2. Pero el más exitoso fue el de auto-supervisión que logró un rendimiento “vanguardista” con un 20% de datos etiquetados.

En el futuro, los investigadores esperan investigar cómo se podrían aplicar las técnicas a conjuntos de datos “más grandes” y “más diversos”. “Hay varias direcciones importantes para el trabajo futuro”, escribieron, “[pero] creemos que este es un gran primer paso hacia el objetivo final de la síntesis de imágenes de alta fidelidad con pocos datos”.

Researchers are training image-generating AI with fewer labels.

 

Redes Neuronales se utilizan para mejor las texturas de juegos más antiguos

ganimg-001

La Red Generadora Adversaria de Súper Resolución Mejorada, o ESRGAN, es un método capaz de generar texturas realistas ampliando la resolución de una imagen. Básicamente es una técnica de aprendizaje automático que utiliza una red adversaria generativa para agrandar la escala de imágenes más pequeñas. Al hacerlo en varias pasadas, generalmente producirá una imagen con más fidelidad que otros métodos como SRCNN y SRGAN. De hecho, ESRGAN se basa en SRGAN. La diferencia entre los dos es que ESRGAN mejora la arquitectura de la red de SRGAN, la pérdida adversa y la pérdida perceptiva.

Además ESRGAN:

  • Adopta un modelo más profundo utilizando Residual-in-Residual Dense Block (RRDB) sin capas de normalización de lotes.
  • Emplea una GAN promedio relativista en lugar de un GAN estándar.
  • Mejora la pérdida perceptiva utilizando las features antes de la activación.

En contraste con SRGAN, que afirmaba que los modelos más profundos son cada vez más difíciles de entrenar, un modelo más profundo de ESRGAN muestra su rendimiento superior con un entrenamiento fácil. Obviamente, esto no va a hacer que cada imagen se vea increíble, pero vale la pena darle una oportunidad. Hay algunos resultados realmente buenos.

Además de la publicación existe un repositorio github que incluye modelos entrenados, y hasta hay una guía escrita por alguien más con los pasos necesarios para poder probarlo uno mismo.

 

> AI Neural Networks being used to generate HQ textures for older games (You can do it yourself!).

Una red neuronal puede aprender a organizar el mundo que ve en conceptos, al igual que nosotros

Los investigadores del MIT-IBM Watson AI Lab se dieron cuenta de que las GAN (Generative Adversarial Networks) son una herramienta poderosa, pintan lo que están “pensando”, y podrían dar a los humanos una idea de cómo aprenden y razonan las redes neuronales. “Tenemos la oportunidad de que aprendamos lo que una red sabe al tratar de recrear el mundo visual”, dice David Bau, un estudiante de doctorado del MIT que trabajó en el proyecto.

Así que los investigadores comenzaron a probar las mecánicas de aprendizaje de una GAN alimentándolas con varias fotos de paisajes: árboles, pasto, edificios y cielo. Querían ver si aprendería a organizar los píxeles en grupos sensibles, sin que se le dijera explícitamente cómo hacerlo. Sorprendentemente, con el tiempo, lo hizo. Al encender y apagar varias “neuronas” y al pedirle a la GAN que pintara lo que pensaba, los investigadores encontraron distintos grupos de neuronas que habían aprendido a representar un árbol, por ejemplo. Otros grupos representaban el pasto, mientras que otros representaban paredes o puertas. En otras palabras, había logrado agrupar píxeles de árbol con píxeles de árbol y píxeles de puerta con píxeles de puerta, independientemente de cómo estos objetos cambiaran de color de una foto a otra en el conjunto de entrenamiento.

Ser capaz de identificar qué grupos corresponden a qué conceptos hace posible controlar la salida de la red neuronal. El grupo de Bau puede activar solo las neuronas de los árboles, por ejemplo, para hacer que el GAN pinte árboles, o activar solo las neuronas de la puerta para que pinte puertas. De manera similar, las redes de idiomas pueden manipularse para cambiar su salida, por ejemplo, para intercambiar el género de los pronombres mientras se traducen de un idioma a otro.

El equipo ha lanzado una aplicación llamada GANpaint que convierte esta nueva capacidad en una herramienta artística, permitiendo activar grupos específicos de neuronas para pintar escenas de edificios en campos de hierba con muchas puertas. Más allá de lo entretenido que esto pueda ser, estos resultados permiten apreciar el verdadero potencial de esta investigación.

 

> A neural network can learn to organize the world it sees into concepts—just like we do.

Nvidia usa redes neuronales para renderizar mundos virtuales en tiempo real

Nvidia anunció que ahora pueden dibujar nuevos mundos sin utilizar las técnicas de modelado tradicionales o los motores de representación gráfica. Esta nueva tecnología utiliza una Red Neuronal Profunda (RNP) para analizar videos existentes y luego aplicar los elementos visuales a los nuevos entornos 3D.  Esta nueva tecnología podría proporcionar un avance revolucionario en la creación de mundos en 3D, ya que los modelos de RNP están entrenados a partir de videos para renderizar automáticamente edificios, árboles, vehículos y objetos en nuevos mundos en 3D, en lugar de requerir el trabajoso proceso de modelado de los elementos en la escena.

Los investigadores también han usado esta técnica para modelar otros movimientos, como movimientos de baile, y luego aplicar esos mismos movimientos a otros personajes en videos en tiempo real. Eso plantea cuestiones morales, especialmente dada la proliferación de videos alterados como las deepfakes.

La gran pregunta es cuándo llegará esto al reino de los juegos, pero Nvidia advierte que esto no es aún un producto terminado. La compañía teorizó que sería útil para mejorar los juegos antiguos al analizar las escenas y luego aplicar modelos capacitados para mejorar los gráficos, entre muchos otros usos potenciales. También podría usarse para crear nuevos niveles y contenido en juegos más antiguos. Con el tiempo, la compañía espera que la tecnología se extienda y se convierta en otra posibilidad en la caja de herramientas de los desarrolladores de juegos. La compañía ha abierto el proyecto, por lo que cualquier persona puede descargarlo y comenzar a usarlo hoy, aunque actualmente está dirigido a investigadores de IA.

 

> Nvidia Uses AI to Render Virtual Worlds in Real Time.

Retrato generado por una red neuronal se vende en una subasta por u$s 432.500

1000x-1

Un retrato creado por una inteligencia artificial obtuvo u$s 432.500 en Christie’s en Nueva York el jueves pasado, la primera vez que una casa de subastas importante ofreció una obra de arte generada por computadora.

La impresión sobre lienzo, titulada “Edmond de Belamy, de La Famille de Belamy”, representa una imagen borrosa e inacabada de un hombre. Mostrado en un marco de madera dorado, se estimó que costaba entre u$s 7.000 y u$s 10.000 y se ofreció como el lote final en la subasta de copias de Christie.

El trabajo fue una creación de Obvious Art, un colectivo con sede en París, con la ayuda de un algoritmo conocido como GAN (Generative Adversarial Network). “Alimentamos el sistema con un conjunto de datos de 15.000 retratos pintados entre los siglos XIV y XX”, dijo el miembro del colectivo Hugo Caselles-Dupre a Christie.

“Es un momento emocionante y nuestra esperanza es que el foco en esta venta traerá adelante el increíble trabajo que nuestros antecesores y colegas han estado produciendo”, dijo el colectivo en un comunicado. “Agradecemos a Christie’s por abrir este diálogo en la comunidad artística y nos sentimos honrados de haber sido parte de esta conversación global sobre el impacto de esta nueva tecnología en la creación de arte”.

La pieza provocó una guerra de ofertas entre cinco partidos que duró unos siete minutos, prevaleciendo un comprador anónimo por teléfono, dijo la portavoz de Christie, Jennifer Cuminale.

El retrato está firmado por el artista:  formuleblack   🙂

 

> AI-Generated Portrait Sells for $432,500 in an Auction First.

DeepMind puede renderizar objetos 3D a partir de imágenes 2D

deepmind-001

DeepMind presentó hoy un nuevo tipo de algoritmo de visión por computadora que puede generar modelos 3D de una escena a partir de instantáneas en 2D: la red de consulta generativa (GQN).

La GQN, cuyos detalles fueron publicados en Science, puede “imaginar” y representar escenas desde cualquier ángulo sin supervisión o entrenamiento humano. Dadas solo unas pocas imágenes de una escena -una habitación empapelada con una esfera coloreada en el suelo, por ejemplo- el algoritmo puede representar lados opuestos e invisibles de los objetos y generar una vista 3D desde múltiples puntos de vista, incluso teniendo en cuenta cosas como la iluminación en las sombras.

Su objetivo es replicar la forma en que el cerebro humano aprende sobre su entorno y las interacciones físicas entre los objetos, y elimina la necesidad de que los investigadores anoten imágenes en conjuntos de datos. La mayoría de los sistemas de reconocimiento visual requieren que un ser humano etiquete cada aspecto de cada objeto en cada escena en un conjunto de datos, un proceso laborioso y costoso.

“Al igual que los bebés y los animales, el GQN aprende tratando de dar sentido a sus observaciones del mundo que lo rodea”, escribieron los investigadores de DeepMind en una publicación de blog. “Al hacerlo, el GQN aprende sobre escenas plausibles y sus propiedades geométricas, sin ningún etiquetado humano del contenido de las escenas… [T] él GQN aprende sobre escenas plausibles y sus propiedades geométricas… sin ningún etiquetado humano de los contenidos de las escenas. “

El sistema de dos partes se compone de una red de representación y una red de generación. El primero toma los datos de entrada y los traduce en una representación matemática (un vector) que describe la escena, y el segundo imágenes de la escena. Para entrenar el sistema, los investigadores de DeepMind alimentaron las imágenes GQN de escenas desde diferentes ángulos, que son usados para aprender sobre las texturas, los colores y la iluminación de los objetos de forma independiente entre sí y las relaciones espaciales entre ellos. Luego predijo cómo se verían esos objetos a un lado o por detrás (ver video).

El sistema sin embargo tiene sus limitaciones, solo se ha probado en escenas simples que contienen una pequeña cantidad de objetos y no es lo suficientemente sofisticado como para generar modelos 3D complejos. Pero DeepMind está desarrollando sistemas más robustos que requieren menos potencia de procesamiento y un corpus más pequeño, así como marcos que pueden procesar imágenes de mayor resolución.

 

> Neural scene representation and rendering.