Herramientas Artificialmente Inteligentes Capturan Movimiento Animal

leap-is-accurate-and-requires-little-training-or-labeled-data-a-part-wise-accuracy

Se tarda un promedio de 17 minutos para que una pareja de moscas de la fruta pase de encontrarse a aparearse. El encuentro está marcado por muchas etapas complejas, posiblemente más complejas que el cortejo humano. Talmo Pereira, un estudiante de doctorado que estudia neurociencia en los laboratorios de Joshua Shaevitz y Mala Murthy en la Universidad de Princeton, está estudiando cómo la danza del cortejo está representada en el cerebro de las moscas. Él y sus colegas desarrollaron un método poderoso para seguir el comportamiento animal. Su herramienta, LEAP Estimates Animal Pose (LEAP), aprovecha un tipo de inteligencia artificial llamada red neuronal profunda, esencialmente una “máquina fantástica que puede aprender a hacer… cualquier operación arbitraria para la que sea entrenada”, dice Diego Aldarondo, actualmente estudiante de doctorado en la Universidad de Harvard, quien construyó la herramienta con Pereira durante sus estudios universitarios en Princeton. “Desarrollamos toda esta inteligencia artificial solo para tratar de entender el sexo entre moscas”, bromea Pereira. “O ni siquiera el sexo realmente, solo lo que conduce a ello”.

Tradicionalmente, los investigadores han recopilado datos sobre los movimientos de los animales revisando videos cuadro por cuadro y etiquetando las partes del cuerpo de interés. Es un proceso laborioso que puede llevar a los estudiantes de grado o voluntarios horas y horas. El éxito de LEAP proviene de una combinación de aportes humanos y artificiales. Después de recibir un conjunto de cuadros de video etiquetados, los utiliza para aprender cómo se colocan los puntos de acuerdo con las características de cada imagen, y luego produce las etiquetas para el siguiente conjunto de cuadros, que posteriormente un investigador revisa. A fines del año pasado, publicaron una versión de la herramienta que necesita alrededor de 100 cuadros para lograr una precisión de hasta el 95 por ciento en el seguimiento de 32 puntos en el cuerpo de una mosca. En su informe, los investigadores utilizaron LEAP para rastrear las seis piernas de una mosca, más sus alas, cuerpo y cabeza. También aplicaron su herramienta para capturar los movimientos de las extremidades de un ratón.

Estas herramientas podrían tener aplicaciones en muchos campos, desde la ecología del comportamiento hasta la investigación médica, en donde podrían ayudar a estudiar trastornos como el autismo que están asociados con movimientos estereotipados. También ayudaría a los neurocientíficos a investigar las conexiones entre el cerebro y el comportamiento.

 

Artificially Intelligent Tools Capture Animal Movement.

 

Anuncios

La IA de Affectiva oye tu ira en 1.2 segundos.

emodet-002

Alexa de Amazon puede detectar el habla susurrada, así es como sabe cuándo susurrar. Pero ¿qué pasa con la inteligencia artificial que es capaz de percibir la frustración? La red neuronal de Affectiva del MIT Media Lab, SoundNet, puede clasificar la ira en datos de audio en tan solo 1,2 segundos, independientemente del idioma del hablante, igual que el tiempo que los humanos tardan en percibir la ira.

Los investigadores de Affectiva lo describen en un trabajo recientemente publicado. “Un problema importante en el aprovechamiento del poder de las redes de aprendizaje profundo para el reconocimiento de las emociones es la diferencia entre la gran cantidad de datos requeridos por las redes profundas y el pequeño tamaño de los conjuntos de datos de voz etiquetados con emociones”, escribieron los coautores del artículo. “Nuestro modelo de detección de ira entrenado mejora el rendimiento y generaliza bien en una variedad de conjuntos de datos emocionales actuados, provocados y naturales. Además, nuestro sistema propuesto tiene una baja latencia, adecuada para aplicaciones en tiempo real “.

SoundNet consiste en una red neuronal convolucional, un tipo de red neuronal comúnmente aplicada para analizar imágenes visuales, entrenada sobre un conjunto de datos de video. Para lograr que reconozca la ira en el habla, el equipo primero obtuvo una gran cantidad de datos de audio generales (dos millones de videos, o un poco más de un año) con el etiquetado producido por otro modelo. Luego, lo ajustaron con un conjunto de datos más pequeño, IEMOCAP, que contiene 12 horas de datos de emoción audiovisual anotados, que incluyen video, voz y transcripciones de texto. Para probar la generalización del modelo AI, el equipo evaluó su modelo entrenado en inglés sobre los datos de la emoción del habla en chino mandarín (el Corpus del habla afectiva del mandarín, o MASC). Informan que no solo se generalizó bien a los datos del habla en inglés, sino que fue efectivo en los datos chinos, aunque con una leve degradación en el rendimiento.

Finalmente dejan como trabajo futuro el aprovechar otros grandes conjuntos de datos disponibles públicamente, y  el entrenar sistemas de inteligencia artificial para tareas relacionadas con el habla, como reconocer otros tipos de emociones y estados afectivos.

 

Affectiva’s AI hears your anger in 1.2 seconds.

 

El aprendizaje automático puede usar tweets para detectar fallas de seguridad críticas

textnews-002

Investigadores de la Universidad Estatal de Ohio, la compañía de seguridad FireEye y la firma de investigación Leidos publicaron un artículo que describe un nuevo sistema que lee millones de tweets para detectar menciones de vulnerabilidades de seguridad de software utilizando un algoritmo entrenado con aprendizaje automático, y luego evalúa qué tan grande es la amenaza que representa en función de cómo se describe. Descubrieron que Twitter no solo puede predecir la mayoría de las fallas de seguridad que aparecerán días más tarde en la base de datos de vulnerabilidad nacional, el registro oficial de vulnerabilidades de seguridad rastreadas por el Instituto Nacional de Estándares y Tecnología, sino que también podían usar procesamiento de lenguaje natural para predecir aproximadamente a cuál de esas vulnerabilidades se le otorgará una calificación de gravedad “alta” o “crítica” con una precisión superior al 80 por ciento.

Un prototipo del trabajo en progreso que pusieron en línea, por ejemplo, mostró tweets de la última semana sobre una nueva vulnerabilidad en MacOS conocida como “BuggyCow”, así como un ataque conocido como SPOILER que podría permitir a las páginas web explotar vulnerabilidades asentadas en la profundidad de los chips de Intel. Ninguno de los ataques, que el escáner de Twitter de los investigadores etiquetó como “probablemente severos”, se ha presentado aún en la Base de Datos Nacional de Vulnerabilidad. El prototipo, admiten, no es perfecto. Se actualiza solo una vez al día, incluye algunos duplicados y, no se detectaron algunas vulnerabilidades que luego aparecieron en el NVD. Pero los autores argumentan que el verdadero avance de la investigación consiste en clasificar con precisión la gravedad de las vulnerabilidades basadas en un análisis automatizado del lenguaje humano.

En su experimento, los investigadores comenzaron tomando un subconjunto de 6000 tweets que identificaron como que discutían vulnerabilidades de seguridad. Estos fueron etiquetados con clasificaciones de gravedad generadas por el humanos, filtrando los resultados de cualquier valor atípico que discrepara drásticamente con otros. Luego, los investigadores utilizaron esos tweets etiquetados como datos de entrenamiento para un motor de aprendizaje automático y probaron sus predicciones. Anticipándose cinco días a la inclusión de una vulnerabilidad en el registro nacional, pudieron predecir la severidad de las 100 vulnerabilidades más críticas, basándose en la misma clasificación de la NVD, con un 78% de precisión. Para las 50 principales, podrían predecir la gravedad con un 86% de precisión y 100% de precisión para las 10 vulnerabilidades más graves del NVD.

Ritter advierte que, a pesar de los resultados prometedores, su herramienta automatizada probablemente no debería ser utilizada como la única fuente de datos de vulnerabilidad, y que al menos un humano debe hacer clic en el tweet subyacente y su información vinculada para confirmar sus hallazgos.

Machine Learning Can Use Tweets to Spot Critical Security Flaws.

 

Los investigadores están entrenando IAs para generación de imágenes con menos etiquetas

ganclas-001

Los modelos generativos tienen la propiedad de aprender distribuciones complejas de datos, pero su entrenamiento requiere muchos datos etiquetados y, dependiendo de la tarea en cuestión, los corpus necesarios a veces son escasos.

La solución podría estar en un enfoque propuesto por los investigadores de Google y ETH Zurich. En un artículo publicado describen un “extractor semántico” que puede extraer características de los datos de entrenamiento, junto con métodos para inferir etiquetas para un conjunto de entrenamiento completo a partir de un pequeño subconjunto de imágenes etiquetadas. Estas técnicas auto y semi supervisadas juntas pueden superar los métodos de vanguardia en pruebas de referencia como ImageNet.

En uno de los varios métodos no supervisados que los investigadores postulan, primero extraen una representación de características (un conjunto de técnicas para descubrir automáticamente las representaciones necesarias para la clasificación de datos sin procesar) en un conjunto de datos objetivo utilizando el extractor de características mencionado anteriormente. Luego, realizan un análisis de clusters, es decir, agrupan las representaciones de tal manera que aquellos en el mismo grupo comparten más en común que aquellos en otros grupos. Y, por último, entrenan una GAN, una red neuronal de dos partes que consta de generadores que producen muestras y discriminadores que intentan distinguir entre las muestras generadas y las muestras del mundo real, deduciendo las etiquetas. En otro método de pre-entrenamiento, denominado “co-entrenamiento”, los autores del artículo aprovechan una combinación de métodos sin supervisión, semi-supervisados y auto-supervisados para inferir información de la etiqueta concurrente con el entrenamiento de GAN. Durante el paso no supervisado, toman uno de los dos métodos siguientes: eliminar completamente las etiquetas o asignar etiquetas aleatorias a imágenes reales. Por el contrario, en la etapa semi-supervisada, entrenan a un clasificador en la representación característica del discriminador cuando las etiquetas están disponibles para un subconjunto de los datos reales, que utilizan para predecir las etiquetas para las imágenes reales sin etiquetar.

Para probar el rendimiento de las técnicas, los investigadores seleccionaron ImageNet, una base de datos que contiene más de 1.3 millones de imágenes de entrenamiento y 50,000 imágenes de prueba, cada una correspondiente a una de 1,000 clases de objetos, y obtuvieron conjuntos de datos parcialmente etiquetados al seleccionar al azar una parte de las muestras de cada imagen clase (es decir, “camiones de bomberos”, “montañas”, etc.). Después de entrenar a cada GAN utilizando los enfoques sin supervisión, pre-entrenado y de co-entrenamiento, compararon la calidad de los resultados con dos métricas de puntuación: Frechet Inception Distancia (FID) y Puntuación Inicial (IS). Los métodos no supervisados no fueron particularmente exitosos: lograron un FID e IS de alrededor de 25 y 20, respectivamente, en comparación con la línea de base de 8.4 y 75. El pre-entrenamiento mediante auto supervisión y agrupación redujo el FID en un 10% y el aumento de ID en aproximadamente un 10%, y el método co-entrenado obtuvo un FID de 13.9 y un IS de 49.2. Pero el más exitoso fue el de auto-supervisión que logró un rendimiento “vanguardista” con un 20% de datos etiquetados.

En el futuro, los investigadores esperan investigar cómo se podrían aplicar las técnicas a conjuntos de datos “más grandes” y “más diversos”. “Hay varias direcciones importantes para el trabajo futuro”, escribieron, “[pero] creemos que este es un gran primer paso hacia el objetivo final de la síntesis de imágenes de alta fidelidad con pocos datos”.

Researchers are training image-generating AI with fewer labels.

 

La gente confía en que una IA pueda tomar mejores decisiones que los políticos

politIA-001

Una nueva encuesta sobre las actitudes de los europeos hacia la tecnología encontró que una cuarta parte de la gente preferiría que las decisiones políticas fueran tomadas por una inteligencia artificial en lugar de políticos.

El Centro para la Gobernanza del Cambio en la Universidad de España encuestó a 2.500 adultos en el Reino Unido, España, Alemania, Francia, Irlanda, Italia y los Países Bajos en enero. Los resultados reflejan una intensa ansiedad por los cambios provocados por los avances en la tecnología, con más de la mitad de los encuestados preocupados de que los trabajos sean reemplazados por robots, y el 70% dice que una innovación tecnológica sin control podría hacer más daño que bien a la sociedad. Los encuestados también expresaron su preocupación sobre el impacto de las relaciones digitales que reemplazan al contacto humano a medida que más personas pasan tiempo en línea. Pero quizás lo más interesante es que una cuarta parte de los encuestados dijo que preferiría que IA guíe las decisiones sobre la gobernabilidad de su país en lugar de los políticos.

“Esta mentalidad, que probablemente se relaciona con la creciente desconfianza que sienten los ciudadanos hacia los gobiernos y los políticos, constituye un cuestionamiento significativo del modelo europeo de democracia representativa, ya que desafía la noción de soberanía popular”, dijo en un comunicado Diego Rubio, director ejecutivo del Centro para la Gobernanza del Cambio.

En todo el mundo, los ciudadanos han expresado una creciente desilusión con la democracia y un mayor escepticismo de que su voz tiene un impacto en las decisiones políticas. Pero las decisiones algorítmicas no son una solución sin problemas: se pueden integrar con los prejuicios y sesgos de sus programadores o se pueden manipular para lograr resultados específicos, haciendo que los resultados sean tan problemáticos como los de los humanos.

El estudio también encontró que los encuestados esperaban que los gobiernos redujeran la disrupción que la tecnología podría tener en sus vidas mediante regulación, imponiendo límites de automatización y el apoyo a las personas afectadas por la pérdida de empleos. Esto “resalta la paradoja en que vivimos”, escribieron los autores. “La gente está desilusionada con los gobiernos, pero al mismo tiempo les pide que aborden los efectos negativos sociales y económicos que podrían tener las tecnologías emergentes”.

A surprising number of people trust AI to make better policy decisions than politicians.

 

Interfaz de computadora traduce señales cerebrales directamente al habla

41598_2018_37359_fig1_html

Los neuroingenieros de Columbia han creado por primera vez un sistema que traduce el pensamiento en un discurso inteligible y reconocible. Al monitorear la actividad cerebral de alguien, la tecnología puede reconstruir las palabras que una persona escucha con una claridad sin precedentes. Este avance, que aprovecha el poder de los sintetizadores de voz y la inteligencia artificial, podría llevar a nuevas formas para que las computadoras se comuniquen directamente con el cerebro. También sienta las bases para ayudar a las personas que no pueden hablar, como aquellas que viven con esclerosis lateral amiotrófica (ELA) o que se están recuperando de un derrame cerebral, a recuperar su capacidad de comunicarse con el mundo exterior.

La investigación ha demostrado que cuando las personas hablan, patrones de actividad aparecen en su cerebro. Las señales también emergen cuando escuchamos a alguien hablar, o nos imaginamos escuchando. Registrar y decodificar estos patrones podría traducirse a un discurso verbal a voluntad. Pero lograr esta hazaña ha resultado ser un desafío. La decodificación de las señales cerebrales mediante modelos informáticos simples que analizan los espectrogramas no ha logrado producir nada que se parezca al habla inteligible. Este equipo, en cambio, recurrió a un vocoder, un algoritmo de computadora que puede sintetizar el habla luego de ser entrenado en grabaciones de personas que hablan.

Para enseñar al vocoder a interpretar la actividad cerebral, se asociaron con un neurocirujano que trata pacientes de epilepsia, algunos de los cuales deben someterse a cirugías regulares. “Le pedimos a los pacientes con epilepsia que ya se sometían a una cirugía cerebral que escucharan oraciones pronunciadas por diferentes personas, mientras medíamos los patrones de actividad cerebral. Estos patrones neuronales entrenaban al vocoder”.

Luego, los investigadores les pidieron a esos mismos pacientes que escuchen a los oradores recitar dígitos entre 0 y 9, mientras registraban las señales cerebrales que luego podrían ejecutarse a través del vocoder. El sonido producido por el vocoder en respuesta a esas señales fue analizado y limpiado por redes neuronales, un tipo de inteligencia artificial que imita la estructura de las neuronas en el cerebro biológico.

El resultado final fue una voz de sonido robótico que recitaba una secuencia de números. Para probar la precisión de la grabación, el equipo encargó a las personas que escucharan la grabación e informaran lo que escucharon. “Descubrimos que las personas podían entender y repetir los sonidos aproximadamente el 75% del tiempo, lo que está muy por encima y más allá de cualquier intento anterior”. La mejora en la inteligibilidad fue especialmente evidente al comparar las nuevas grabaciones con los intentos anteriores basados en espectrogramas. “El sensible vocoder y las poderosas redes neuronales representaban los sonidos que los pacientes habían escuchado originalmente con sorprendente precisión”.

 

Columbia Engineers Translate Brain Signals Directly into Speech.

 

 

La IA de IBM pierde el debate ante un humano

ibmdeb-001

El tema en debate era si el gobierno debería subsidiar la educación preescolar. Pero la pregunta real era si una máquina llamada IBM Debater podría superar a un líder humano de alto rango. La respuesta, el lunes por la noche, fue no.

Harish Natarajan, el gran finalista en los Campeonatos del Mundo de Debate 2016, pudo inclinar más a una audiencia de cientos de personas hacia su punto de vista que el IBM Debater impulsado por AI hacia el suyo. Los seres humanos, al menos aquellos equipados con títulos de las universidades de Oxford y Cambridge, aún pueden prevalecer en lo que respecta a las sutilezas del conocimiento, la persuasión y el argumento. No fue una victoria titular tan importante como la que vimos cuando las computadoras Deep Blue de IBM vencieron al mejor jugador de ajedrez humano en 1997 o el AlphaGo de Google derrotó a los mejores jugadores humanos del antiguo juego de Go en 2017. Pero IBM mostró que la inteligencia artificial aún puede ser útil en situaciones donde hay ambigüedad y debate, no solo una puntuación simple para juzgar quién ganó un juego. “Lo que realmente me llamó la atención es el valor potencial de IBM Debater cuando se [combina] con un ser humano”, dijo Natarajan después del debate. La IA de IBM fue capaz de explorar montañas de información y ofrecer un contexto útil para ese conocimiento, dijo.

IBM’s AI loses debate to a human, but it’s got worlds to conquer.