Los ataques adversarios no son bugs, son features

adevrs-002

Investigadores han encontrado una nueva ventaja defensiva contra los ataques adversarios, informaron en la Conferencia Internacional sobre Representaciones de Aprendizaje. Este trabajo no solo puede ayudar a proteger al público, también ayuda a revelar por qué la IA, notoriamente difícil de entender, es víctima de tales ataques en primer lugar.

Para identificar esta vulnerabilidad, los investigadores crearon un conjunto especial de datos de entrenamiento: imágenes que a nosotros nos parecen una cosa, pero se parecen a otra para la IA; por ejemplo una imagen de un perro que, examinada de cerca por una computadora, es identifica como la de un gato. Luego, el equipo etiquetó erróneamente las imágenes, por ejemplo, calificando a la imagen del perro como gato, y entrenó un algoritmo para aprender las etiquetas. Una vez que la IA había aprendido a ver a los perros con rasgos de gato sutiles como gatos, lo probaron pidiéndole que reconociera imágenes nuevas y no modificadas. A pesar de que la IA se había entrenado de esta manera extraña, podía identificar correctamente a los perros, gatos, etc., casi la mitad del tiempo. En esencia, había aprendido a hacer coincidir las características sutiles con las etiquetas, independientemente de las características obvias.

El experimento de entrenamiento sugiere que las IA usan dos tipos de características: macros, obvias como orejas y colas que las personas reconocen, y micro que solo podemos adivinar. Además, sugiere que los ataques adversos no solo confunden una IA con ajustes sin sentido en una imagen. En esos ajustes, la IA está viendo inteligentemente rastros de otra cosa. Una IA puede ver una señal de stop como una señal de límite de velocidad, por ejemplo, porque algo acerca de los adhesivos en realidad hace que se parezca sutilmente a una señal de límite de velocidad de una manera que los humanos son demasiado ajenos a comprender.

Cuando el equipo entrenó un algoritmo en imágenes sin las características sutiles, su software de reconocimiento de imagen fue engañado por ataques adversos solo el 50% del tiempo, informaron los investigadores en la conferencia y en un trabajo publicado online. Eso se compara con una tasa de vulnerabilidad del 95% cuando la IA es entrenada con imágenes que incluyen los patrones obvios y los sutiles. En general, estos hallazgos sugieren que las vulnerabilidades de una IA se encuentran en sus datos de entrenamiento, no en su programación, dice Dimitris Tsipras de MIT, coautor.

 

Scientists help artificial intelligence outsmart hackers.

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s