DeepMind y Blizzard abren StarCraft II como entorno de investigación de IA

La misión científica de DeepMind es superar los límites de la inteligencia artificial desarrollando sistemas que puedan aprender a resolver problemas complejos. Para ello, diseñamos agentes y probamos su capacidad en una amplia gama de entornos, desde DeepMind Lab especialmente diseñado hasta juegos establecidos, como Atari y Go.

Probar a nuestros agentes en juegos que no están específicamente diseñados para la investigación de IA, y donde los humanos juegan bien, es crucial para el rendimiento del agente de referencia. Es por eso que, junto con nuestro socio Blizzard Entertainment, nos complace anunciar el lanzamiento de SC2LE, un conjunto de herramientas que esperamos aceleren la investigación en IA en el juego de estrategia en tiempo real StarCraft II. La versión de SC2LE incluye:

  • Una API de Aprendizaje automático desarrollada por Blizzard que da gancho a los investigadores y desarrolladores en el juego. Esto incluye el lanzamiento de herramientas para Linux por primera vez.
  • Un conjunto de datos de repeticiones anónimas del juego, que aumentará de 65 mil a más de medio millón en las próximas semanas.
  • Una versión de código abierto del conjunto de herramientas de DeepMind, PySC2, para permitir a los investigadores utilizar fácilmente la API de capa característica de Blizzard con sus agentes.
  • Una serie de minijuegos RL simples para permitir a los investigadores probar el rendimiento de los agentes en tareas específicas.
  • Un documento conjunto que delinea el entorno e informa los resultados básicos iniciales de los minijuegos, el aprendizaje supervisado de las repeticiones y el juego completo de escalera 1 contra 1 contra la IA incorporada.

StarCraft y StarCraft II se encuentran entre los juegos más grandes y exitosos de todos los tiempos, con jugadores que compiten en torneos por más de 20 años. El juego original también ya es utilizado por los investigadores de AI y ML, que compiten anualmente en la competencia de bot de AIIDE. Parte de la longevidad de StarCraft se debe a la rica jugabilidad multicapa, que también la convierte en un entorno ideal para la investigación de IA.

Por ejemplo, si bien el objetivo del juego es vencer al oponente, el jugador también debe llevar a cabo y equilibrar una serie de subobjetivos, como la recolección de recursos o la construcción de estructuras. Además, un juego puede tardar de unos minutos a una hora en completarse, lo que significa que las acciones tomadas al principio del juego pueden no dar resultado durante mucho tiempo. Finalmente, el mapa solo se observa parcialmente, lo que significa que los agentes deben usar una combinación de memoria y planificación para tener éxito.

El juego también tiene otras cualidades que atraen a los investigadores, como la gran cantidad de jugadores ávidos que compiten en línea todos los días. Esto asegura que hay una gran cantidad de datos de reproducción para aprender, así como una gran cantidad de oponentes extremadamente talentosos para los agentes de inteligencia artificial.

Incluso el espacio de acción de StarCraft presenta un desafío con una selección de más de 300 acciones básicas que se pueden tomar. Contraste esto con los juegos de Atari, que solo tienen alrededor de 10 (por ejemplo, arriba, abajo, izquierda, derecha, etc.). Además de esto, las acciones en StarCraft son jerárquicas, se pueden modificar y aumentar, y muchas de ellas requieren un punto en la pantalla. Incluso suponiendo un tamaño de pantalla pequeño de 84×84 hay aproximadamente 100 millones de acciones posibles disponibles.

Esta versión significa que los investigadores ahora pueden abordar algunos de estos desafíos utilizando las propias herramientas de Blizzard para construir sus propias tareas y modelos.

Nuestro envoltorio de entorno PySC2 ayuda al ofrecer una interfaz flexible y fácil de usar para que los agentes de RL jueguen el juego. En este lanzamiento inicial, dividimos el juego en “capas de características”, donde los elementos del juego, como el tipo de unidad, la salud y la visibilidad del mapa, están aislados entre sí, al tiempo que conservamos los elementos visuales y espaciales principales del juego.

El lanzamiento también contiene una serie de ‘minijuegos’, una técnica establecida para dividir el juego en trozos manejables que se pueden usar para probar agentes en tareas específicas, como mover la cámara, recolectar fragmentos de minerales o seleccionar unidades. Esperamos que los investigadores puedan probar sus técnicas con estos y proponer nuevos minijuegos para que otros investigadores compitan y evalúen.

Nuestras investigaciones iniciales muestran que nuestros agentes funcionan bien en estos minijuegos. Pero cuando se trata del juego completo, incluso los agentes de línea de base fuertes, como A3C, no pueden ganar un solo juego incluso contra la inteligencia artificial más fácil incorporada. Por ejemplo, el siguiente video muestra un agente de capacitación en una etapa temprana (izquierda) que no logra mantener a sus trabajadores mineros, una tarea que a los humanos les parece trivial. Después del entrenamiento (derecha), los agentes realizan acciones más significativas, pero si quieren ser competitivos, necesitaremos más avances en RL profundo y áreas relacionadas.

Una técnica que sabemos que permite a nuestros agentes aprender políticas más fuertes es la imitación del aprendizaje. Este tipo de entrenamiento pronto será mucho más fácil gracias a Blizzard, que se ha comprometido con las versiones en curso de cientos de miles de repeticiones anonimizadas recopiladas de la escalera StarCraft II. Esto no solo permitirá que los investigadores capaciten a los agentes supervisados para jugar el juego, sino que también abre otras áreas de investigación interesantes, como la predicción de secuencias y la memoria a largo plazo.

Nuestra esperanza es que el lanzamiento de estas nuevas herramientas se base en el trabajo que la comunidad de AI ya ha realizado en StarCraft, fomentando más investigaciones de DeepRL y facilitando que los investigadores se centren en las fronteras de nuestro campo.

Esperamos ver lo que la comunidad descubre.

 

Ref: DeepMind and Blizzard open StarCraft II as an AI research environment.

Anuncios

Cómo salvamos la cara: los investigadores rompen el código de reconocimiento facial del cerebro

Un equipo de Caltech ha descifrado la forma en que identificamos rostros, recreando lo que el cerebro ve a partir de su actividad eléctrica.

Nuestros cerebros han evolucionado para reconocer y recordar rostros. Cuando somos bebés, una de las primeras cosas que aprendemos es mirar las caras de quienes nos rodean, responder al contacto visual e imitar las expresiones faciales. Como adultos, esto se traduce en una capacidad para reconocer rostros humanos mejor y más rápido que otros estímulos visuales. Podemos identificar al instante la cara de un amigo entre docenas en un restaurante abarrotado o en una calle de la ciudad. Y podemos ver si están emocionados o enojados, felices o tristes, de un solo vistazo.

La facilidad de reconocer caras enmascara su complejidad cognitiva subyacente. Las caras tienen ojos, narices y bocas en el mismo lugar relativo, sin embargo, podemos identificarlas con precisión desde diferentes ángulos, con poca luz e incluso mientras nos movemos. Los estudios de imagen cerebral han revelado que hemos desarrollado varias regiones pequeñas del tamaño de los arándanos en el lóbulo temporal, el área debajo del templo, que se especializan en responder a las caras. Los neurocientíficos llaman a estas regiones “parches faciales”. Pero ni los datos de los escáneres cerebrales -imágenes de resonancia magnética funcional- ni los estudios clínicos de pacientes con electrodos implantados han explicado exactamente cómo funcionan las células en estos parches faciales.

Ahora, usando una combinación de imágenes cerebrales y grabación de una sola neurona en macacos, la bióloga Doris Tsao y sus colegas de Caltech finalmente han descifrado el código neuronal para el reconocimiento facial. Los investigadores encontraron que la velocidad de disparo de cada celda facial corresponde a características faciales separadas a lo largo de un eje. Al igual que un conjunto de diales, las células se ajustan a bits de información, que luego pueden canalizar juntos en diferentes combinaciones para crear una imagen de cada cara posible. “Esto fue alucinante”, dice Tsao. “Los valores de cada esfera son tan predecibles que podemos recrear la cara que ve un mono, simplemente rastreando la actividad eléctrica de sus células faciales”.

Estudios previos habían insinuado la especificidad de estas áreas cerebrales para detectar rostros. A principios de la década de 2000, como postdoctorado en la Escuela de Medicina de Harvard, Tsao y su electrofisiólogo colaborador Winrich Freiwald obtuvieron grabaciones intracraneales de monos mientras veían una presentación de varios objetos y rostros humanos. Cada vez que una imagen de una cara aparecía en la pantalla, las neuronas en el parche de la cara media crepitaban con actividad eléctrica. La respuesta a otros objetos, como imágenes de verduras, radios o incluso otras partes del cuerpo, estuvo en gran parte ausente.

Experimentos adicionales indicaron que las neuronas en estas regiones también podrían distinguir entre caras individuales, e incluso entre dibujos de caras de dibujos animados. En sujetos humanos en el hipocampo, el neurocientífico Rodrigo Quian Quiroga descubrió que las imágenes de la actriz Jennifer Aniston provocaban una respuesta en una sola neurona. Y las imágenes de Halle Berry, miembros de The Beatles o personajes de Los Simpson activaron neuronas separadas. La teoría predominante entre los investigadores fue que cada neurona en los parches de la cara era sensible a algunas personas en particular, dice Quiroga, quien ahora se encuentra en la Universidad de Leicester en el Reino Unido y no está involucrado con el trabajo. Pero el estudio reciente de Tsao sugiere que los científicos pueden haberse equivocado. “Ella ha demostrado que las neuronas en los parches faciales no codifican para nada a personas en particular, solo codifican ciertas características”, dice. “Eso cambia por completo nuestra comprensión de cómo reconocemos los rostros”.

Para descifrar cómo las células individuales ayudaron a reconocer caras, Tsao y su postdoc Steven Le Chang dibujaron puntos alrededor de un conjunto de rostros y calcularon variaciones en 50 características diferentes. Luego utilizaron esta información para crear 2.000 imágenes diferentes de rostros que variaban en forma y apariencia, incluida la redondez de la cara, la distancia entre los ojos, el tono de la piel y la textura. A continuación, los investigadores mostraron estas imágenes a los monos mientras registraban la actividad eléctrica de las neuronas individuales en tres parches separados.

Todo lo que importaba para cada neurona era un eje de característica única. Incluso cuando se ven caras diferentes, una neurona que era sensible al ancho de la línea del cabello, por ejemplo, respondería a las variaciones en esa característica. Pero si las caras tenían la misma línea del cabello y narices de diferentes tamaños, la neurona de la línea del cabello se mantendría en silencio, dice Chang. Los hallazgos explicaron un tema largamente disputado en la teoría anterior de por qué las neuronas individuales parecían reconocer a personas completamente diferentes.

Además, las neuronas en diferentes parches faciales procesaban información complementaria. Células en un parche de cara: el parche anterior medial procesa información sobre la apariencia de las caras, como las distancias entre las características faciales, como los ojos o la línea del cabello. Las células de otros parches (las áreas del fondo medio y medio del fondo de ojo) manejaban información sobre las formas, como los contornos de los ojos o los labios. Al igual que los trabajadores en una fábrica, los diversos parches faciales hicieron trabajos distintos, cooperando, comunicándose y apoyándose mutuamente para proporcionar una imagen completa de la identidad facial.

Una vez que Chang y Tsao supieron cómo se produjo la división del trabajo entre los “trabajadores de la fábrica”, pudieron predecir las respuestas de las neuronas a una cara completamente nueva. Los dos desarrollaron un modelo para el cual los ejes de las funciones fueron codificados por varias neuronas. Luego mostraron a los monos una nueva foto de un rostro humano. Usando su modelo de cómo responderían varias neuronas, los investigadores pudieron recrear la cara que estaba viendo un mono. “Las recreaciones fueron increíblemente precisas”, dice Tsao. De hecho, eran casi indistinguibles de las fotos reales que se muestran a los monos.

Aún más sorprendente fue el hecho de que solo necesitaban lecturas de un pequeño conjunto de neuronas para que el algoritmo recree con precisión las caras que los monos estaban viendo, dice Tsao. Grabaciones de solo 205 células (106 células en un parche y 99 células en otro) fueron suficientes. “Realmente habla de lo compacto y eficiente que es este código neuronal basado en características”, dice ella. También puede explicar por qué los primates son tan buenos para el reconocimiento facial y cómo podemos identificar a miles de millones de personas diferentes sin necesitar un número igual de células faciales.

Los hallazgos, publicados el 1 de junio en Cell, proporcionan a los científicos un modelo integral y sistemático de cómo se perciben los rostros en el cerebro. El modelo también abre vías interesantes para futuras investigaciones, dice Adrian Nestor, un neurocientífico que estudia parches faciales en sujetos humanos en la Universidad de Toronto y que tampoco participó en la investigación. Comprender el código facial en el cerebro podría ayudar a los científicos a estudiar cómo las células faciales se incorporan en otra información de identificación, como el género, la raza, las señales emocionales y los nombres de rostros familiares, dice. Incluso puede proporcionar un marco para decodificar cómo se procesan otras formas no faciales en el cerebro. “En última instancia, este rompecabezas no se trata solo de caras”, dice Nestor. “La esperanza es que este código neuronal se extienda al reconocimiento de objetos como un todo”.

Ref: How We Save Face–Researchers Crack the Brain’s Facial-Recognition Code.

Startup usa AI para crear programas a partir de capturas de pantalla simples

La inteligencia artificial está amenazando los trabajos de los trabajadores en docenas de profesiones diferentes, desde la fabricación y legal a la banca y la conducción, y muchos más. Ahora es el momento de agregar programación a esa lista.

Una nueva red neuronal que está siendo construida por una startup danesa llamada UIzard Technologies IVS ha creado una aplicación que puede transformar diseños crudos de interfaces gráficas de usuario en código fuente real que puede usarse para construirlos.

El fundador de la compañía, Tony Beltramelli, acaba de publicar un trabajo de investigación que revela cómo lo ha logrado. Utiliza tecnologías de aprendizaje automático de vanguardia para crear una red neuronal que puede generar código automáticamente cuando se alimenta con capturas de pantalla de una GUI.

El modelo Pix2Code realmente supera a muchos codificadores humanos porque puede crear código para tres plataformas separadas, incluyendo Android, iOS y “tecnologías basadas en web”, mientras que muchos programadores solo pueden hacerlo para una plataforma. Pix2Code puede crear GUI a partir de capturas de pantalla con una precisión del 77 por ciento, pero eso mejorará a medida que el algoritmo aprenda más, dijo el fundador.

Beltramelli ya ha compartido algunos de los detalles sobre su tecnología en GitHub, y planea hacer disponible el código fuente completo de Pix2Code a finales de este año.

 

Ref: Startup uses AI to create programs from simple screenshots.

Lyrebird afirma que puede recrear cualquier voz con solo un minuto de audio de muestra

Los resultados no son 100 por ciento convincentes, pero es una señal de lo que vendrá.

La inteligencia artificial está haciendo que el habla humana sea maleable y replicable como los píxeles. Hoy, una startup canadiense de IA llamada Lyrebird dio a conocer su primer producto: un conjunto de algoritmos que, según la compañía, pueden clonar la voz de cualquier persona al escuchar solo un minuto de audio de muestra.

Hace algunos años esto hubiera sido imposible, pero la destreza analítica del aprendizaje automático ha demostrado ser una opción perfecta para la idiosincrasia del habla humana. Usando inteligencia artificial, compañías como Google han sido capaces de crear voces sintetizadas increíblemente reales, mientras Adobe ha presentado su propio prototipo de software llamado Project VoCo que puede editar el habla humana como Photoshop ajusta imágenes digitales.

Pero mientras Project VoCo requiere al menos 20 minutos de audio de muestra antes de que pueda imitar una voz, Lyrebird reduce estos requisitos a solo 60 segundos. Los resultados ciertamente no son indistinguibles del habla humana, pero son impresionantes de todos modos, y sin duda mejorarán con el tiempo. A continuación puede escuchar las voces sintetizadas de Donald Trump, Barack Obama y Hillary Clinton hablando de la puesta en marcha.

Lyrebird dice que sus algoritmos también pueden infundir el habla que crea con emoción, permitiendo a los clientes hacer que las voces suenen enojadas, comprensivas o estresadas. El discurso resultante se puede utilizar en una amplia gama de usos, dice Lyrebird, incluyendo “lectura de audiolibros con voces famosas, para dispositivos conectados de cualquier tipo, para síntesis de voz para personas con discapacidades, para películas de animación o para estudios de videojuegos. “Se requiere bastante poder de computación para generar una impresión de voz, pero una vez hecho, el discurso es fácil de hacer: Lyrebird puede crear mil oraciones en menos de medio segundo.

También hay usos más problemáticos. Ya sabemos que los generadores de voz sintéticos pueden engañar al software biométrico utilizado para verificar la identidad. Y, dado el material de origen suficiente, los programas de IA pueden generar imágenes y videos falsos bastante convincentes de cualquier persona que desee. Por ejemplo, esta investigación de 2016 utiliza el mapeo en 3D para convertir videos de políticos famosos, incluidos George W. Bush y Vladimir Putin, en “títeres” en tiempo real controlados por ingenieros. Combina esto con un sintetizador de voz realista y podrías tener un video de Facebook de Donald Trump anunciando que Estados Unidos está bombardeando a Corea del Norte haciéndose viral antes de que te des cuenta. Dicho esto, mientras que Lyrebird hace una buena impresión de Trump, sus otras voces son notablemente más robóticas.

Lyrebird es consciente de estos problemas, pero su solución sugerida se siente lejos de ser adecuada. En una sección de “Ética” en el sitio web de la compañía, los fundadores de Lyrebird (tres estudiantes universitarios de la Universidad de Montreal) reconocen que su tecnología “plantea importantes problemas sociales”, incluyendo cuestionar la veracidad de las grabaciones de audio utilizadas en los tribunales. “Esto podría tener consecuencias peligrosas, como la confusión de los diplomáticos, el fraude y, en general, cualquier otro problema causado por el robo de la identidad de otra persona”, escriben.

Su solución es lanzar la tecnología públicamente y ponerla “a disposición de todos”. De esa forma, dicen, el daño disminuirá porque “todos pronto sabrán que existe tal tecnología”. En declaraciones a The Verge, Alexandre de Brébisson de Lyrebird agrega: “La situación es comparable a Photoshop. La gente ahora sabe que las fotos pueden ser falsificadas. Creo que en el futuro, las grabaciones de audio serán cada vez menos confiables [como evidencia] “. Sin embargo, de Brébisson reconoce que, aunque ahora se conoce bien a Photoshop, la gente sigue convencida de falsificaciones en el contexto adecuado. Lo mismo seguramente sería cierto para la síntesis de voz.

Por ahora, la tecnología de Lyrebird todavía está en desarrollo, y la compañía no quiere discutir precios. Pero de Brébisson dice que más de 6.000 personas se han registrado para tener acceso temprano a sus API, y Lyrebird está trabajando para mejorar sus algoritmos, incluida la adición de soporte para diferentes idiomas como el francés. “Esta tecnología va a suceder”, dice de Brébisson. “Si no somos nosotros, será otra persona”.

 

Ref: Lyrebird claims it can recreate any voice using just one minute of sample audio.

Google Brain crea tecnología que puede ampliar y mejorar las imágenes pixeladas

Google Brain ha creado un nuevo software que hará que los sueños de todos los fanáticos de CSI que están molestos con la tecnología principal utilizada en toda la serie no se hagan realidad. Bueno, no existía, como ocurre ahora porque el nuevo software de Google puede crear imágenes detalladas a partir de imágenes diminutas pixeladas.

Ampliar y mejorar ha sido el blanco de tantas bromas a lo largo de los años porque todos los que tienen computadora saben que es imposible obtener una imagen clara al hacer zoom en una imagen normal. Simplemente obtendría muchos píxeles más grandes y no una imagen clara. O mejor dicho, solía hacerlo. Esta nueva tecnología de súper resolución recursiva de píxeles tiene resultados realmente atractivos, extrayendo gran cantidad de detalles de unos pocos píxeles de origen.

Por ejemplo, Google Brain presentó algunas imágenes de 8×8 píxeles que luego se convirtieron en algunas fotos bastante claras donde se pueden distinguir las características faciales.

¿Qué es esta brujería, preguntas? Bueno, es Google combinando dos redes neuronales. El primero, la red de acondicionamiento, trabaja para asignar la imagen de origen de 8×8 píxeles a otras imágenes de alta resolución. Básicamente, reduce el tamaño de otras imágenes de alta resolución al mismo tamaño de 8×8 e intenta hacer coincidir las funciones.

Luego, entra en juego la segunda red, llamada red anterior. Esta usa una implementación de PixelCNN para agregar detalles realistas y de alta resolución a esa imagen fuente de 8×8. Si las redes saben que un píxel en particular podría ser un ojo, al acercarlo, verá la forma de un ojo allí. O una ceja, o una boca, por ejemplo.

 

“Fácilmente engañado”

La tecnología fue puesta a prueba y tuvo bastante éxito contra los humanos. A los observadores humanos se les mostró una cara de celebridad de alta resolución frente a la imagen mejorada resultante de Google Brain. El diez por ciento del tiempo, fueron engañados. Cuando se trata de las imágenes de dormitorio usadas por Google para las pruebas, el 28 por ciento de los humanos fueron engañados por la imagen calculada.

Sin embargo, se debe tener en cuenta que, si bien la idea es agradable, las imágenes resultantes son un trabajo de adivinanza. No son reales porque realmente no puedes hacer que una imagen aparezca de la nada. Sin embargo, puede utilizar una suposición educada y obtener algo que pueda ser cercano a la precisión. Una imagen de un sospechoso en un robo, por ejemplo, obtendría más detalles, pero no podrá decir “hey, conozco a ese tipo” con total certeza.

 

Ref: Google Brain Creates Technology That Can Zoom In and Enhance Pixelated Images.

Algoritmo de aprendizaje profundo diagnostica el cáncer de piel tan bien como dermatólogos experimentados

¿Recuerdas cómo esa red neuronal de Google aprendió a diferenciar entre perros y gatos? Está ayudando a detectar el cáncer de piel ahora, gracias a algunos científicos de Stanford que lo entrenaron y luego lo soltaron en un gran conjunto de imágenes de diagnóstico de alta calidad. Durante pruebas recientes, el algoritmo funcionó tan bien como casi dos docenas de dermatólogos veteranos para decidir si una lesión necesitaba atención médica adicional.

Esto es exactamente lo que quise decir cuando dije que la IA será el próximo gran cambio radical en la forma en que practicamos la medicina: los humanos están extendiendo su inteligencia al suscribirla con el poder de procesamiento de las supercomputadoras.

“Hicimos un algoritmo de aprendizaje automático muy poderoso que aprende de los datos”, dijo Andre Esteva, coautor principal del artículo y estudiante graduado de Stanford. “En lugar de escribir en el código de la computadora exactamente qué buscar, dejas que el algoritmo lo resuelva”.

El algoritmo se llama una red neuronal convolucional profunda. Comenzó en desarrollo como Google Brain, utilizando su capacidad de computación prodigiosa para potenciar las capacidades de toma de decisiones del algoritmo. Cuando comenzó la colaboración con Stanford, la red neuronal ya podía identificar 1,28 millones de imágenes de cosas de alrededor de mil categorías diferentes. Pero los investigadores lo necesitaban para conocer un carcinoma maligno de una queratosis seborreica benigna.

Decirle a un pug de un persa es una cosa. ¿Cómo se puede distinguir un tipo particular de mancha irregular del color de la piel de otro, lo suficientemente confiable como para apostar potencialmente a la vida de alguien?

“No hay un gran conjunto de datos de cáncer de piel en los que podamos entrenar nuestros algoritmos, así que tuvimos que hacer el nuestro”, dijo el estudiante de posgrado Brett Kuprel, coautor principal del informe. Y tenían una tarea de traducción, también, antes de que llegaran a hacer ningún procesamiento de imagen real. “Recopilamos imágenes de Internet y trabajamos con la facultad de medicina para crear una buena taxonomía a partir de datos que eran muy complicados: las etiquetas solo estaban en varios idiomas, incluidos el alemán, el árabe y el latín”.

Los dermatólogos a menudo usan un instrumento llamado dermoscopio para examinar de cerca la piel de un paciente. Esto proporciona un nivel de aumento aproximadamente constante y una perspectiva bastante uniforme en las imágenes tomadas por profesionales médicos. Muchas de las imágenes que los investigadores recopilaron de Internet no se tomaron en un entorno tan controlado, por lo que variaron en términos de ángulo, zoom e iluminación. Pero al final, los investigadores acumularon alrededor de 130,000 imágenes de lesiones cutáneas que representan más de 2,000 enfermedades diferentes. Utilizaron ese conjunto de datos para crear una biblioteca de imágenes, que alimentaron al algoritmo como píxeles brutos, cada píxel etiquetado con datos adicionales sobre la enfermedad representada. Luego pidieron al algoritmo que descubriera los patrones: para encontrar las reglas que definen la apariencia de la enfermedad a medida que se propaga a través del tejido.

Los investigadores probaron el rendimiento del algoritmo frente a los diagnósticos de 21 dermatólogos de la facultad de medicina de Stanford, en tres tareas críticas de diagnóstico: clasificación de carcinoma de queratinocitos, clasificación de melanoma y clasificación de melanoma cuando se usa con dermatoscopia. En sus pruebas finales, el equipo usó solo imágenes de alta calidad, confirmadas por biopsia, de melanomas malignos y carcinomas malignos. Cuando se les presentó la misma imagen de una lesión y se les preguntó si “procederían con biopsia o tratamiento, o tranquilizarían al paciente”, el algoritmo obtuvo un 91% así como los médicos, en términos de sensibilidad (detectando todas las lesiones cancerosas) y sensibilidad (no obtener falsos positivos).

Aunque todavía no está disponible como una aplicación, definitivamente está en la pizarra del equipo. Intentan obtener un mejor acceso a la asistencia médica a las masas. “Mi principal momento eureka fue cuando me di cuenta de cuán ubicuos serían los teléfonos inteligentes”, dijo Esteva. “Todos tendrán una supercomputadora en sus bolsillos con varios sensores, incluida una cámara. ¿Y si pudiéramos usarlo para detectar visualmente el cáncer de piel? ¿O otras dolencias?

De cualquier manera, antes de que esté listo para comercializarse, el siguiente paso es realizar más pruebas y refinar el algoritmo. Es importante saber cómo la IA está tomando las decisiones que toma para clasificar las imágenes. “Los avances en la clasificación asistida por computadora de lesiones cutáneas benignas versus malignas podrían ayudar a los dermatólogos a mejorar el diagnóstico de lesiones desafiantes y proporcionar mejores opciones de manejo para los pacientes”, dijo la coautora Susan Swetter, profesora de dermatología en Stanford. “Sin embargo, es necesaria una validación prospectiva rigurosa del algoritmo antes de que pueda ser implementado en la práctica clínica, tanto por médicos como por pacientes”.

 

 

Ref: Deep learning algorithm diagnoses skin cancer as well as seasoned dermatologists.