Un sistema inteligente aprende a ordenar los artículos de noticias según contengan o no información real

textnews-001

¿Cuántas «noticias» son realmente noticias?

 

En un artículo reciente publicado en el Journal of Artificial Intelligence Research, los informáticos Ani Nenkova y Yinfei Yang, de Google y la Universidad de Pennsylvania, respectivamente, describen un nuevo enfoque de aprendizaje automático para clasificar el periodismo escrito según una idea formalizada de «densidad de contenido». Con una precisión promedio de alrededor del 80 por ciento, su sistema clasificó las noticias en una amplia gama de dominios, abarcando desde relaciones internacionales y negocios hasta deportes y periodismo científico, evaluado en base a un conjunto de datos ya clasificados correctamente como artículos de noticias.

Esto funciona como la mayoría de los demás sistemas de aprendizaje automático, comenzando con un gran lote de datos, artículos de noticias en este caso, y luego dándole a cada instancia una anotación que indique si ese elemento pertenece o no a una categoría en particular. En este caso, el estudio se centró en el encabezado del artículo, es decir, los primeros párrafos de una historia tradicionalmente destinada a resumir sus contenidos y atraer al lector. Los artículos fueron extraídos de un conjunto de datos lingüísticos del New York Times existente que consta de artículos originales combinados con metadatos y breves resúmenes informativos escritos por investigadores.

La primera tarea fue tomar un montón de artículos de NYT -un poco más de 50,000- y comparar sus párrafos principales con los resúmenes cortos antes mencionados. La diferencia entre estas dos cosas se puede ver como un indicador de la riqueza de la información. Podemos suponer que los resúmenes maximizan la densidad del contenido (es por eso que existen) y, por lo tanto, pueden actuar como un punto de referencia para comparar contra los encabezados. La cuantificación del contenido real se realizó en términos de otro conjunto de datos existente que contiene grandes listas de palabras con mayor o menor probabilidad de transmitir contenido (alta densidad de contenido: «oficial», «unido», «hoy», baja densidad de contenido: «hombre», «día», «mundo»). Entonces, podemos imaginar que cada par de resumen y artículo obtiene una puntuación, y la densidad de contenido de una historia es la diferencia entre estos dos puntajes.

Luego se evaluó el modelo frente a un subconjunto de datos etiquetados que se habían reservado para fines de validación. Aquí es donde obtenemos la estadística del 80 por ciento, que en el gran esquema del aprendizaje automático está bien, al borde de ser bueno. A través del conjunto total de artículos analizados, se encontró que solo la mitad tenía contenido realmente significativo.

«Hemos confirmado que la anotación automática de datos captura distinciones en la capacidad de información percibidas por las personas», concluye el documento. «También mostramos experimentos de prueba de concepto que muestran cómo el enfoque se puede utilizar para mejorar el resumen de un solo documento de noticias y la generación de fragmentos de resumen en aplicaciones de exploración de noticias. En futuros trabajos, la tarea puede extenderse a niveles más precisos, con predicciones a nivel de oraciones y el predictor se podrá integrar en un sistema totalmente funcional «.

 

> AI System Sorts News Articles By Whether or Not They Contain Actual Information.

La inteligencia artificial se vuelve bilingüe, sin diccionario

La traducción automática del lenguaje ha recorrido un largo camino gracias a las redes neuronales, algoritmos informáticos que se inspiran en el cerebro humano. Pero la capacitación de tales redes requiere una enorme cantidad de datos: millones de traducciones oraciones por frases para demostrar cómo lo haría un ser humano. Ahora, dos nuevos documentos muestran que las redes neuronales pueden aprender a traducir sin textos paralelos, un avance sorprendente que podría hacer que los documentos en muchos idiomas sean más accesibles.

«Imagina que le das a una persona muchos libros chinos y muchos libros en árabe, ninguno de ellos se superpone, y la persona tiene que aprender a traducir el chino al árabe. Eso parece imposible, ¿no? «, Dice el primer autor de un estudio, Mikel Artetxe, científico informático de la Universidad del País Vasco (UPV) en San Sebastián, España. «Pero demostramos que una computadora puede hacer eso».

La mayoría de los aprendizajes automáticos -en los que las redes neuronales y otros algoritmos informáticos aprenden de la experiencia- son «supervisados». Una computadora adivina, recibe la respuesta correcta y ajusta su proceso en consecuencia. Eso funciona bien cuando se enseña a una computadora a traducir, por ejemplo, inglés y francés, porque existen muchos documentos en ambos idiomas. No funciona tan bien para idiomas raros o populares sin muchos textos paralelos.

Los dos nuevos documentos, que han sido enviados el año próximo a la Conferencia Internacional sobre Representaciones de Aprendizaje, pero que no han sido revisados ​​por pares, se centran en otro método: el aprendizaje automático no supervisado. Para empezar, cada uno construye diccionarios bilingües sin la ayuda de un maestro humano diciéndoles cuando sus suposiciones son correctas. Eso es posible porque los idiomas tienen una gran similitud en la forma en que las palabras se agrupan entre sí. Las palabras para mesa y silla, por ejemplo, se usan con frecuencia juntas en todos los idiomas. Entonces, si una computadora traza estas co-ocurrencias como un atlas gigante con palabras para ciudades, los mapas de diferentes idiomas se parecerán entre sí, solo que con diferentes nombres. Una computadora puede entonces encontrar la mejor manera de superponer un atlas en otro. Voilà! Tienes un diccionario bilingüe

Los nuevos documentos, que usan métodos notablemente similares, también se pueden traducir al nivel de la oración. Ambos usan dos estrategias de entrenamiento, llamadas traducción inversa y eliminación de ruido. En la traducción inversa, una oración en un idioma se traduce aproximadamente en el otro y luego se traduce al idioma original. Si la oración traducida de regreso no es idéntica a la original, las redes neuronales se ajustan para que la próxima vez estén más cerca. Denoising es similar a la traducción inversa, pero en lugar de pasar de un idioma a otro y viceversa, agrega ruido a una oración (reorganizando o eliminando palabras) e intenta traducirlo nuevamente al original. Juntos, estos métodos enseñan a las redes la estructura más profunda del lenguaje.

Hay pequeñas diferencias entre las técnicas. El sistema UPV se traduce con mayor frecuencia durante el entrenamiento. El otro sistema, creado por el científico informático de Facebook Guillaume Lample, con sede en París, y sus colaboradores, agrega un paso adicional durante la traducción. Ambos sistemas codifican una oración de un idioma en una representación más abstracta antes de decodificarla en el otro idioma, pero el sistema de Facebook verifica que el «lenguaje» intermedio es verdaderamente abstracto. Tanto Artetxe como Lample dicen que podrían mejorar sus resultados aplicando técnicas del documento del otro.

En los únicos resultados directamente comparables entre los dos artículos -traduciendo texto inglés y francés del mismo conjunto de aproximadamente 30 millones de oraciones- ambos lograron un puntaje de evaluación bilingüe (utilizado para medir la precisión de las traducciones) de aproximadamente 15 en ambas direcciones . Eso no es tan alto como Google Translate, un método supervisado que califica a unos 40, o humanos, que pueden obtener más de 50 puntos, pero es mejor que la traducción palabra por palabra. Los autores dicen que los sistemas podrían mejorarse fácilmente al hacerse semisupervisados, añadiendo unas pocas miles de oraciones paralelas a su entrenamiento.

Además de traducir entre idiomas sin muchos textos paralelos, tanto Artetxe como Lample dicen que sus sistemas podrían ayudar con emparejamientos comunes como el inglés y el francés si los textos paralelos son todos del mismo tipo, como informes periodísticos, pero desea traducir a un nuevo dominio , como la jerga callejera o la jerga médica. Pero, «Esto es en la infancia», advierte el coautor de Artetxe, Eneko Agirre. «Acabamos de abrir una nueva avenida de investigación, por lo que no sabemos a dónde se dirige».

«Es sorprendente que la computadora pueda aprender a traducir incluso sin supervisión humana», dice Di He, un científico informático de Microsoft en Beijing, cuyo trabajo influyó en ambos documentos. Artetxe dice que el hecho de que su método y el de Lample, cargados en arXiv en un día el uno del otro, sean tan similares es sorprendente. «Pero al mismo tiempo, es genial». Significa que el enfoque está realmente en la dirección correcta «.

 

> Artificial intelligence goes bilingual—without a dictionary.

Startup usa AI para crear programas a partir de capturas de pantalla simples

La inteligencia artificial está amenazando los trabajos de los trabajadores en docenas de profesiones diferentes, desde la fabricación y legal a la banca y la conducción, y muchos más. Ahora es el momento de agregar programación a esa lista.

Una nueva red neuronal que está siendo construida por una startup danesa llamada UIzard Technologies IVS ha creado una aplicación que puede transformar diseños crudos de interfaces gráficas de usuario en código fuente real que puede usarse para construirlos.

El fundador de la compañía, Tony Beltramelli, acaba de publicar un trabajo de investigación que revela cómo lo ha logrado. Utiliza tecnologías de aprendizaje automático de vanguardia para crear una red neuronal que puede generar código automáticamente cuando se alimenta con capturas de pantalla de una GUI.

El modelo Pix2Code realmente supera a muchos codificadores humanos porque puede crear código para tres plataformas separadas, incluyendo Android, iOS y «tecnologías basadas en web», mientras que muchos programadores solo pueden hacerlo para una plataforma. Pix2Code puede crear GUI a partir de capturas de pantalla con una precisión del 77 por ciento, pero eso mejorará a medida que el algoritmo aprenda más, dijo el fundador.

Beltramelli ya ha compartido algunos de los detalles sobre su tecnología en GitHub, y planea hacer disponible el código fuente completo de Pix2Code a finales de este año.

 

Ref: Startup uses AI to create programs from simple screenshots.