¿Cuántas «noticias» son realmente noticias?
En un artículo reciente publicado en el Journal of Artificial Intelligence Research, los informáticos Ani Nenkova y Yinfei Yang, de Google y la Universidad de Pennsylvania, respectivamente, describen un nuevo enfoque de aprendizaje automático para clasificar el periodismo escrito según una idea formalizada de «densidad de contenido». Con una precisión promedio de alrededor del 80 por ciento, su sistema clasificó las noticias en una amplia gama de dominios, abarcando desde relaciones internacionales y negocios hasta deportes y periodismo científico, evaluado en base a un conjunto de datos ya clasificados correctamente como artículos de noticias.
Esto funciona como la mayoría de los demás sistemas de aprendizaje automático, comenzando con un gran lote de datos, artículos de noticias en este caso, y luego dándole a cada instancia una anotación que indique si ese elemento pertenece o no a una categoría en particular. En este caso, el estudio se centró en el encabezado del artículo, es decir, los primeros párrafos de una historia tradicionalmente destinada a resumir sus contenidos y atraer al lector. Los artículos fueron extraídos de un conjunto de datos lingüísticos del New York Times existente que consta de artículos originales combinados con metadatos y breves resúmenes informativos escritos por investigadores.
La primera tarea fue tomar un montón de artículos de NYT -un poco más de 50,000- y comparar sus párrafos principales con los resúmenes cortos antes mencionados. La diferencia entre estas dos cosas se puede ver como un indicador de la riqueza de la información. Podemos suponer que los resúmenes maximizan la densidad del contenido (es por eso que existen) y, por lo tanto, pueden actuar como un punto de referencia para comparar contra los encabezados. La cuantificación del contenido real se realizó en términos de otro conjunto de datos existente que contiene grandes listas de palabras con mayor o menor probabilidad de transmitir contenido (alta densidad de contenido: «oficial», «unido», «hoy», baja densidad de contenido: «hombre», «día», «mundo»). Entonces, podemos imaginar que cada par de resumen y artículo obtiene una puntuación, y la densidad de contenido de una historia es la diferencia entre estos dos puntajes.
Luego se evaluó el modelo frente a un subconjunto de datos etiquetados que se habían reservado para fines de validación. Aquí es donde obtenemos la estadística del 80 por ciento, que en el gran esquema del aprendizaje automático está bien, al borde de ser bueno. A través del conjunto total de artículos analizados, se encontró que solo la mitad tenía contenido realmente significativo.
«Hemos confirmado que la anotación automática de datos captura distinciones en la capacidad de información percibidas por las personas», concluye el documento. «También mostramos experimentos de prueba de concepto que muestran cómo el enfoque se puede utilizar para mejorar el resumen de un solo documento de noticias y la generación de fragmentos de resumen en aplicaciones de exploración de noticias. En futuros trabajos, la tarea puede extenderse a niveles más precisos, con predicciones a nivel de oraciones y el predictor se podrá integrar en un sistema totalmente funcional «.
> AI System Sorts News Articles By Whether or Not They Contain Actual Information.