IBM usa técnicas de análisis genético para filtrar el 'spam'

Ha creado un algoritmo para los correos basura partiendo de otro que aplicado a investigar proteínas

Madrid - 30 ago 2004 - 10:38CEST

El envío masivo de correos no solicitados es una plaga que afecta a casi todos los internautas. Pese a las técnicas de filtrado existentes, muchas empresas trabajan en nuevas soluciones, pero lo que pocos podían imaginar es que los trabajos de Crick y Watson sobre la secuenciación molecular servirían para combatir el 'spam'. Biólogos computacionales del Centro de Investigación TJ Watson de IBM aseguran haber desarrollado un filtro anti-spam siguiendo el camino que esos investigadores usaron para analizar secuencias genéticas.

Más información

Un estudio atribuye a EE UU la condición de ser, de lejos, el mayor exportador mundial de spam

El primer ministro australiano envía 'spam' político a través de la empresa de su hijo

La OCDE se une a la lucha contra el spam

Pfizer emprende acciones legales contra las farmacias on line que ofrecen falsa Viagra

Más del 1% de los 'correos basura' que inundan Internet procede de España

Microsoft redobla su ofensiva contra los 'spammers'

Nuevas denuncias contra remitentes de 'spam' y 'spim' en EE UU

WATSON RESEARCH CENTER:: Centro de investigación de IBM

Según cuenta hoy Cinco Días, el nuevo sistema aún tiene que pasar algunas pruebas piloto antes de que vigile las bandejas de entrada de los correos de los usuarios, pero la tecnología desarrollada promete buenos resultados. La nueva herramienta aprende automáticamente pautas propias del vocabulario del 'spam'. Y su eficacia ha demostrado ser de un 96,5%.

Los bioinformáticos de IBM Isidore Rigoutsos y Tien Huynh comenzaron a idear el algoritmo en el que se basa el nuevo filtro hace algo más de un año, y le han bautizado con el nombre de Chung-Kwei. La BBC informa de que los investigadores crearon su algoritmo partiendo de otro que se aplicaba a la investigación sobre las proteínas. Pero en lugar de identificar elementos propios de éstas, IBM sustituyó estos elementos por secuencias de caracteres que aparecen únicamente en mensajes de 'spam'. 'Obviamente, los algoritmos son aplicables a un vasto rango de problemas', explica Rigoutsos.

El nuevo sistema funciona considerando los correos como un conjunto de palabras y combinaciones de letras y símbolos. Mediante el análisis de dos colecciones de e-mails, una de 'spam' y otra de correo bueno, crea diccionarios con las combinaciones más frecuentes en cada uno. Así, es capaz de analizar y comparar cada mensaje con estos diccionarios, estableciendo un umbral a partir del cual los que lo superen son considerados 'spam' y marcados como tal.

Según reconoce Rigoutsos, su trabajo se ayudó de los grandes volúmenes de 'spam' que él y sus colegas reciben en sus puestos de trabajo. 'Hemos experimentado con grandes colecciones de e-mails. Tenemos 66.000 mensajes que son 'spam' y 22.000 que no lo son', añade Rigoutsos, quien explica que 'entrenar 88.000 mensajes lleva aproximadamente 15 minutos en un procesador simple. Si una hora más tarde tenemos más 'spam', podemos añadirlo a la colección para seguir aprendiendo cada vez más'. En pruebas recientes el filtro sólo falló en la identificación de un mensaje de entre un total de 6.000 correos basura.