Algoritmus na rozpoznávání spamu

Autor: Převzato <@>, Téma: Věda, Zdroj: New Scientist, Vydáno dne: 30. 11. 2004

Pomůže program Teiresias uživatelům zavaleným nevyžádanou elektronickou poštou?

Občas se stane, že nový objev najde využití v úplně jiné oblasti, než pro kterou jej jeho tvůrci vytvořili. Je to také případ algoritmu Teiresias, který vznikl v newyorském výzkumném centru IBM Thomase J. Watsona. Původně byl program vytvořen proto, aby prohledával různé segmenty DNA a aminokyselin a zachycoval opakující se znaky, které by měly význam pro přenos informací. Jak se ukázalo, může se stát výborným nástrojem pomáhajícím uživatelům elektronické pošty.

Podle programu Teiresias byl vytvořen podobný algoritmus Chung-Kwei nazvaný podle čínského talismanu na ochranu domu před neštěstím. Namísto písmen označujících jednotlivé segmenty výzkumníci zkusili zadat algoritmu Chung-Kwei pětašedesát tisíc slov, která se často vyskytují v nevyžádané reklamní poště - spamu. Množství této nevyžádané reklamy zahlcuje většině uživatelů poštovní schránku a nutí je spam denně vymazávat.

Každý e-mail byl zpracován tak, jako by šlo o řetězec písmen podobný DNA. Chung-Kwei v nich našel šest milionů opakujících se struktur. Často to byla typická slova spamu, např. sex, viagra nebo kombinace slov a čísel. Aby byl výsledek co nejpřesnější, vědci stejným způsobem zpracovali množství skutečných e-mailů. Poté odstranili všechna slova, jež se opakovala v obou skupinách. Nastalo třídění vyžádaných a nevyžádaných e-mailů. Přicházející elektronická pošta byla ohodnocena podle množství slov, která se vyskytovala ve spamu. Čím vyšší bylo ohodnocení, tím větší byla jistota, že jde o spam. Dlouhé zprávy s malým množstvím podezřelých slov získaly nízké ohodnocení; když se však tato slova objevovala v různých částech e-mailu častěji, ohodnocení se zvyšovalo.

A výsledek? Chung-Kwei zachytil úspěšně přes 96 procent nevyžádaných e-mailů. Nenechal se oklamat ani častými triky rozesilatelů spamu, jimiž se snaží ošálit běžné filtry. Nahradí-li se například písmeno "s" znakem "$", aby vzniklo slovo "$ex", mnohé dosud používané filtry tuto záměnu nepoznají a pokládají nové slovo za neškodné. Program Chung-Kwei se však rychle naučí, že písmena "$" a "s" jsou rovnocenná. Měl by se proto stát součástí antispamového programu SpamGuru společnosti IBM.