Pokonać SPAM

Przez dłuższy czas motory heurystyczne były bardzo efektywne. Jednak od pewnego czasu taktyki spamerów stały się coraz bardziej wymyślne, w związku z czym efektywność tych narzędzi znacznie spadła. Stało się tak przede wszystkim dlatego że reguły te są dostępne poprzez projekty open source również dla spamerów. Dzięki temu używają oni ich do oczyszczania swoich wiadomości przed wysłaniem. Metody heurystyczne są także bardzo pracochłonne - reguły muszą być ciągle uaktualniane wraz z pojawianiem się nowego spamu.

Motory klasyfikacji statystycznej. Najbardziej obiecującą metodą walki ze spamem stają się metody statystyczne. Klasyfikacja statystyczna jest dostępna w różnych formach. Najbardziej rozpowszechnioną dzisiaj metodą są filtry Bayesa. Ten typ filtrów oparto na teoretycznych podstawach opracowanych przez XVIII-wiecznego matematyka brytyjskiego Thomasa Bayesa. Prawdopodobieństwo, że wiadomość jest spamem, jest wyliczane na podstawie pewnych wartości liczbowych przydzielanych poszczególnym słowom wiadomości.

Przewaga metod klasyfikacji statystycznej leży w tym, że mogą one być bardzo dokładne i nie wymagają takiej pielęgnacji, jak inne metody antyspamowe. Filtry statystyczne "uczą" się od spamerów ich nowych technik, bez interwencji człowieka.

Filtry Bayesa opierają się na algorytmie klasyfikacji dokumentów. Poczta jest dzielona na dwa stosy: "spam" i "legalna", z których filtr "uczy się" rozpoznawać spamy. Filtr analizuje każdy wyraz w wiadomości i określa, jak często słowo to pojawia się w stosach: "spam" i "legalne". Jeżeli filtr znajdzie np. wyraz V1AGRA w stosie "spam", a nie znajdzie takiego wyrazu w stosie "legalne", to VIAGRA uzyskuje wskaźnik 100% jako słowo związane ze spamem. Wyraz "jest" pojawi się prawdopodobnie z taką samą częstotliwością w spamie i przesyłkach niebędących spamem i - osiągając w ten sposób wskaźnik 50% - stanie się słowem neutralnym. Wyrazy, które pojawiają się w stosie "legalne", a w stosie "spam" zdarzają się rzadko lub wcale, uzyskują wysoki wskaźnik, jako słowa niezwiązane ze spamem.

W poczcie przechodzącej przez "wytrenowany" filtr Bayesa poszukuje się pewnej liczby słów o najwyższych wskaźnikach - "spam" albo "legalne". Liczby reprezentujące te słowa są następnie używane do wyliczenia prawdopodobieństwa, czy cała wiadomość jest spamem. Sztuczki takie, jak zamiana "I" w słowie VIAGRA na cyfrę "1", mogą wprowadzić w błąd prosty filtr słownikowy, ale nie statystyczny filtr Bayesa.

Gdyby jednak filtr popełnił błąd, oznaczając pocztę legalną jako spam (złe rozpoznanie) lub oznaczając spam jako pocztę legalną (nierozpoznanie), użytkownik końcowy może przesyłać niewłaściwie rozpoznane wiadomości do folderu korekcji. Filtr używa tych folderów do ponownego uczenia się - często z zadekretowaną przez użytkownika częstotliwością. Regularny "trening" filtru zapewnia, że uczy się on automatycznie najnowszych trików spamerów (takich jak nic nieznaczące znaki w wierszu TEMAT i spacje między literami). Filtrowanie może być także personalizowane. Dział zamówień może akceptować różnego rodzaju oferty handlowe jako legalne, gdy dla innych może to być spam.

Ze względu na to, że filtry Bayesa były projektowane dla klientów, jest to zazwyczaj mechanizm w produktach konsumenckich. Wiele filtrów statystycznych jest dostępnych bezpłatnie jako narzędzia open source. Są również z powodzeniem stosowane w sieciach przedsiębiorstw, ale ich wdrożenie jest dość skomplikowane.

Sieci neuronowe. Kreatywna adaptacja metod statystycznych eliminuje konieczność instalowania oprogramowania po stronie klienckiej.

Sieci neuronowe oparte na algorytmach sztucznej inteligencji są podobne w działaniu do filtrowania za pomocą metod statystycznych (Bayesa) - oprogramowanie uczy się rozpoznawania nowego spamu. Jednak oprogramowanie to rezyduje w ośrodkach dostawców filtrów, a nie na klientach użytkowników. Wsad poczty elektronicznej, używany do uczenia sieci neuronowych, przychodzi z tysięcy fałszywych skrzynek pocztowych założonych przez dostawców w celu wychwytywania spamu. Sprawdzanie olbrzymiej liczby wiadomości pozwala uczącej się maszynie stale nadążać za trikami spamerów.

Jednak, podobnie jak przy oprogramowaniu antywirusowym, produkty oparte na sieciach neuronowych wymagają, aby użytkownicy regularnie je uaktualniali, zazwyczaj raz dziennie.

Amerykanie spamują najwięcej

Ponad połowa spamu pochodzi ze Stanów Zjednoczonych, na drugim miejscu pod tym względem znalazły się Chiny, za nimi Wlk. Brytania. Przed świętami Bożego Narodzenia zaleje nas jeszcze większa niż dotychczas fala niezamówionych wiadomości. Spamerzy już przygotowują się na tę okoliczność - wskazują analitycy uczestniczący w konferencji Narodów Zjednoczonych.

Odsetek spamu zwiększy się przed Bożym Narodzeniem o 64% - wskazują analizy Corvigo. Ten okres w roku stanowi dla spamerów świetną okazję do zalania skrzynek masą niechcianych wiadomości. Można więc się spodziewać ogromnej liczby ofert zakupów przedświątecznych i pożyczek. Napór spamu ma zelżeć w połowie stycznia.

Najwięcej spamu z pewnością będzie pochodzić ze Stanów Zjednoczonych. Z badań Jupiter Research wynika, że Amerykanie biją rekordy w wysyłaniu niezamówionych wiadomości. Także najwięcej ofiar spamu znajduje się w USA. Wynika to z tego, że Stany Zjednoczone są największym rynkiem handlowym na świecie - skomentował jeden z analityków Jupiter Research.- W Europie rocznie na sprzedaż online wydaje się 19,4 mld euro, podczas gdy w USA - ok. 51,7 mld USD.

Jak wynika z analiz MessageLab, spam naraża firmy na całym świecie na koszty rzędu 20,5 mld USD rocznie.

Computerworld.pl

Pokonać SPAM

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Pokonać SPAM

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830