Filtrowanie spamu

Do walki ze spamem w sieciach przedsiębiorstw stosuje się dedykowane bramy filtrujące, umieszczane zazwyczaj pomiędzy zaporą ogniową a serwerem poczty elektronicznej oraz usługi filtrowania antyspamowego poza siecią korporacyjną - na bramie internetowej. Brama może mieć formę oprogramowania lub urządzenia.

Do walki ze spamem w sieciach przedsiębiorstw stosuje się dedykowane bramy filtrujące, umieszczane zazwyczaj pomiędzy zaporą ogniową a serwerem poczty elektronicznej oraz usługi filtrowania antyspamowego poza siecią korporacyjną - na bramie internetowej. Brama może mieć formę oprogramowania lub urządzenia.

Filtrowanie spamu nie zapobiega jednak ponoszeniu kosztów ich transmisji. Zmniejszają się one jednak tam, gdzie są stosowane filtry, ponieważ liczba potwierdzeń odebrania spamu bywa tak niska, że ich wysyłka przestaje się opłacać.

Większość oprogramowania klienckiego poczty elektronicznej, np. Microsoft Outlook, oferuje filtrowanie wg słów kluczowych lub adresów nadawców. Można też definiować reguły heurystyczne do filtrowania poczty. Chociaż są to rozwiązania relatywnie łatwe w stosowaniu i niedrogie, to jednak efektywność filtrowania spamu spada wraz ze zwiększaniem liczby i szczegółowości filtrów. Efektem może też być obniżenie wydajności całego systemu.

Filtry nieuchronnie wnoszą dwa typy błędów: fałszywe nierozpoznanie spamu (false negatives), umożliwiające przenikanie spamu do sieci, i fałszywe rozpoznanie spamu (false positives), blokujące legalne przesyłki pocztowe.

Najnowsze filtry, oparte na technologiach samouczenia, zmniejszają prawdopodobieństwo omyłkowego usunięcia lub zablokowania poczty legalnej. Wśród technologii adaptacyjnego filtrowania spamu najbardziej znane są filtry Bayesa i sieci neutronowe, przy czym te pierwsze są częściej spotykane.

Jednak, w odróżnieniu od bardziej ustabilizowanych technologii, jak filtry słownikowe, czarne i białe listy nadawców oraz metody heurystyczne, dzisiejsze filtry adaptacyjne nie zawsze są łatwe do implementacji w sieciach korporacyjnych.

Sieci neuronowych wykrywają nowe metody działania spamerów, łącząc techniki samouczenia z metodą fałszywych skrzynek pocztowych w charakterze przynęty.

Strojenie efektywności

Wysoka czułość filtra w sposób naturalny zwiększa wskaźnik fałszywych rozpoznań. Podobnie niski wskaźnik fałszywych rozpoznań jest związany zazwyczaj z obniżonym wskaźnikiem rozpoznań właściwych.

Większość produktów antyspamowych można dostroić, zwiększając czułość i zmniejszając liczbę fałszywych rozpoznań. Są dwa podstawowe sposoby strojenia filtrów pocztowych. Pierwszy to progi określające, co jest spamem. Najlepsze produkty oferują serię poziomów, często wyrażanych w procentach, określających prawdopodobieństwo, że wiadomość jest spamem.

Drugim sposobem jest zarządzanie białymi i czarnymi listami adresowymi. Z tych dwóch białe są ważniejsze. Są to listy nadawców zawsze akceptowanych przez system. Czarne zawierają nadawców spamu.

Filtrowanie oparte na starannie sporządzonych białych listach charakteryzuje się zazwyczaj niższą liczbą fałszywych rozpoznań.

Białe listy są też tworzone na podstawie takich elementów, jak zawartość wiadomości. Na taką listę mogą trafić np. nazwy własnych produktów. Jeżeli pojawią się one w treści wiadomości, zwłaszcza dostarczanej do działów sprzedaży, filtry kwalifikują ją jako legalną. Narzędzia takie są jednak trudne do strojenia i charakteryzują się słabą wydajnością.

Pozyskiwanie adresów do spamu

Do masowego rozsyłania wiadomości niezbędne są zbiory adresów, pod które mają być dostarczane. Spamerzy mają do dyspozycji wiele narzędzi pozwalających na uzyskiwanie nowych adresów.

W Internecie można znaleźć narzędzia do automatycznego pobierania adresów poczty elektronicznej ze stron webowych, plików tekstowych i innych źródeł dostępnych online. Narzędzia te pozwalają na zarządzanie listami zgromadzonych adresów pocztowych, eliminując duplikaty, personalizując wiadomości i wykonując inne funkcje.

Szczególnie szkodliwe są metody zbierania adresów pocztowych znane pod nazwą adresowych żniw (address harvest). Technika ta jest jedną z najbardziej efektywnych w uzyskiwaniu nowych adresów. Spamer zalewa serwer pocztowy dużą liczbą przesyłek ze sfabrykowanymi adresami. Ze względu na to, że protokół SMTP automatycznie odbija przesyłki z niepoprawnymi adresami, adresy tych, które nie zostaną odbite, mogą być więc uważane za aktywne. Takie adresy mogą być następnie dodane do bazy danych i użyte przez spamera z przekonaniem, iż większość wysłanych pod nie wiadomości zostanie odebrana.

Aby zatrzymać atak typu adresowe żniwa, można zastosować zaporę ogniową reagującą na tego typu ataki.

Techniki identyfikacji spamu

Walka ze spamem jest procesem ciągłym. W miarę pojawiania się nowych technik filtrowania spamerzy starają się wynaleźć sposoby ich przechodzenia. Charakterystyki podstawowych metod wykrywania spamu są następujące:

Domenowe czarne i białe listy nadawców. Najbardziej podstawowa forma blokowania spamu. Administrator domeny wpisuje na tzw. czarną listę adresy wszystkich znanych nadawców spamu - przesyłki pocztowe pochodzące spod adresów znajdujących się na tej liście są uznawane za spam. W celu zapewnienia odbioru poczty od szczególnych nadawców tworzy się tzw. białą listę nadawców, których przesyłki są zawsze dopuszczane.

Rozproszone czarne listy to listy przeniesione na poziom Internetu. Katalogują one znane adresy spamerów i domen. Są publikowane w Internecie - bezpłatnie lub w płatnej subskrypcji (np. Mail Abuse Prevention System - MAPS). Wiele organizacji uważa te listy za bardzo użyteczne, ale często zdarza się, iż przez przypadek lub nieporozumienie znajdują się na nich legalni nadawcy poczty. Z tych powodów mogą cechować się wysokim wskaźnikiem fałszywych rozpoznań, co często kończy się rezygnowaniem z ich stosowania.

Motory heurystyczne. Do niedawna były najbardziej efektywną metodą identyfikowania spamu. Posługują się zbiorem reguł służących do analizowania wiadomości pocztowych pod kątem cech charakterystycznych dla spamu (np. obecność fraz typu "zostań bogaty" czy "nadzwyczajna okazja"). Dobry motor heurystyczny może zawierać setki lub tysiące takich reguł, często powiązanych z odpowiednią punktacją - powiększaną z każdym wykryciem cechy "spamopodobnej". Motory heurystyczne opierają się na systemie punktacji: im więcej charakterystyk spamowych w wiadomości, tym wyższa punktacja i tym większe prawdopodobieństwo, że to spam.

Motory klasyfikacji statystycznej. Najbardziej obiecującą metodą walki ze spamem stają się metody statystyczne. Klasyfikacja statystyczna jest dostępna w różnych formach. Najbardziej rozpowszechnioną dzisiaj metodą są filtry Bayesa. Ten typ filtrów jest oparty na teoretycznych podstawach opracowanych przez osiemnastowieczne-go matematyka brytyjskiego Thomasa Bayesa. Prawdopodobieństwo, że wiadomości jest spamem, jest wyliczane na podstawie pewnych wartości liczbowych przydzielanych poszczególnym słowom.

Przewaga metod klasyfikacji statystycznej leży w tym, że filtry statystyczne "uczą się" nowych technik spamerów od nich samych, bez interwencji człowieka. Filtry Bayesa opierają się na algorytmie klasyfikacji dokumentów. Pocztę dzieli się na dwa stosy: "spam" i "legalna". Na ich podstawie filtr "uczy się" rozpoznawać spam. Filtr analizuje każdy wyraz w wiadomości i określa, jak często pojawia się on w stosie "spam" i w stosie "legalne".

W poczcie przechodzącej przez "wytrenowany" filtr Bayesa poszukuje się pewnej liczby słów o najwyższym wskaźniku: "spam" albo "legalne". Liczby reprezentujące te słowa są następnie używane do wyliczenia prawdopodobieństwa, czy cała wiadomość jest spamem. Sztuczki, takie jak zamiana "I" w słowie VIAGRA na cyfrę "1", mogą wprowadzić w błąd prosty filtr słownikowy, ale nie statystyczny filtr Bayesa.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200