Spam kontra antyspam

Spam jest zjawiskiem komercyjnym. Trudno oczekiwać jego zaniku, skoro jest to działalność dochodowa. Tymczasem rozwój komercyjnych technologii antyspamowych na razie zapewnia tylko utrzymanie dynamicznej równowagi na rynku. Za wszystko płacą zaś użytkownicy.

Spam jest zjawiskiem komercyjnym. Trudno oczekiwać jego zaniku, skoro jest to działalność dochodowa. Tymczasem rozwój komercyjnych technologii antyspamowych na razie zapewnia tylko utrzymanie dynamicznej równowagi na rynku. Za wszystko płacą zaś użytkownicy.

Każdy dostawca rozwiązań z dziedziny bezpieczeństwa musi prowadzić badania, by nadążać za rozwojem technologii wykorzystywanych przez potencjalnego przeciwnika. Dotyczy to oczywiście również dokuczliwego zjawiska spamu, który zalewa skrzynki pocztowe i prowokuje pesymistyczne prognozy, że poczta e-mail może już wkrótce stracić status efektywnego narzędzia komunikacji biznesowej. Spamerzy twórczo rozwijają sposoby omijania filtrów i dlatego oprócz ochrony przed obecnymi zagrożeniami należy także prognozować to, co może zostać wykorzystane przez nich później. Badania technologii, które stosują nadawcy niechcianych reklam, mają pomóc w zatamowaniu tej powodzi, a w efekcie zapobiec sprawdzeniu się w praktyce przewidywań pesymistów.

Źródło powodzi

Spam jest zjawiskiem ściśle komercyjnym wykorzystującym typowy dla Internetu kanał komunikacji osobistej - pocztę elektroniczną. Ponieważ jest to dochodowa działalność, nie można liczyć na to, że spamerzy sami jej zaprzestaną. Nawet ostre sankcje prawne niewiele pomogą, bo zawsze znajdzie się sposób na ich uniknięcie. Słynny przypadek działań prawnych firmy reklamowej 360insight (często podejrzewanej o wysyłanie spamu) przeciw liście RBL prowadzonej przez Spamhaus pokazuje to dobitnie.

Ponieważ listy RBL są stosowane od lat i skutecznie aktualizowane, spamerzy znaleźli sposób i na nie. Pojawiły się sieci komputerów domowych, zwane botnetami, które są używane do rozsyłania internetowych śmieci. Do rozwoju botnetów przyczyniła się firma Microsoft, a dokładniej podatność na infekcje systemów Windows używanych powszechnie w komputerach domowych. Po ich masowym zainfekowaniu, systemy operacyjne są wykorzystane do uruchamiania obcego kodu - w tym przypadku programów wysyłających spam. Wobec skali botnetów typowe listy RBL są coraz bardziej bezradne.

Najmocniejsza broń dotychczasowych filtrów antyspamowych - analiza treści i nagłówków pocztowych - jest skuteczna wobec tradycyjnych listów zawierających treść wpisaną zwykłym tekstem, ewentualnie wzbogaconym o różne spamerskie sztuczki. Niestety technologia ta nie radzi sobie dobrze z najnowszymi wynalazkami spamerów, takimi jak spam obrazkowy i spam w załącznikach wykorzystujących format PDF.

Warto w tym miejscu zauważyć, że wielu administratorów stosuje ciekawy sposób na poprawę ochrony skrzynek poczty i zmniejszenie ilości śmieci wysyłanych przez botnety dzięki prostemu zabiegowi - sprawdzaniu wpisów w odwrotnym DNS. Jeśli komputer otwierający połączenie posiada wpis zawierający w nazwie DNS słowa dsl, cable, chello, access, ppp i tym podobne, oznacza to, że jest to komputer domowy, a nie serwer SMTP. Wtedy połączenie jest przerywane, gdyż zwykły komputer domowy nie jest serwerem poczty elektronicznej, zaś do wysyłania poczty od stacji roboczej do serwera SMTP powszechnie używa się SSL - a jest to połączenie na innym porcie. Serwery SMTP zazwyczaj po-siadają prawidłowe wpisy w revDNS. Z tej techniki korzysta np. dość popularne narzędzie DynaStop.

Obrazki - śmieci

Obrazki, zawierające treść trudną do automatycznego odczytania przez program komputerowy, a łatwą do przeczytania przez człowieka, zostały użyte przez spamerów, gdyż początkowo wymykały się wszelkim filtrom bazującym na zawartości. Obrazek nie zawiera przecież żadnych słów, na podstawie których automat mógł dokonać klasyfikacji na spam albo ham. Technika spamu obrazkowego stała się niesłychanie popularna w ubiegłym roku, chociaż pierwsze tego typu maile zauważono już ponad dwa lata temu. Jej początkowy sukces wynikał wyłącznie z tego, że stosowane wówczas zaawansowane filtry bazujące na słowach kluczowych były całkowicie bezsilne. Tego typu maile zawierające spam potrafiły przejść z prawdopodobieństwem rzędu 80% przez filtry, takie jak ówczesne wersje programu SpamAssassin. Ponieważ użyte zostały nowe technologie, zjawisko to zyskało popularne określenie Spam 2.0.

Pierwsze obrazki zawierające spam były zwykłymi plikami GIF z dobrze widocznym tekstem. Bardzo często były identyczne w całej kampanii spamowej, zatem można było blokować je za pomocą sygnatur obrazka. Obrazki GIF posiadały często na tyle dużo wspólnych fragmentów pliku pomiędzy kampaniami, że administratorzy niektórych serwerów poczty elektronicznej (takich jak odpowiednio zmodyfikowany qmail) potrafili je blokować na podstawie własnych sygnatur. Obecnie spamerzy stosują inne techniki, z którymi takie filtry radzą sobie coraz gorzej. Do łask wróciła stara technika ASCII image, która wykorzystuje obrazy (tutaj są nimi obrazy liter układające się w tekst reklamy) ułożone z pseudolosowych liter (rysunek powyżej). Tego typu obrazy, pomimo prawidłowego rozpoznania nawet za pomocą , nie powodują alarmów, bowiem dla aplikacji OCR tego typu ułożenie losowych liter zazwyczaj oznacza, że próbowano analizować rysunek, który z tekstem nie ma wiele wspólnego.

Gdy filtry zostały usprawnione, spamerzy zastosowali technikę zwaną captcha - obrazki, które łatwo przeczytać, ale nie radzi sobie z nimi program do rozpoznawania znaków. Takie obrazki są powszechnie stosowane do blokowania działań automatów webowych. Zazwyczaj są to obrazki z tłem o podobnym kolorze, ale minimalnie zmiennych składowych, w losowych miejscach są dodawane elementy graficzne o różnych kształtach i barwach, zaś tekst jest celowo zniekształcany. Dzięki coraz lepszym programom do manipulacji obrazu działającym wsadowo (takimi jak ImageMagick), spamerzy dostali możliwość bardzo szybkiego generowania wielu podobnych obrazów zawierających tę samą treść, ale umieszczonych w różnych formach graficznych. Przykład spamu obrazkowego stosującego tę technikę znajduje się na rysunku poniżej. Naturalnym sposobem przeciwdziałania takim technikom może być wykorzystanie dedykowanego oprogramowania, które z pewnym poziomem prawdopodobieństwa odczytuje fragmenty tekstu z obrazków. Przykładowym narzędziem jest FuzzyOCR - dodatek do popularnego SpamAssassina.

Walka ze spamem obrazkowym jest bardzo trudna, choć istnieje wiele metod bazujących na statystycznej analizie obrazów. Najszybszą metodą jest analiza wielu cech obrazu, począwszy od formatu, metadanych, histogramu, rozłożenia plam, a skończywszy na wynikach detekcji krawędzi oraz testów szerokości gamy barw. Wyniki podlegają następnie analizie statystycznej. Metoda ta, według twórców, zatrzymuje 90% spamu, który przeszedł przez pozostałe filtry. Istnieje także podejście odwrotne - szukanie zniekształceń wprowadzanych przez spamerów. Metoda jest bardzo ciekawa, wykorzystuje ona analizę statystyczną szumu, za pomocą którego spamerzy modyfikują tekst. Na razie jej efekty nie są tak dobre jak innych metod, ale technologia ta może się sprawdzić jako jeden z dodatkowych filtrów zaawansowanego motoru antyspamowego.