Nowe sposoby walki ze spamem

Niechciane przesyłki pocztowe są wielkim utrapieniem administratorów sieci przedsiębiorstwa. Do walki ze spamem stosuje się m.in. sztuczną inteligencję. Przyjrzyjmy się metodzie filtracji spamu opartej na procesorach języków naturalnych, symulującej czytanie wiadomości.

Niechciane przesyłki pocztowe są wielkim utrapieniem administratorów sieci przedsiębiorstwa. Do walki ze spamem stosuje się m.in. sztuczną inteligencję. Przyjrzyjmy się metodzie filtracji spamu opartej na procesorach języków naturalnych, symulującej czytanie wiadomości.

Instytut badawczy Ferris Research szacuje, że w Stanach Zjednoczonych od początku tego roku spam kosztował korporacje już ponad 10 mld USD. Według innych źródeł ok. 67% przesyłek pocztowych to spam, kosztujący biznes ok. 600 mln miesięcznie. Nawet jeśli liczby te są mocno przesadzone, to nie ma wątpliwości, że spam to problem bardzo poważny.

Jedną z najnowszych metod walki z tym zjawiskiem jest zastosowanie sztucznej inteligencji (AI - Artificial Intelligence). Pomysł tworzenia systemów opartych na AI zakłada bardziej efektywną i szybszą autoadaptację systemu do zmieniających się metod stosowanych przez nadawców spamu.

Oprogramowanie filtrowania przy użyciu sztucznej inteligencji przejmuje cały ruch wchodzący poczty elektronicznej, kierując zaakceptowane przesyłki do korporacyjnego serwera SMTP, a pozostałe - oznakowując jako potencjalny spam. Podejrzane przesyłki pocztowe są poddawane kwarantannie, a administrator może przeglądać ich zawartość i decydować o ich losie.

Infrastruktura dostępowa sieci WLAN

Infrastruktura dostępowa sieci WLAN

Sztuczna inteligencja jest jednym z wielu środków w arsenale przeznaczonym do walki ze spamem.

W tej zabawie w kotka i myszkę wyprzedzenie o jeden krok spamerów jest niezwykle trudne, ponieważ nieustannie wykorzystują oni niedoskonałości filtrowania opartego na słowach kluczowych. Jednak najnowsze metody filtrowania, bazujące na sztucznej inteligencji, pozwalają mieć nadzieję na rozwiązanie tego problemu.

Technika sztucznej inteligencji przypomina sposób uczenia się człowieka. Raz nabyta wiedza może być wykorzystana do różnych celów.

Procesory języków naturalnych mogą działać jako potężne narzędzie sztucznej inteligencji. Takie procesory są dzisiaj wyposażane w zestawy bardzo złożonych algorytmów, które można zastosować do przeglądania poczty elektronicznej w sposób podobny do czytania tych treści przez człowieka. Algorytmy takie są wbudowywane w oprogramowanie filtrowania poczty elektronicznej, które generalnie jest używane poza zaporą ogniową lub w trybie ASP.

Człowiek potrafi przeglądać wiadomości, szybko oceniając, czy są one spamem. Powiązanie słów kluczowych na podstawie ich umiejscowienia w zdaniu pozwala np. na odróżnienie "piersi kurczaka" jako potrawy i "nagiej piersi" w treściach pornograficznych. Algorytmy języka naturalnego dzielą w ten sposób wiadomości na zdania i analizują ich znaczenie.

Technologia przetwarzania języków naturalnych rozpoznaje znaczenie wiadomości przez analizę słów, zdań i paragrafów - odmiennie niż algorytmy, które traktują słowa w oderwaniu od kontekstu.

Jako przykład przytoczmy wiadomość następującej treści: Przygotuję na wieczór delikatne piersi kurczaka, atrakcyjnie podane. Przepis znalazłam na stronie www.partycooking.com", na której jest również zdjęcie tej potrawy. Jeżeli możesz zabrać z sobą Tomka, to zadzwoń do mnie do pracy pod numer 800-262-5555 x345.

Standardowa analiza słów kluczowych wyłowi takie wyrazy jak: pierś, atrakcyjna, zdjęcie oraz bezpłatny numer telefoniczny i URL. Natomiast analiza przeprowadzona za pomocą sztucznej inteligencji powinna określić tę wiadomość jako zaproszenie na kolację.

W tym przykładzie technika filtrowania oparta na słowach kluczowych wyławia fragmenty zdania bez właściwego rozumienia jego treści. Oddzielnie mogą brzmieć tak, jakby cała sentencja miała charakter pornograficzny.

Innym wyzwaniem jest wykrywanie legalnej korespondencji biznesowej. Na przykład list od pośrednika nieruchomości może brzmieć: Przeanalizowałem oferty i znalazłem dziś rano nieruchomość o niewiarygodnie niskiej cenie i bez obciążeń hipotecznych. Jeżeli interesuje cię ona, to zadzwoń do mnie dzisiaj, tak abym mógł zablokować tę ofertę dla ciebie. Ważność oferty wygasa dziś o północy.

Standardowy analizator słów może sklasyfikować taką wiadomość jako spam, z powodu takich terminów, jak "niska cena", "oferta", "wygasa o północy". Analiza oparta na sztucznej inteligencji powinna natomiast stwierdzić, że korespondencja dotyczy nieruchomości.

Nawet najostrzejsza technika sztucznej inteligencji może kwestionować samą wiadomość, ale ostateczna decyzja może być podjęta po uwzględnieniu innych czynników niż treść. Na przykład technika oparta na wzorcach transmisyjnych może uwzględniać czas, w którym została wysłana wiadomość, kto ją wysłał i skąd pochodzi. I tak, jeżeli przytoczona powyżej wiadomość pochodzi od tego samego nadawcy co kilkanaście innych, wysłanych w ubiegłym tygodniu, wszystkie pochodzą z tego samego serwera i pojawiły się podczas normalnych godzin pracy, a żadna z nich nie wyglądała na spam - to wszystko przemawia za tym, że ta ostatnia przesyłka też nie jest spamem. Inne techniki filtrowania mogą jednak wyrzucić taką wiadomość do kosza.

Nie istnieje system przechwytujący 100% spamu, ale technika sztucznej inteligencji może znacznie przybliżyć ten cel.


TOP 200