Filtrowanie stron internetowych

Internetowe oprogramowanie filtrujące jest na tyle efektywne, na ile jest zdolne do precyzyjnego określenia natury strony webowej, bez względu czy są to operacje giełdowe, elektroniczny handel, czy też portal prezentujący aktualności.

Internetowe oprogramowanie filtrujące jest na tyle efektywne, na ile jest zdolne do precyzyjnego określenia natury strony webowej, bez względu czy są to operacje giełdowe, elektroniczny handel, czy też portal prezentujący aktualności.

Filtrowanie stron internetowych

Jak to działa?

Jeśli strony są błędnie sklasyfikowane, to funkcjonalność filtrów zawiedzie. Nasuwa się pytanie: jak można określić rodzaj filtru, który spełni nasze wymagania?

Dostawcy oprogramowania filtrującego używają dwu podstawowych metod - anulowanie (recall) i dokładność (precision).

Efektywne oprogramowanie powinno zidentyfikować wszystkie strony webowe, które należy przefiltrować, tak jak robi się to z umieszczanymi w Internecie stronami z treściami pornograficznymi. Na tym opiera się metoda zwana anulowaniem.

Ponadto skuteczne oprogramowanie filtrujące powinno poprawnie rozpoznawać strony. Przykładem może być rozróżnianie pomiędzy stronami traktującymi wprost o seksie a stronami poświęconymi edukacji w dziedzinie seksu. Tę metodę przyjęto nazywać dokładnością.

Teoretycznie relacja pomiędzy anulowaniem i dokładnością jest odwrotna. Jeśli filtr wychwyci wszystkie możliwe strony webowe określonej kategorii, to jest mało prawdopodobne, że strony te będą precyzyjnie sklasyfikowane. Przypomina to zarzucenie do oceanu ogromnej sieci i złowienie wszystkiego, począwszy od ryb, a kończąc na wodorostach. Z drugiej strony bardzo precyzyjny filtr często nie jest w stanie zebrać wszystkich możliwych stron danej kategorii. Przypomina to wędkę - zdolną do schwytania jednej ryby spośród wielu pływających obok.

Jaki jest najlepszy rodzaj filtru dla sieci w danej organizacji? Być może najważniejszym czynnikiem jest kultura tej organizacji. Na przykład łatwiej przyjąć mniejszą precyzję lub wprost zablokować strony webowe w domach lub szkołach, gdzie najważniejsze jest zabezpieczenie dzieci przed treściami obscenicznymi.

W środowisku przedsiębiorstwa zablokowanie stron jest nie do przyjęcia, ponieważ zmniejsza to wydajność i nie dopuszcza pracowników do legalnych stron webowych. Przykładem niech będzie mniej dokładny filtr, który może skutecznie anulować strony porno, ale również zablokować strony z kuchennymi przepisami, na przykład jak przyrządzić "kurze piersi" lub poświęconych selekcji piskląt przez sekserki.

Wybierając pomiędzy dokładnością a anulowaniem należy przede wszystkim określić, jak filtr klasyfikuje stronę - czy dynamicznie, czy z bazy danych. Dynamiczne filtrowanie kładzie nacisk na anulowanie, a nie na dokładność. Filtr dynamiczny sprawdza treść strony webowej podczas jej odzyskiwania i w czasie rzeczywistym algorytmicznie określa jej kategorię. Wadami tego podejścia są: mniejsza precyzja, większe blokowanie i spowolnienie sieci, wynikające z konieczności przetwarzania algorytmu klasyfikującego.

Druga metoda, nazwana filtrowaniem z bazy danych, polega na przeglądaniu adresów stron w bazie danych zawierającej sklasyfikowane adresy URL. Podejście to pomaga zgrupować strony webowe w przydatne kategorie, tworzone na podstawie zawartości stron, jak również minimalizuje dwuznaczność i nakładanie się kategorii, przez co zwiększa dokładność. Filtrowanie z bazy danych jest dokładne w stu procentach, ale istnieje ryzyko, że w tej bazie nie znajdują się wszystkie pojawiające się na bieżąco strony, tym samym narażając je na anulowanie.

Wyzwaniem dla filtrowania z bazy danych jest stałe jej aktualizowanie, tak by zawierała najnowsze strony webowe. Najlepsze filtry tego typu pozwalają klientom wysyłać identyfikatory adresowe URL do przedsiębiorstw filtrujących w celu przeprowadzenia analiz. Po przeanalizowaniu strony są dodawane do bazy danych klienta. W pewnym sensie baza danych, której używa filtr, rośnie wraz z przeglądaniem stron - pracownicy sami sobą zarządzają.

To, jak filtr określa naturę konkretnej strony, jest najważniejszym czynnikiem przy wyborze najbardziej skutecznego rozwiązania. Administrator sieci powinien być świadomy zalet i wad wyboru pomiędzy dokładnością a anulowaniem. Filtry dynamiczne, skuteczne przy blokowaniu stron pornograficznych i innych treści webowych w czasie rzeczywistym, są generalnie akceptowane w domach i szkołach. Filtrowanie z bazy danych jest chętniej stosowane w przedsiębiorstwach, które wymagają mniej radykalnego blokowania, większej precyzji, tudzież filtrów, które odzwierciedlają potrzeby pracowników w zakresie przeglądania stron webowych.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200