Captha

Tytuł tego felietonu to nieco naciągany skrót, bo - jak liczne informatyczne skróty - ma też, jako całość, kojarzyć się z jakimś pojęciem.

Tytuł tego felietonu to nieco naciągany skrót, bo - jak liczne informatyczne skróty - ma też, jako całość, kojarzyć się z jakimś pojęciem.

W tym przypadku jego rozwinięcie to Completely Automated Turing Test To Tell Computers And Humans Apart, czego sens sprowadza się do wykrywania, czy mamy do czynienia z człowiekiem, czy z komputerem. Jednocześnie, aż nader oczywiste jest skojarzenie ze słowem "capture", używanym m.in. na określenie czynności przejmowania i wprowadzania danych.

Sam skrót CAPTCHA oznacza w praktyce zapis kilku znaków, np. słowa, celowo zniekształcony graficznie, by utrudnić automatyczne rozpoznanie go przez program komputerowy. Jak to ktoś obrazowo objaśnił - to tak, jakby zapisać słowo na płaskim kawałku gumy i rozciągnąć ją później, w różnym stopniu i w różnych kierunkach naraz.

Wymyślono to na Uniwersytecie Carnegie Mellon, dla serwisu internetowego Yahoo, po to, by utrudnić dostęp komputerowych automatów, próbujących, na zasadzie kukułczego jaja, podrzucać własne treści reklamowe (np. jako głosy w dyskusji), bądź polować na adresy poczty elektronicznej, które można później wykorzystać do rozsyłania spamu.

Z rozwiązaniem tym spotkał się zapewne każdy, kto próbował zarejestrować się w jakimś internetowym serwisie, uwierzytelnić się w nim, bądź wysłać własną opinię w jakiejś sprawie. Polega ono zawsze na żądaniu odczytania takiego niekształtnego tekstu i wpisania go w polu przeznaczonym na hasło.

Takie zabezpieczenie przed automatami jest obecnie stosowane powszechnie (ocenia się, że ok. 60 mln razy każdego dnia). Zakładając, że jeżeli odczytanie i wpisanie zniekształconych liter zajmuje tylko 10 sekund, to łącznie zabiera to ludziom ok. 150 tys. godzin dziennie. Sądzę jednak, że jest to rachunek zaniżony, bo sam jestem jakoś mało rozgarnięty i udaje mi się przejść taką kontrolę za trzecim, a czasem nawet - dopiero za czwartym podejściem.

Ten sam Uniwersytet Carnegie Mellon prowadzi akcję o nazwie Internet Archive, której częścią jest sporządzanie elektronicznej wersji książek, dla których wygasły już prawa autorskie. Ma to umożliwić nie tylko ich czytanie w tej wersji, ale również przeszukiwanie ich tekstu, do czego nie wystarczy przenieść do komputera same obrazy stron, ale trzeba jeszcze zamienić tekst na postać elektroniczną.

Okazuje się, że to ostatnie zadanie wcale nie jest łatwe dla komputerów, szczególnie gdy uwzględnić książki stare, podniszczone czasopisma i wyblakłe rękopisy, gdzie komputery nie radzą sobie przeciętnie z co dziesiątym słowem. A do "przerobu" ma ten Uniwersytet ponad 100 mln egzemplarzy, co - jak się tam ocenia - przy obecnym tempie prac zajęłoby jakieś 400 lat.

No i wpadł tam ktoś na pomysł, aby zatrudnić do tego żmudnego zadania użytkowników popularnych serwisów internetowych. Stosuje się w tym celu CAPTCHA składający się z dwóch słów, z których jedno jest znane systemowi i pełni dotychczasową rolę kontrolną, drugie zaś pochodzi spośród tych z obrabianych tekstów książek, z których odczytaniem komputery mają problem. Tym razem, zamiast bezradnego komputera, nad sprawą głowi się człowiek. Aby wyeliminować wątpliwości i błędy, każde takie drugie słowo wysyła się co najmniej do dwóch osób, wyniki od których są przyjmowane w przypadku zgodności. System ten pomaga podobno rozszyfrować dziennie około miliona słów, z którymi komputery sobie radzą.

A mnie zastanawia bardziej organizacja całości, bo przecież cały system, najpierw rozsyłania, a potem zbierania tych słów i ich wstawiania we właściwe miejsca, w tekstach do których należą, musi być wysoce zautomatyzowany i zarazem pewny. A to potrafią już jednak tylko komputery...


TOP 200