Test na człowieczeństwo

Optyczne rozpoznawanie pisma (znaków) to potężna sfera zastosowań praktycznych - od usług pocztowych i bankowości, aż do logistyki z automatycznym komisjonowaniem i dostawami. Urzędy, szpitale, lotniska - wszędzie tam, gdzie człowiek posługuje się pismem czy formularzem, znajdują zastosowanie skanery wspomagane oprogramowaniem OCR. Oto wizja przyszłości: żegnajcie obcojęzyczne słowniki, jedno pociągnięcie sztyftem, nie większym od zwykłego mazaka, po tekście w książce, a na wyświetlaczu zobaczymy jego tłumaczenie. Cóż z tego, skoro nieprzewidziany rodzaj czcionki bądź nietypowa kolorystyka wydruku mogą okazać się przeszkodą nie do pokonania - na wyświetlaczu zobaczymy jedynie rządek znaków zapytania. Programy OCR, epatujące użytkownika firmowymi danymi, z niemal 100-proc. gwarancjami odczytu, w praktyce mogą mieć kłopoty z osiągnięciem odczytywalności nawet na poziomie 50%.

Komputery potrafią być tutaj bardzo wymagające. Są czułe na rodzaj papieru, typ fontów i ich wielkość, odstępy, kontrasty - słowem wszystko, co odbiega od ustalonego standardu. Oczywiście mówimy cały czas tylko o piśmie drukowanym. Pismo ręczne stanowi dla maszyny podobną łamigłówkę, jaką, nie przymierzając, dla przeciętnego człowieka stanowi odręcznie wystawiona recepta. Komputerowi jest bardzo daleko do czytelniczych umiejętności aptekarza. Gdy poznamy odpowiedź, dlaczego tak jest, z pewnością będzie miało to kluczowe znaczenie dla dalszego rozwoju sztucznej inteligencji.

Atak słownikowy

Wiemy, że człowiek jest kontekstowym (holistycznym) wzrokowcem. Że nasz mózg nauczył się czytać niemal przed ćwierć milionem lat. To znaczy posiadł zdolność szybkiego i dokładnego rozpoznawania kształtów obiektów i ich detali na długo przed pojawieniem się pisma, co nastąpiło zaledwie kilka tysięcy lat temu. W tym czasie w mózgu musiał już istnieć wykształcony ośrodek czytania.

Do pierwszych rodzajów pisma należały piktogramy, czyli obrazki, nie zaś abstrakcyjne znaki. Te pojawiły się później, choć również dzisiaj podczas czytania nie literujemy wyrazów, ale każdy z nich traktujemy jako znak będący całością. Stąd nasz opór przy próbach wszelkich reform ortograficznych. "Pront f gniastku" czy "sópa szurafinofa" choć brzmią podobnie, to jednak widoczne w druku stanowią prawdziwy szok dla naszego czytającego mózgu (o ile nie jest akurat "pięknym umysłem" ze skłonnościami dyslektycznymi). Natomiast dla komputera to tylko jeszcze jeden ciąg znaków.

W gruncie rzeczy podstawą oprogramowania OCR/ICR jest (zgodnie z nazwą) rozpoznawanie pojedynczych znaków, co dokonuje się w trzech podstawowych etapach. To segmentacja tekstu (wydzielane są akapity, linie, grupy znaków, znaki), po której następuje samo rozpoznawanie znaków, by ostatecznie możliwe było wyprowadzenie pliku tekstowego bądź przekazanie go innemu programowi (tu potrzebne są słowniki, reguły gramatyczne).

Ostatni punkt, choć bardzo istotny dla dokładności programów OCR/ICR, stanowi jedynie uzupełnienie ich logiki w sytuacji, gdy zawodzi rozpoznawanie pojedynczych znaków. Zresztą "atak słownikowy" jest bezbronny wobec neologizmów, błędów i wszelkich wyrażeń "niesłownikowych" właśnie. Rozpoznawanie zaś znaków sprowadza się do szacowania prawdopodobieństwa zgodności rozpoznawanego znaku z wzorcami.

Szampan z owocami

Wszystkie metody stosowane przez aplikacje OCR/ICR mają charakter kulturowo bezkontekstowy i dają o wiele gorsze rezultaty niż interpretowanie tekstu przez człowieka (zwłaszcza jeśli ten tekst jest mało czytelny czy zdeformowany). Zawodne są także wyrafinowane metody sztucznej inteligencji wykorzystujące logikę rozmytą (fuzzy logic) i obliczanie geometrycznych miar figur (shape context). Słowo "kontekst" w nazwie tej ostatniej metody jest raczej wyrazem bezsilności jej twórców, którzy terminologicznie próbują osłaniać braki dostępnych rozwiązań. Czy zatem komputer nie ma szans na zaliczenie testu Turinga?

Takie testy zostały już dawno przez komputery pozytywnie zaliczone, tyle że w językach innych niż naturalny. Reguły języka gry w szachy dają się zdefiniować na jednej kartce papieru, tworząc otchłań kombinacji większą niż liczba atomów w naszej galaktyce. Przez wieki uznawano, że maszyna, która potrafi grać w szachy lepiej niż człowiek, musiałaby zostać uznana za inteligentną. Dzisiaj już potrafi, nad czym przeszliśmy do porządku dziennego, twierdząc, że w gruncie rzeczy to człowiek gra sam ze sobą, tyle że na przyspieszonych i "wzmocnionych" obrotach. Że równie dobrze moglibyśmy siłować się z koparką, która przecież bez naszej uszlachetniającej myśli jest kupą złomu.

Co się jednak stanie, kiedy pod programistycznym naporem w podobny sposób będą padać kolejne bastiony zarezerwowane dotąd dla ludzkiego gatunku? Czy nasza inteligencja byłaby jedynie ilościowym spotęgowaniem prostych mechanizmów, prowadzących w efekcie do zaskakująco nowych jakości? Właśnie także testy CAPTCHA mogą przyjść nam z pomocą, gdy próbujemy znaleźć odpowiedź na to pytanie.


TOP 200