Google w poszukiwaniu nowych źródeł danych

Google interesuje się oprogramowaniem do rozpoznawania znaków i chce zatrudnić specjalistów w tej dziedzinie.

Google interesuje się oprogramowaniem do rozpoznawania znaków i chce zatrudnić specjalistów w tej dziedzinie.

"Obecnie czytamy prawie każdą stronę internetową na świecie. Pomóż nam przeczytać również wszystkie materiały drukowane!" - wzywa Google w ogłoszeniu dotyczącym pracy dla inżynierów specjalizujących się w programach (www.google.com/support/jobs/bin/answer.py?answer=23733). Niejako przy okazji Google przypomina, że kilka miesięcy temu udostępnił ruchowi open source kod źródłowy systemu OCR Tesseract, opracowanego przez HP w latach 1985-1995.

W połowie lat 90. XX w. HP zawiesił rozwój tego programu. Dwa lata temu kilku specjalistów z HP zdecydowało się jednak zaproponować Uniwersytetowi w Las Vegas wspólne wypuszczenie go na rynek open source. Uniwersytet poprosił z kolei o pomoc specjalistów z , którzy po dokonaniu kilku poprawek uznali, że system nadaje się do publicznego udostępnienia.

Można podejrzewać, że nagłośnienie tego w tej chwili jest po pierwsze zabiegiem public relations, umożliwiającym zwiększenie kapitału sympatii dla Google po stronie ruchu open source. Po drugie jest elementem polowania na OCR-owe talenty, które mogą ujawnić się w trakcie prac nad udostępnionym do publicznej obróbki oprogramowaniem. Po trzecie zaś jest przejawem nadziei na wypracowanie w ramach open source nowego, bardziej efektywnego niż dotychczasowe podejścia do rozpoznawania znaków.

W gruncie rzeczy może chodzić o to, aby stworzyć powszechnie dostępne oprogramowanie OCR dla indywidualnego użytkownika, dzięki któremu mógłby przenieść do Internetu posiadane zasoby słowa pisanego - coś w rodzaju zgooglowanej wersji Projektu Gutenberga - i w ten sposób przyczynić się do zwiększenia ilości danych dostępnych w Internecie. Danych, które Google będzie mógł później wykorzystać w strategii reklamowej. Google prawdopodobnie doszedł do wniosku, że PDF-owe wersje książek udostępniane w serwisie Google Book Search nie umożliwiają pełnego wykorzystania ich reklamowego potencjału i należy pochylić się z troską nad zwykłym .txt.


TOP 200