Google w poszukiwaniu nowych źródeł danych
Google interesuje się oprogramowaniem do rozpoznawania znaków i chce zatrudnić specjalistów w tej dziedzinie.
Google interesuje się oprogramowaniem do rozpoznawania znaków i chce zatrudnić specjalistów w tej dziedzinie.
"Obecnie czytamy prawie każdą stronę internetową na świecie. Pomóż nam przeczytać również wszystkie materiały drukowane!" - wzywa Google w ogłoszeniu dotyczącym pracy dla inżynierów specjalizujących się w programach OCR (www.google.com/support/jobs/bin/answer.py?answer=23733). Niejako przy okazji Google przypomina, że kilka miesięcy temu udostępnił ruchowi open source kod źródłowy systemu OCR Tesseract, opracowanego przez HP w latach 1985-1995.
W połowie lat 90. XX w. HP zawiesił rozwój tego programu. Dwa lata temu kilku specjalistów z HP zdecydowało się jednak zaproponować Uniwersytetowi w Las Vegas wspólne wypuszczenie go na rynek open source. Uniwersytet poprosił z kolei o pomoc specjalistów z Google, którzy po dokonaniu kilku poprawek uznali, że system nadaje się do publicznego udostępnienia.
Można podejrzewać, że nagłośnienie tego w tej chwili jest po pierwsze zabiegiem public relations, umożliwiającym zwiększenie kapitału sympatii dla Google po stronie ruchu open source. Po drugie jest elementem polowania na OCR-owe talenty, które mogą ujawnić się w trakcie prac nad udostępnionym do publicznej obróbki oprogramowaniem. Po trzecie zaś jest przejawem nadziei na wypracowanie w ramach open source nowego, bardziej efektywnego niż dotychczasowe podejścia do rozpoznawania znaków.
W gruncie rzeczy może chodzić o to, aby stworzyć powszechnie dostępne oprogramowanie OCR dla indywidualnego użytkownika, dzięki któremu mógłby przenieść do Internetu posiadane zasoby słowa pisanego - coś w rodzaju zgooglowanej wersji Projektu Gutenberga - i w ten sposób przyczynić się do zwiększenia ilości danych dostępnych w Internecie. Danych, które Google będzie mógł później wykorzystać w strategii reklamowej. Google prawdopodobnie doszedł do wniosku, że PDF-owe wersje książek udostępniane w serwisie Google Book Search nie umożliwiają pełnego wykorzystania ich reklamowego potencjału i należy pochylić się z troską nad zwykłym .txt.
Oceń artykuł
Komentarze (0)
Najpopularniejsze
- Pierwsze w Polsce testy transmisji danych z...
- Magdalena Gaj została Przewodniczącą Rady...
- Asseco wątpi w obiektywny wybór dostawcy w...
- Raport Państwo 2.0, czyli nowa wizja...
- Sygnity: wezwanie Asseco i sezonowość...
- Ogromna liczba komputerów Mac wciąż...
- Nasza Klasa uruchomiła inkubator...
- Google prezentuje okulary z Augmented Reality
- Oracle daje klientom bezpłatny system do...
- CBA kontroluje przetargi związane z CEPiK
Rekomendacje
Serwisy IDG - Warunki obsługi - Kontakt - Redakcja - Regulamin - O nas - Polityka prywatności - Serwis zgodny z ASME
Reklama - Licencjonowanie treści - Prenumerata: Computerworld, Networld, PC World
Computerworld Polska i Computerworld Polska online są znakami towarowymi IDG Poland SA.
© Copyright 2012 International Data Group Poland S.A. 04-204 Warszawa ul. Jordanowska 12 tel.(+4822)321-78-00 fax(+4822)321-78-88






