Internet szansą dla wszystkich
- Czesław Jędrzejek,
- Rafał Renk,
- Krzysztof Samp,
- Andrzej Szwabe,
- 01.01.2001
Protokoły Internetu w warstwie aplikacji
Do najważniejszych protokołów Internetu w warstwie aplikacji należą: Telnet, FTP i HTTP. Protokół Telnet realizuje wirtualny terminal, NVT (Network Virtual Terminal), standardowy interfejs używający znaków US-ASCII. FTP umożliwia przesyłanie plików pomiędzy dwoma oddalonymi komputerami i działa nad TCP. HTTP jest protokołem aplikacyjnym, używanym głównie z TCP (Transmission Control Protocol), stosowanym w WWW do pozyskiwania danych. Protokół HTTP działa w architekturze klient/serwer i używa standaryzowanego adresu URL (Universal Resource Locator). Obecnie szeroko stosowana jest wersja 1.1 protokołu (zdefiniowana w RFC 2068). Informacja wymieniana przez HTTP może mieć dowolny format, nie jest ona ograniczona tylko do HTML, języka formatowania dokumentów publikowanych w WWW . Obecną wersją jest HTML 4.01.
Nowym standardem W3C i IETF, mającym poprawić skalowalność, mechanizmy pracy grupowej, drukowania oraz zdalnego wywoływania procedur działających w środowisku rozproszonym i zastąpić HTTP/1.1, jest HTTP-NG, czyli HTTP nowej generacji.
Dostęp do baz danych za pośrednictwem Internetu
Wraz ze wzrostem wielkości i komercyjnego znaczenia sieci Internet naturalną stała się potrzeba udostępniania oprócz statycznych informacji również informacji zmiennych w czasie. W konsekwencji powstały narzędzia i systemy umożliwiające wyszukiwanie informacji przechowywanych w bazach danych. Pozwalają one na zapis danych wprowadzanych przez interfejs WWW . Podstawowe znaczenie ma możliwość dynamicznego konstruowania stron internetowych oparta na bazach danych. Dzięki tej możliwości potencjalny klient sklepu internetowego może uzyskać informację o tym, czy interesujący go towar jest aktualnie dostępny.
Dostęp do baz może być zaimplementowany za pomocą:
- interfejsu CGI (Common Gateway Interface) - serwer HTTP wywołuje programy lub skrypty (napisane np. w języku Perl czy PHP), które odczytują parametry wywołania, przetwarzają je, wykonują zapytania na bazach danych czy inne potrzebne operacje i jako wynik przesyłają do klienta pliki w formacie HTML zawierające treść zależną od danych w bazie danych i innych czynników;
- dodatkowych wyspecjalizowanych modułów i bibliotek dostarczanych wraz z serwerem webowym przez producenta, tzw. API (Application Programming Interfaces) - zapewniają one większą wydajność dzięki optymalizacji kodu pod kątem stosowanego serwera, ale nie pozwalają na przenośność napisanego kodu (np. Microsoft Internet Information Server, Oracle WebServer);
- innych rozwiązań działających po stronie serwera webowego i pozwalających na dynamiczne generowanie stron HTML, w oparciu o zmienne w czasie dane, którymi są serwlety (Servlets); są one pisane w języku Java (stworzonym przez Sun Microsystems), dzięki czemu są całkowicie przenaszalne na inne platformy. Serwlety, działając po stronie serwera, również pozwalają na realizowanie dostępu do baz danych (np. przez JDBC - Java Database Connectivity).
Wyszukiwanie w Internecie
W sieci WWW znajduje się bardzo duża liczba dokumentów, programów i innych obiektów. Przy takiej ilości danych znalezienie konkretnej informacji nie jest sprawą prostą. Narzędziami ułatwiającymi to zadanie są wyszukiwarki, które pozwalają przeszukiwać zawartość stron WWW, a także innych obiektów, np. dokumentów tekstowych lub zbioru obrazów. Po wpisaniu szukanych słów, w wyniku działania programu otrzymuje się listę stron WWW, które zawierają szukane wyrazy.
Działanie wyszukiwarki możemy podzielić na dwa równoległe procesy. Z jednej strony agent (spider, crawler, robot) odwiedza strony w sieci WWW, przeglądając ich zawartość i zapisując informacje o tych stronach w bazie danych (zasobach wyszukiwarki). Strony już zapisane są regularnie odwiedzane przez agenta, np. raz w miesiącu, w celu aktualizacji. Z drugiej strony mamy oprogramowanie sortujące, umożliwiające przeszukanie zasobów wyszukiwarki według pojedynczych lub kombinacji słów kluczowych.