Jakie systemy operacyjne są używane w polskim Internecie

W Internecie są przeprowadzane od czasu do czasu badania statystyczne. Znane od lat są zliczenia nazw w DNS - prowadzone przez SRINISC, a następnie przez Network Wizards

W Internecie są przeprowadzane od czasu do czasu badania statystyczne. Znane od lat są zliczenia nazw w DNS - prowadzone przez SRINISC, a następnie przez Network Wizards (http://www.nw. com/zone/WWW/top.html) oraz RIPE (http://www.ripe.net/statistics/hostcount.html) - które potem służą do szacunkowego obliczenia użytkowników światowej Sieci. Dotychczas nie istniały dobre metody sprawdzania, jakie systemy operacyjne są używane na różnych maszynach.

Szczególnie interesująca dla autora tego artykułu była popularność Linuxa. Są znane estymacje (http://www.re-dhat.com/redhat/linuxmarket.html) oparte na danych o sprzedaży, kopiowaniu i innych. Linux Counter (http://coun-ter.li.org/estimates.html) z kolei pozwala oszacować proporcje używania Linuxa w różnych krajach, a także tempo wzrostu liczby użytkowników tego systemu.

Program Queso (http://www.apostols.org/projectz/queso/) pozwala na sprawdzanie z dużym prawdopodobieństwem stosowanego typu systemu operacyjnego w sposób dość delikatny, bez nawiązywania połączeń TCP. Queso wysyła do badanej maszyny i portu serię kilku pakietów, z których pierwszy jest poprawną próbą zainicjowania połączenia TCP, natomiast pozostałe są błędne i nie przewidziane przez RFC. Właśnie brak definicji pomaga w zgadywaniu, jaki system odpowiada, ponieważ każdy z nich robi to nieco inaczej, tzn. na poszczególne pakiety odpowiada albo nie, a jeżeli odpowiada to odsyła z powrotem pakiet o takich samych lub innych opcjach, z pewnym numerem seryjnym i wielkością okna.

Mając tak doskonałe, choć dość delikatne narzędzie i inspirowany już przeprowadzonym badaniem (http://www. hzo.cubenet.de/ioscount/intro_01.html) przetestowałem próbkę losową z wszystkich komputerów w domenie pl (Jtp://ftp. .pl/pub/hostcount/).

Metoda

Metoda badania była następująca:

- wydobycie danych z DNS - z FTP NASKu oraz samodzielnie;

- wybranie nazw, które mają adres IP, oprócz maszyn w sieciach testowych itp. (celowo nie odfiltrowano nieznacznej liczby adresów spoza pl lub nie istniejących, aby nie zaburzać metodologii przy przyszłych badaniach porównawczych);

- odfiltrowanie podwójnych adresów IP;

- wylosowanie pewnej liczby adresów (w sumie ok. 38 000 w kilku porcjach) z wszystkich zebranych (ok. 100 tys.);

- próbkowanie portów 80, 23 i 25 (http/WWW, telnet i SMTP) każdej maszyny, trzy razy po 7 pakietów TCP wysłanych do każdego portu;

- zebrane dane zawierają datę, nazwę i adres sprawdzanej maszyny oraz wyniki dla trzech portów;

- pierwszy etap podsumowania wybiera z danych dla portów najlepszą odpowiedź, tzn. inną niż dead host itp., jeżeli takie zostały zapisane. W przeciwnym razie kopiuje informację o braku odpowiedzi do dalszego przetwarzania;

- pomiędzy pierwszym i drugim etapem podsumowania można wprowadzić filtrację, np. wszystkich nazw zaczynających się na 'www' lub nazw portów modemowych;

- drugi etap podsumowania wylicza procent maszyn, które z różnych powodów nie odpowiedziały, oraz procent nie zidentyfikowanych systemów w stosunku do całości, następnie procentowy udział poszczególnych systemów w adresach zidentyfikowanych oraz sumaryczny udział różnych odmian Unixa.

Błędy

Przygotowując statystyki należy sobie zdawać sprawę ze zniekształceń, jakie mogą wprowadzić przyjęte metody badania. Znane możliwości popełnienia błędów to m.in.:

- komputery w DNS domeny pl to nie wszystkie komputery pracujące w polskim Internecie. Wielu komputerów nie ma w DNS, dużo jest w innych domenach, np. net (co starano się w badaniach częściowo uwzględnić). Z drugiej strony część nazw w DNSie to martwe dusze;

- wiele urządzeń jest schowanych za firewallami;

- wiele pojedynczych komputerów działających jako serwery WWW ma setki adresów; adresy używane przez porty modemowe mają wielu użytkowników;

- odfiltrowanie podwójnych IP zmienia liczbę niektórych typów systemów i serwisów w stosunku do* badań opierających się bezpośrednio na nazwach z DNS, np. może zmniejszyć liczbę serwerów WWW oraz maszyn przeważnie unixowych, które nazywają się dns, ftp, www itp. i wszystkie nazwy rozwijają się na ten sam adres;

- porty 80, 23 i 25 zostały wybrane arbitralnie i mogą faworyzować maszyny unixowe, gdzie zwykle są wszystkie te serwisy. Nie zmienia to jednak wyników dla MS-Windows 95/98/NT, gdyż ich stosy TCP/IP odpowiadają również z portów, gdzie nie ma żadnych serwisów;

- prowadzącemu badania nie znane są metody wykrycia MS-Windows 3.x, gdyż te rzadko mają zainstalowane jakieś serwisy, a nie odpowiadają z nieczynnych portów, jak np. nowsze wersje Windows. Wersje 3.x są zaliczane do nie rozpoznanych systemów;

- straty pakietów zniekształcające wynik, w podobny sposób dla różnych typów systemów, mogą być duże i całkowicie uniemożliwiać identyfikację przez mocno obciążone połączenia modemowe;

- błędy identyfikacji: Queso dobrze identyfikuje Windows, Linuxa i Solarisa. Nie jest jasne, na ile pewne są identyfikacje systemów FreeBSD i pokrewnych - w nowszych wersjach dane o tych systemach są bardziej dopracowane. Urządzenia firm, które używają stosów TCP/IP zakupionych u kogoś innego lub skopiowanych z darmowych dystrybucji, mogą być identyfikowane jako systemy, z których te stosy pochodzą (np. Cray jako Digital Unix);

- wiele serwerów WWW nie ma w nazwie „www", często zdarza się, że adres jest zdefiniowany dla domeny i dla serwera WWW. Jeżeli w DNS-ie odwrotnym nie rozwija się na „www", to trudno jest zidentyfikować ten adres jako należący do serwera WWW;

- nazwy portów modemowych zostały odgadnięte lub podane przez administratorów domen. Sądzę, że wybór jest reprezentatywny, co widać po małej liczbie w oczywisty sposób błędnych identyfikacji w podsumowaniu portów modemowych;

- dane zbierane o różnych porach dnia dają nieco inne wyniki, nie są to jednak duże różnice.

nych maszyn. Kolumna „%" to procentowy stosunek liczby maszyn zidentyfikowanych do całej próbki. W kolejnych trzech liniach podano dane dla całej próbki, dla części próbki mierzonej w ciągu dnia (godz. 10.00-21.00) oraz w nocy (21.00-6.00) dla kontroli wiarygodności wyników.

Wyniki

Podsumowanie tej części Internetu, która nigdy nie śpi: procent udanych identyfikacji (76-78) wydaje się za niski, co może być spowodowane trudnościami z odbiorem wszystkich pakietów i przerwami w łączności. Rozrzut wyników pomiędzy dniem i nocą pozwala zorientować się w błędzie pomiaru.

Podsumowanie portów modemowych jest ważne do oszacowania, jakich systemów używają polscy internauci w domu. W połączeniach modemowych, jak można się było spodziewać, dominują MS-Windows (ok. 92%), a z innych systemów wyróżnia się Linux (ok. 3,4%). Takie proporcje zgadzają się z szacunkami udziału MS-Windows i Linuxa wśród systemów domowych i biurowych na całym świecie. Na bardzo niski procent identyfikacji mogą wpływać straty pakietów, a więc trudności w identyfikacji przez mocno obciążone połączenia modemowe. Widać też mniejszą zajętość portów modemowych w nocy. Średnia zajętość być może jest dużo poniżej 100%.

Zakończenie

Trudno wydobyć wiarygodne dane dla całego polskiego Internetu. Większość komputerów do niego podłączonych kryje się za firewallami. Te, które się zza nich wychylają, to z natury rzeczy serwery, np. WWW albo FTP, oraz użytkownicy, którzy z domu łączą się przez modem. Struktura ilościowa reszty jest zapewne zbliżona do struktury procentowej komputerów domowych. Podana „średnia interneto-wa" to uśrednianie jabłek i gruszek; pewną wartość będą miały dane porównawcze po dokonaniu następnych pomiarów po kilku miesiącach.

Badania zostały przeprowadzone przy użyciu jednej z maszyn Interdyscyplinarnego Centrum Modelowania Uniwersytetu Warszawskiego w Warszawie programem queso-980903 w pierwszych dniach września 1998. System: Linux 2.0.30, RedHat 4.2 na procesorze Sparc.

Podziękowania dla:

- savage - za napisanie i udostępnienie programu Queso

- zespołu technicznego ICM, który znosił niedogodności związane z badaniami

- administratorów domen, którzy podali dane o nazwach portów modemowych

- administratorów z logującymi firewallami - za cierpliwość i życzliwe zainteresowanie.

Podsumowania znajdują się na stronie WWW:http://pin-gzvin.icm.edu.pl/~rzm/queso/.

Na życzenie autor udostępni surowe dane i inne szczegóły, poza wzorami nazw portów modemowych, gdyż znaczną ich część uzyskano od administratorów po zobowiązaniu się do nieujawniania.