Hurtownia danych "kup teraz"

Miliardy kliknięć i rekordów

Najwięcej kłopotów sprawiał system rejestrowania kliknięć. Problemy były spowodowane nie tyle ilością danych (250-300 mln krotek dziennie), ale liczbą charakteryzujących je wymiarów. Do importu surowych danych wystarczy odpowiednie przygotowanie tabel, do których są ładowane fakty. Gdy trzeba te same fakty kategoryzować wymiarami, zaczynają się problemy. Chociaż liczba pól nie przekracza kilkudziesięciu, wymiary są wielomilionowe. Jednym z nich jest użytkownik (ok. 15 mln zarejestrowanych), do najważniejszych należą także kategoria (8 tys.), czy rejestrowana lokalizacja (80 tys.). Ponieważ ilość kombinacji byłaby bardzo duża, wyszukiwanie identyfikatorów nie mogło mieć zastosowania. Problem rozwiązano za pomocą grupowania i łączenia tabel, z którymi Oracle Database Machine sobie doskonale radzi, nawet przy bardzo skomplikowanych warunkach. Sumaryczny czas tych operacji w ciągu doby nie przekracza czterech godzin.

Ponieważ system rejestracji kliknięć dostarcza dużo danych, już wdrożono reguły ich retencji. Komplet informacji przechowuje się przez trzy miesiące, starsze dane są agregowane miesięcznie. Według planów ten system będzie wystarczający na najbliższe 10 lat. Przy danych z systemu transakcyjnego, archiwizacja nie jest obecnie potrzebna. Testy wykazały, że nawet trzykrotny wzrost ilości danych przy dwukrotnym wzroście obciążenia nie będzie problemem dla istniejącej infrastruktury. Obecnie dokonywany jest refaktoring kodu portalu aukcyjnego, aby zredukować ilość zapisów w produkcyjnej bazie danych. Wzrost ilości danych i obciążenia wpłynąłby tylko na nieznaczne wydłużenie czasu opóźnienia kopii wykonywanej za pomocą Oracle Data Guard.

Drugie dno klikania

Hurtownia danych zasilona informacjami o przeglądaniu - w połączeniu z danymi transakcyjnymi - umożliwia wykrycie automatów pobierających zawartość serwisu. "Widzimy, co robią użytkownicy z różnych krajów. Jedni za pomocą botów przeglądają strukturę katalogów, inni pobierają zawartość konkretnych kategorii, aby dokonywać analiz ofert i cen. Część z tych automatów została skatalogowana, inne już zostały zablokowane. Dla nas najważniejszy jest ruch użytkowników powiązany z przeglądaniem serwisu, połączony z późniejszymi transakcjami"- mówi Rafał Kudliński. Analiza kliknięć została wdrożona w sierpniu. QXL Poland zamierza udostępnić usługę, która dzięki niej usprawni działanie sklepów i aukcji wystawianych przez supersprzedawców. Oprócz analizy ruchu, bardzo ważnych informacji dostarczają słowa kluczowe używane przy wyszukiwarce aukcji w serwisie. Te wszystkie informacje zostaną połączone, aby służyć supersprzedawcom przy jak najlepszym dopracowaniu oferty.


TOP 200