Big Data: 9 technologii open-source, które warto śledzić

Big Data: 9 technologii open-source, które warto śledzić (1 z 9)

Apache Hadoop to otwarta platforma umożliwiające tworzenie działających w rozproszeniu aplikacji, które przeprowadzają obliczenia na dużych zasobach nieustrukturyzowanych danych. Pierwotnie utworzona przez Douga Cuttinga by wspierać pracę nad Nutch, otwartymi źródłami wyszukiwarki Web. Aby sprostać uniwersalnym wymaganiom przetwórczym Nutch , Cutting wdrożył MapReduce oraz rozproszone pliki systemowe, które w połączeniu stworzyły Hadoop. Nazwa pochodzi od słonika, którym bawił się jego syn. Poprzez MapReduce, Hadoop rozprowadza duże ilości danych w kawałkach po serii więzów działających na hardware. Aktualnie, Hadoop jest jedną z najpopularniejszych technologii do przechowywania strukturalnych, pół-strukturalnych oraz nieuporządkowanych danych, które składają się na „Big Data”. Platforma jest dostępna na licencji Apache 2.0.

Big Data: 9 technologii open-source, które warto śledzić (2 z 9)

R to język programowania open source i jednocześnie programowe środowisko do obliczeń statystycznych oraz wizualizacji wyników. R zostało zaprojektowane na początku roku 1993 przez Rossa Ihaka oraz Roberta Gentlemena na Uniwersytecie w Auckland w Nowej Zelandii. Projekt szybko stał się narzędziem do analizy statystycznej bardzo dużych zbiorów danych. Następnie został skomercjalizowany przez firmę Revolution Analytic, która kontynuuje usługi oraz model zainspirowany przez Red Hat wspierany przez Linux. Kod źródłowy R jest dostępny na licencji GNU General Public.

Big Data: 9 technologii open-source, które warto śledzić (3 z 9)

Cascading to otwarte oprogramowanie, które jest alternatywnym API dla Hadoopa. Cechą szczególną Cascading jest to, że pozwala tworzyć oraz wykonywać obiegowe przetwarzanie danych w MapReduce przy użyciu dowolnego języka opartego na JVM. Cascading przeznaczone jest do ukrycia zasadniczej złożoności pracy MapReduce. Zazwyczaj używane jest do ukierunkowania, logowania analizy plików, bioinformatyki, nauki maszynowej, analizy predyktywnej, eksploatowania zawartości sieci Web i aplikacji ETL. Komercyjne wsparcie dla Cascading oferuje Concurrent, firma założona przez Chrisa Wansela (twórca API) po rozbudowaniu Cascading. Przedsiębiorstwa korzystające z tego oprogramowania to m.in. Twitter i Etsy. Cascading dostępne jest na licencji GNU General Public.

Big Data: 9 technologii open-source, które warto śledzić (4 z 9)

Scribe jest serwerem rozbudowanym przez Facebook i wypuszczonym w roku 2008. Przeznaczony jest do agregowania danych z logów, w czasie rzeczywistym, z wielu serwerów. Facebook zaprojektował Scribe do realizacji własnych wyzwań związanych ze skalowaniem, jednakże aktualnie, obsługuje on dziesiątki miliardów wiadomości dziennie. Dostępny jest na licencji Apache 2.0.

Big Data: 9 technologii open-source, które warto śledzić (5 z 9)

Opracowany przez Shay’a Banona w oparciu o licencję Apache Lucene, ElasticSearch jest „restowym” (ang. RESTful) silnikiem wyszukiwania. Rozwiązanie jest skalowalne, umożliwia wyszukiwanie niemal w czasie rzeczywistym oraz obsługuje tzw. multitenancję (ang. Multitenancy, doskonałe znaleczenie tego określenia można znaleźć w artykule „Multitenancy: Wielodostępność? Wieloorganizacyjność? Multitenancja?”) bez potrzeby dodatkowej konfiguracji. ElasticSearch został przyjęty przez wiele firm, w tym StumbleUpon i Mozilla. ElasticSearch jest dostępny na licencji Apache 2.0.

Big Data: 9 technologii open-source, które warto śledzić (6 z 9)

Zakodowany w Java i wzorowany na Google BigTable, Apache HBase jest otwartym oprogramowaniem, przeznaczonym do uruchomienia nierelacyjnych i rozproszonych kolumnowo baz danych, na szczycie z Hadoop Distributed Filesystem (HDFS). Zapewnia większą niezawodność przechowywania oraz szybszy dostęp do rozproszonych danych. HBase jest jednym z wielu magazynów danych NoSQL, które stały się dostępne w przeciągu ostatnich lat. W roku 2010, Facebook przyjął Hbase jako swoją platformę wiadomości. Oprogramowanie obsługiwane jest na licencji Apache 2.0.

Big Data: 9 technologii open-source, które warto śledzić (7 z 9)

Innym magazynem danych NoSQL jest Apache Cassandra opracowany przez Facebook do obsługi funkcji wyszukiwania w skrzynce poczty odbiorczej. Facebook zrezygnował z Cassandry po tym jak w 2010 roku przejął HBase, jednakże platforma wciąż używana jest przez wiele firm, w tym Netflix, który wykorzystuje Cassandrę jako wewnętrzną bazę danych dla swoich usług strumieniowego przesłania danych. Cassandra jest dostępna na licencji Apache 2.0.

Big Data: 9 technologii open-source, które warto śledzić (8 z 9)

Wykreowany przez założycieli DoubleClick, MongoDB jest kolejnym popularnym otwartym oprogramowaniem NoSQL, magazynującym bazy danych. Przechowuje on dane strukturalne w dokumentach podobnych do JSON z dynamicznymi schematami nazywanymi BSON (dla Binary JSON). MongoDB zostało przyjęte przez wiele dużych przedsiębiorstw, w tym MTV Network, Craigslist, Disney Interactive Media Group, The New York Times i Etsy. Dostępne dla licencji GNU Affero General Public, z językami przewodnimi dostępnymi w ramach licencji Apache. Firma 10gen oferuje licencję komercyjną dla MongoDB.

Big Data: 9 technologii open-source, które warto śledzić (9 z 9)

Apache CouchDB jest jeszcze innym otwartym oprogramowaniem dla bazy danych NoSQL. Platforma wykorzystuje JSON do przechowywania danych, JavaScript jako języka zapytań oraz MapReduce i HTTP dla API. CouchDB powstał w roku 2005 za sprawą byłych programistów IBM Lotus Notes – m.in. dewelopera Damiena Katz’a, jako system magazynujący duże obiekty skalowanych baz danych. Oprogramowanie wykorzystywane jest przez BBC do obsługi treści udostępnianych dynamicznie na różnych platformach, zaś dział towarowy Credit Suisse używa go do magazynowania szczegółów konfiguracji szkieletu marketu danych w Python – przechowuje m.in. wzory zapytań SQL, adresy url czy wzorce regex. SQL CouchDB dostępne jest na licencji Apache 2.0.

Computerworld.pl

Big Data: 9 technologii open-source, które warto śledzić

Big Data: 9 technologii open-source, które warto śledzić (1 z 9)

Big Data: 9 technologii open-source, które warto śledzić (2 z 9)

Big Data: 9 technologii open-source, które warto śledzić (3 z 9)

Big Data: 9 technologii open-source, które warto śledzić (4 z 9)

Big Data: 9 technologii open-source, które warto śledzić (5 z 9)

Big Data: 9 technologii open-source, które warto śledzić (6 z 9)

Big Data: 9 technologii open-source, które warto śledzić (7 z 9)

Big Data: 9 technologii open-source, które warto śledzić (8 z 9)

Big Data: 9 technologii open-source, które warto śledzić (9 z 9)

Tematy

Serwisy IDG

Zamów reklamę

(+48) 662 287 830

Computerworld.pl

Big Data: 9 technologii open-source, które warto śledzić

Big Data: 9 technologii open-source, które warto śledzić (1 z 9)

Big Data: 9 technologii open-source, które warto śledzić (2 z 9)

Big Data: 9 technologii open-source, które warto śledzić (3 z 9)

Big Data: 9 technologii open-source, które warto śledzić (4 z 9)

Big Data: 9 technologii open-source, które warto śledzić (5 z 9)

Big Data: 9 technologii open-source, które warto śledzić (6 z 9)

Big Data: 9 technologii open-source, które warto śledzić (7 z 9)

Big Data: 9 technologii open-source, które warto śledzić (8 z 9)

Big Data: 9 technologii open-source, które warto śledzić (9 z 9)

Tematy

Serwisy IDG

Znajdź nas:

Zamów reklamę

(+48) 662 287 830