Big Data w wersji open source
- 29.06.2012, godz. 16:22
Prezentujemy rozwiązania pomocne w uporaniu się z dużymi zbiorami danych
Prezentujemy rozwiązania pomocne w uporaniu się z dużymi zbiorami danych
<b>Apache Hadoop</B>
<b><a href="http://hadoop.apache.org/" target="new">Apache Hadoop</a></b> jest platformą dla aplikacji intensywnie przetwarzających znaczne ilości danych. Prace nad nią rozpoczął Doug Cutting i pierwotnie służyła jako wsparcie dla opracowywanej przez niego open source'owej wyszukiwarki internetowej. Aby sprostać potrzebie przetwarzania równoległego na wielu maszynach, Cutting zaimplementował MapReduce i rozproszony system plików. Hadoop dystrybuuje Big Data po węzłach platformy. Zalicza się do najpopularniejszych technologii przechowywania strukturalnych, częściowo strukturalnych bądź pozbawionych struktury danych, z których składają się zbiory Big Data.
Hadoop objęty jest Apache License 2.0.
<b>R</B>
<b><a href="http://www.r-project.org/%20target=" target="new">R</a></b> to open source'owy język programowania i środowisko programistyczne do obliczeń statystycznych i wizualizacji danych. Jest bardzo popularny w środowiskach akademickich, zresztą z nich się wywodzi - napisali go w roku 1993 Ross Ihaka oraz Robert Gentleman z University of Auckland w Nowej Zelandii. Platforma szybko stała się narzędziem, po które chętnie sięgano w celu analizy statystycznej bardzo dużych zbiorów danych. Została skomercjalizowana przez firmę Revolution Analytics, która świadczy wsparcie i usługi podobnie jak to czyni Red Hat dla Linuksa.
R jest dostępny w modelu w ramach GNU General Public License.
<b>Cascading</B>
To narzędzie jest nakładką na Hadoop. <b><a href="http://www.cascading.org/" target="new">Cascading</a></b> pozwala użytkownikom tworzyć i przetwarzać dane w klastrach Hadoop korzystając z dowolnego języka opartego na JVM, co z punktu widzenia użytkownika jest prostsze niż złożone zadania MapReduce. Pracę nad Cascading jako alternatywą dla MapReduce rozpoczął Chris Wensel. Rozwiązanie jest często stosowane do ukierunkowywania reklam, analizy logów, bioinformatyce, uczeniu maszynowym (machine learning), analizy predyktywnej, wydobywaniu wiedzy z treści internetowych i rozwiązaniach ETL (Extract, Transform and Load ).
Komercyjne wsparcie dla Cascading świadczy założona przez Wensela firma Concurrent. Z wersji Cascading Enterprise korzysta m.in.. Twitter.
Licencja GNU GPL.
<b>Scribe</B>
<b><a href="https://github.com/facebook/scribe" target="new">Scribe</b></a> to napisany przez Facebooka i udostępniony w 2008 roku serwer. Jego zadaniem jest agregacja logów strumieniowanych w czasie rzeczywistym z dużej liczby serwerów. Facebook zaprojektował go by sprostać własnym potrzebom skalowalności i wykorzystuje go do obsługi dziesiątek miliardów wiadomości dziennie.
Licencja Apache License 2.0
<b>ElasticSearch</B>
Oparty na Apache Lucene <b><a href="http://www.elasticsearch.org/" target="new">ElasticSearch</b></a> został napisany przez Shaya Banona. Jest to rozproszonym serwerem wyszukiwania spełniającym REST (Representational State Transfer) . Jest skalowalny i pozwala na wyszukiwania w czasie zbliżonym do rzeczywistego oraz wielodzierżawność bez potrzeby specjalnej konfiguracji. Sięgnęło po niego wiele firm takich jak StumbleUpon czy Mozilla. ElasticSearch objęty jest licencją Apache 2.0.
<b>Apache HBase</B>
Napisany w Javie <b><a href="http://hbase.apache.org/" target="new">Apache HBase</b></a> jest nierelacyjnym rozproszonym systemem baz danych, zaprojektowanym do pracy nad HDFS (Hadoop Distributed Filesystem). Oferuje system przechowywania danych odporny na awarie oraz szybki dostęp do rozproszonych danych. HBase jest jednym z wielu magazynów danych NoSQL pojawiających się w ostatnich latach. Facebook zaadaptował go do obsługi wiadomości.
Licencja Apache 2.0.
<b>Apache Cassandra</B>
Kolejny magazyn danych NoSQL - <b><a href="http://cassandra.apache.org/" target="new">Apache Cassandra</b></a>. Ten rozproszony system baz danych napisali programiści Facebooka na potrzeby wsparcia funkcji Inbox Search. W roku 2010 Facebook porzucił to rozwiązanie na rzecz Hbase.
Korzystanie z Casandry regulowane jest licencją Apache 2.0.
<b>MongoDB</B>
Stworzony przez założycieli DoubleClick <b><a href="http://www.mongodb.org/" target="new">MongoDB</b> </a>to kolejny popularny open source'owy system NoSQL. Przechowuje dane w dokumentach o strukturze podobnej do JSON (JavaScript Object Notation) ze schematami dynamicznymi określanymi jako BSON (Binary JSON). MongoDB jest wykorzystywana przez wiele korporacji związanych z multimediami jak MTV Networks, Disney Interactive Media Group czy New York Times. Platforma objęta jest licencją GNU GPL, zaś pakiety językowe do niej licencją Apache. Komercyjną wersję MongoDB oferuje firma <b><a href="http://www.10gen.com/" target="new">10gen</a></b>
<b>Apache CouchDB</B>
Jeszcze jedna z baz NoSQL, <b><a href="http://couchdb.apache.org/" target="new">Apache CouchDB</b></a> przechowuje dane w strukturach JSON. Językiem zapytań tej bazy jest JavaScript, zas interfejsem API są MapReduce oraz HTTP. System CouchDB został stworzony w roku 2005 przez Damiena Katza - byłego dewelopera IBM Lotus Notes, jako system do przechowywania bardzo dużych obiektów. CouchDB jest wykorzystywana m.in. przez BBC i Credit Suisse.
Apache CouchDB dostępny jest w licencji Apache 2.0.
Computerworld dostarcza najświeższe informacje, opinie, prognozy i analizy z branży IT w Polsce i na świecie.
W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]