Hadoop pomoże SQL Serverowi

Użytkownicy bazy SQL Server, którzy chcą przetwarzać duże ilości danych, będą mogli skorzystać z narzędzi Hadoop.

Wydana w wersji przedprodukcyjnej wtyczka umożliwia połączenie rozwiązania Hadoop rozwijanego w modelu Java open source z użyciem języka Java z bazą SQL Server 2008 R2, SQL Server Parallel Data Warehouse. Wtyczka ta będzie także pracować z przyszłą wersją bazy o nazwie Denali.

Hadoop pochodzi z projektu MapReduce opracowanego przez Google i staje się czymś w rodzaju firmowego standardu przetwarzania olbrzymich zbiorów danych na wielu serwerach. Rozwój w modelu open source umożliwił bardzo duże zainteresowanie tą technologią, także w organizacjach, które masowo korzystają z dużych baz danych na potrzeby webowych aplikacji, takich jak: Amazon, Facebook i Twitter. Obecnie Hadoop staje się standardem także w korporacjach, które potrzebują analizy bardzo dużych zbiorów danych i coraz więcej dostawców wprowadza go do swojego portfolio. Przykładem może być EMC, oferująca rozwiązanie GreenPlum HD.

Od 2006 r. dział badawczy Microsoftu pracował nad modelem Dryad, podobnym do Hadoop. Na początku bieżącego roku planowano włączenie Dryad, integrując go z bazą SQL Server i usługami Microsoftu. Obecnie wydaje się, że Dryad będzie musiał konkurować z uznanym standardem przetwarzania dużych zbiorów danych, jakim jest Hadoop.

Do połączenia między HDFS (systemem składowania danych w Hadoop) a bazami RDBMS wykorzystuje się Sqoop, który wykorzystuje programy MapReduce do importu i eksportu danych. Z tego frameworku korzysta także connector do bazy SQL Server, przy czym połączenie do baz RDBMS odbywa się za pomocą JDBC (Microsoft dostarcza także sterowniki JDBC do połączenia z bazą SQL Server).

Opracowane connectory (Hadoop Connector for SQL Server Parallel Data Warehouse oraz Hadoop Connector for SQL Server) można pobrać ze stron Microsoftu, jest to technologia przedprodukcyjna, zatem być może zawiera błędy i jej funkcjonalność może się zmienić. Narzędzie to już działa, umożliwiając dwukierunkowy transfer danych między HDFS a bazami Microsoftu, dzięki czemu niestrukturalne dane będzie można analizować za pomocą narzędzia Hadoop, a następnie przesłać je do środowiska SQL Server, w celu dalszej analizy.

Za pomocą connectora można importować dane z tabel i kwerend z bazy SQL Server do plików tekstowych z separatorami (na przykład przecinkami lub znakami tabulacji) i binarnych typu SequenceFile (zawierających kolejkowane dane rekordów) w HDFS, a także do tabeli w hurtowni Hive. Możliwy jest import z plików tekstowych i sekwencyjnych w HFDS oraz tabel w Hive do bazy SQL Server.