Databricks stawia na automatyzację potoków danych dzięki Delta Live Tables
- Anirban Ghoshal ,
- 08.04.2022, godz. 09:51
Firma Databricks zaprezentowała nowy framework do ekstrakcji, transformacji i ładowania danych (ETL) o nazwie Delta Live Tables, który jest już powszechnie dostępny na platformach Microsoft Azure, AWS i Google Cloud
Według dostawcy hurtowni i jezior danych, Delta Live Tables wykorzystuje proste deklaratywne podejście do budowania niezawodnych potoków danych i automatycznego zarządzania związaną z nimi infrastrukturą w skali, zasadniczo redukując czas poświęcany przez inżynierów i naukowców na złożone zadania operacyjne.
„Struktury tabel są powszechnie stosowane w bazach danych i zarządzaniu danymi. Delta Live Tables to uaktualnienie dla wielochmurowej platformy Databricks, które wspiera tworzenie, zarządzanie i harmonogramowanie potoków w bardziej zautomatyzowany i mniej kodochłonny sposób”- powiedział Doug Henschen, główny analityk w Constellation Research.
Zobacz również:
- 5 praktycznych powodów, dla których warto wdrożyć Zero Trust
- 8 błędów strategii danych, których należy unikać
- Bez ludzi nie ma sukcesu
Databricks chce obniżyć barierę wejścia na rynek złożonych prac związanych z danymi, takich jak utrzymywanie potoków ETL w dobrej kondycji.
„Im większa firma, tym bardziej prawdopodobne jest, że będzie musiała zmagać się z pisaniem kodu i technicznymi wyzwaniami związanymi z budową, utrzymaniem i obsługą niezliczonych potoków danych” - powiedział Henschen. „Delta Live Tables ma na celu ułatwienie i zautomatyzowanie wielu czynności związanych z kodowaniem, administracją i optymalizacją, które są niezbędne do utrzymania płynności rurociągów danych".
Henschen ostrzegł jednak, że jest zbyt wcześnie, by oceniać jak potoczą się losy połączonych platform jeziora i hurtowni danych w środowiskach korporacyjnych. „Widzimy więcej wdrożeń typu greenfield i eksperymentów dla nowych przypadków użycia niż bezpośrednich wymian istniejących jezior danych i hurtowni danych” - powiedział, dodając, że DLT ma konkurencję w postaci projektu open source Apache Iceberg.
„W dziedzinie zarządzania danymi, a w szczególności w dziedzinie potoków danych analitycznych, inną wyłaniającą się opcją, która cieszy się obecnie dużym zainteresowaniem, jest Apache Iceberg. Tabular, firma stworzona przez założycieli Iceberg, pracuje nad zapewnieniem tych samych korzyści wynikających z niskiego kodu i automatyzacji” - powiedział Henschen.
Iceberg otrzymał w tym tygodniu duże poparcie, ponieważ Google Cloud przyjął ten format tabel jako część zapowiedzi swojego nowego produktu łączącego jezioro danych i hurtownię, zwanego BigLake.
Databricks twierdzi, że DLT jest już używane przez 400 firm na całym świecie, w tym ADP, Shell, H&R Block, Bread Finance, Jumbo i JLL.
Źródło: InfoWorld