Databricks открива декларативен ETL фреймуърк: Промяна в играта за AI интеграциите
Databricks открива своя декларативен ETL фреймуърк: Промяна в играта за AI интеграциите
В значим ход, който обещава да революционизира света на инженеринга на данни, Databricks обяви, че открива своя основен декларативен ETL фреймуърк като Apache Spark Declarative Pipelines. Това съобщение беше направено на Databricks Data + AI Summit, сигнализирайки нова ера в управлението на тръбопроводите за данни, която може да има далечни последици за AI интеграциите и доставчиците на решения като Encorp.ai.
Разбиране на декларативния ETL фреймуърк
Декларативният ETL фреймуърк на Databricks беше първоначално представен като Delta Live Tables (DLT) през 2022 г. Оттогава той се разви, за да помогне на екипите да изграждат и управляват надеждни и мащабируеми тръбопроводи за данни ефективно. Решението да се открие фреймуъркът отразява ангажимента на Databricks към насърчаване на отворени екосистеми и вероятно ще засили конкуренцията с други големи играчи като Snowflake, който наскоро стартира своята услуга Openflow за интеграция на данни.
Основни функции и предимства
Фреймуъркът на Databricks е проектиран да облекчи често срещаните предизвикателства в инженеринга на данни: сложно създаване на тръбопроводи, ръчни оперативни разходи и необходимостта от поддържане на отделни системи за пакетни и стрийминг натоварвания. Използвайки SQL или Python, за да опишат какво трябва да направи един тръбопровод, инженерите могат да се доверят на Apache Spark да управлява детайлите на изпълнението, включително проследяване на зависимости и оперативен мениджмънт като паралелно изпълнение и повторни опити.
Майкъл Армбруст, изтъкнат софтуерен инженер в Databricks, подчертава: "Вие декларирате серия от набори от данни и потоци от данни, а Apache Spark определя правилния план за изпълнение." Този подход поддържа пакетни, стрийминг и полу-структурирани данни, осигурявайки гъвкавост и намалявайки сложността, традиционно свързана с разработката на тръбопроводи за данни.
Сравнителен пейзаж: Databricks срещу Snowflake
Докато подходът на Snowflake с Openflow (базиран на Apache NiFi) се фокусира основно върху интеграцията на данни, Databricks предлага по-широко решение, което опростява както движението, така и трансформацията на данни от източника до използваеми данни. Тази разлика подчертава целта на Databricks да даде възможност на потребителите с цялостни възможности за тръбопроводи, елиминирайки необходимостта да бъдат заключени в собствени решения.
Импликации за индустрията и възможности за AI
Откриването на този фреймуърк предоставя ползи за множество организации, от малки стартъпи до големи предприятия, като предлага мащабируемо, гъвкаво решение за управление на тръбопроводи за данни, които са основни за AI натоварванията.
В компании като Block и Navy Federal Credit Union приемането на фреймуърка на Databricks вече доведе до значителна оперативна ефективност—намаляване на времето за разработка и оперативните разходи с впечатляващи маржове.
За технологични фирми като Encorp.ai, които се специализират в AI интеграции, това развитие предоставя възможност да интегрират усъвършенствани, мащабируеми решения за тръбопроводи в своите услуги, подобрявайки способностите си да доставят по-ефективни AI решения на клиентите.
Източници:
- Статия във VentureBeat
- Databricks Data + AI Summit
- Документация на Apache Spark
- Въведение в Delta Live Tables
- Инициатива за отворен код
Заключение
Решението на Databricks да открие своя декларативен ETL фреймуърк отбелязва ключов напредък в пейзажа на интеграцията на данни и AI тръбопроводите. Чрез демократизиране на достъпа до сложна технология за управление на тръбопроводи, Databricks поставя основата за по-широка иновация и подобрения в ефективността в индустрията. Организациите, които използват тези инструменти, ще бъдат добре позиционирани да подобрят своите AI решения, като по този начин стимулират по-голяма бизнес стойност и иновации.
Martin Kuvandzhiev
CEO and Founder of Encorp.io with expertise in AI and business transformation