Data

Databricks vs Snowflake

H.Hoper 2023. 9. 7. 17:45

🔱 요즘 LLM과 AI가 전세계를 휩쓸면서 더불어 이에 대한 원소스가 되는 데이터 시장 역시 증가하고 있습니다. 특히, 퍼블릭 클라우드 기반의 데이터 서비스 시장에 CSP3사(AWS, Azure, GCP)를 제외하고 Snowflake와 Databricks가 핫한 아이템이(?) 되고 있습니다. 본래 각자 추구하는 방향성과 시작포인트를 달랐지만, 영역을 확대하면서 겹치는 분야에서의 경쟁이 이루어지고 있습니다. 마침, 이 두기업에 대한 상세 분석을 해놓은 글이 있어 deepL의 도움을 받아 글을 공유해봅니다(개인적인 의견은 전혀 반영되어 있지 않음을 미리 밝힙니다)~~ ^^

🍉  데이터브릭스와 스노우플레이크는 클라우드에서 빅데이터 분석 플랫폼의 주요 공급업체로 부상했습니다. 두 라이벌 사이에는 몇 가지 유사점이 있지만, 잠재 고객이 알고 싶어할 만한 중요한 차이점도 있습니다.

데이터 작업을 클라우드로 이전하려는 경우, 이 분야에서 가장 크고 빠르게 성장하고 있는 두 회사 중 하나인 Databricks와 Snowflake를 고려하고 있을 것입니다. 두 회사 모두 종속성에 대한 두려움으로 인해 기업들이 멀티 클라우드 전략과 멀티 클라우드 플랫폼을 수용하게 되면서 AWS, Google Cloud, Microsoft Azure라는 이름을 사용하지 않는 상대적인 독립성에서 이점을 누리고 있는 것으로 보입니다. 따라서 두 회사의 주요 유사점과 차이점, 그리고 두 회사의 제품에 대해 간략히 소개합니다.

🍉 제품 제공
👉 Snowflake는 서비스형 소프트웨어(SaaS) 방식으로 제공되는 데이터 웨어하우스를 제공합니다. 이 제품은 정형 및 반정형 데이터를 지원하며(비정형 데이터 지원은 아직 미숙함), AWS, Google Cloud, Microsoft Azure에서도 실행됩니다.
👉 데이터브릭스는 서비스형 플랫폼(PaaS) 방식으로 제공되는 데이터 레이크하우스를 제공합니다. 정형, 반정형, 비정형 데이터를 지원하며 AWS, 구글 클라우드, 마이크로소프트 애저에서 실행됩니다.

🍉 아키텍처
👉 데이터브릭스는 클라우드에서 아파치 스파크의 구현으로 시작되었지만(현재는 그 이상이지만), 스파크가 잘 알려진 대규모 데이터 처리 유형을 제공하는 데 계속해서 탁월한 성능을 발휘하고 있습니다. 현재 이 회사는 데이터 레이크 스토리지(객체 스토리지를 통한)의 확장성과 기존 웨어하우스 또는 분석 데이터베이스의 데이터 품질 이점을 결합한 데이터 레이크하우스 아키텍처를 홍보하고 있습니다. 데이터 엔지니어링, AI, 머신 러닝을 결합한 '통합 분석 플랫폼'을 자랑합니다.
👉  Snowflake는 스토리지가 컴퓨팅에서 분리된 분석 데이터베이스로 시작하여 확장이 더 간단합니다. 이 회사는 종종 기존 분석 및 BI 워크로드용으로 설계된 독점 분석 데이터베이스의 성능과 속도를 홍보합니다. 최근에는 Snowpark 제품을 통해 머신 러닝과 AI 기능을 추가하여 비정형 데이터 유형으로 확장하기 시작했습니다.

🍉 클라우드 기능
👉 Snowflake 데이터 클라우드는 기존 분석 및 BI 워크로드를 위한 고속 SQL 기반 데이터 웨어하우징 기능을 제공하는 것으로 가장 잘 알려져 있습니다. UniStore를 통해 트랜잭션과 분석 데이터 및 워크로드를 혼합하고 있습니다. 워크로드는 수요에 따라 탄력적으로 확장됩니다. 타사 통합을 통해 다양한 ETL 및 데이터 시각화 도구를 지원합니다. 중앙 집중식 스토리지 위에 통합된 데이터 거버넌스가 강점으로 꼽힙니다. 스노우파크 개발자 프레임워크는 파이썬, 자바, 스칼라 개발을 지원할 뿐 아니라 텍스트와 이미지 등 비정형 데이터에 대한 머신 러닝 및 AI 애플리케이션 개발을 위한 새로운 기능도 제공합니다. 또한 Streamlit 인수를 통해 Python 앱을 빠르게 구축할 수 있는 도구에 대한 액세스를 제공합니다.
👉  데이터브릭스 레이크하우스 플랫폼은 데이터 엔지니어링, 데이터 과학, 데이터 분석을 위한 다양한 기능을 제공합니다. 고객은 데이터브릭스에서 대규모 배치 작업, 실시간 스트리밍 워크로드, 머신 러닝 애플리케이션을 구축하고 실행할 수 있습니다. 개발은 노트북이나 IDE를 통해 SQL, Python, Scala는 물론 PyTorch, Tensorflow와 같은 오픈 소스 ML 프레임워크를 사용해 수행할 수 있습니다. 머신 러닝 워크플로우를 관리하는 데 도움이 되는 MLflow 제품도 있습니다. 델타 레이크는 안전한 데이터 공유를 지원하며, 유니티 카탈로그와 통합된 데이터 거버넌스를 제공합니다. 올해에는 대규모 언어 모델(LLM)인 돌리를 출시했습니다.

🍉 플랫폼 운영
👉  대규모 데이터 워크로드를 처리할 수 있도록 확장할 수 있는 기능이 데이터브릭스의 강점으로 꼽힙니다. 벡터화 및 비용 기반 최적화를 통해 일부 자동화된 쿼리 최적화 기능을 제공하지만, 사용자는 일반적으로 SQL 분석 워크로드의 성능을 실제로 끌어올리기 위해 약간의 기술적 전문 지식이 필요합니다. 특정 노드 유형 선택과 같은 변경 사항을 적용하는 데 더 개방적입니다. 서비스형 플랫폼(PaaS)인 데이터브릭스는 더 개방적이며 사용자가 다양한 오픈 소스 도구를 연결할 수 있습니다.
👉  SaaS 제품인 Snowflake는 빠르게 시작하기 쉽도록 설계되었습니다. Snowflake는 즉시 성능을 최적화하기 위해 내부에서 많은 엔지니어링 작업을 수행했으며, 시장에서의 성공은 이를 반영합니다. Snowflake는 의도적으로 고객이 이러한 복잡성을 겪지 않도록 하기 때문에 구성을 미세 조정할 수 있는 옵션이 많지 않습니다.

🍉 클라우드 보안
👉  Snowflake는 고객의 데이터를 관리합니다. 미사용 및 전송 중 암호화, 역할 기반 액세스 제어(RBAC), 감사를 지원합니다. 또한 네트워크 보안을 강화하기 위한 가상 프라이빗 클라우드(VPC) 피어링과 데이터 마스킹과 같은 기능도 지원합니다.
👉  데이터브릭스의 클라우드에서는 고객이 직접 데이터를 관리합니다. 데이터브릭스는 전송 중 암호화와 RBAC를 지원합니다. Microsoft 클라우드에서 네트워크 격리를 위해 Azure 가상 네트워크(VNet Injection) 및 네트워크 보안 그룹(NSG)을 지원합니다.

🍉 가격
👉  Databricks는 종량제 요금제와 할인 혜택을 제공하는 약정 사용 요금제를 제공합니다. 사용자는 사용하는 특정 컴퓨팅 서비스(예: "다목적 컴퓨팅"), 사용하는 가상 머신 인스턴스 수, 사용 빈도, 실행 중인 클라우드, 지원 프로그램(표준, 프리미엄, 엔터프라이즈)에 따라 요금이 청구됩니다. 데이터는 고객이 관리하기 때문에 스토리지에 대한 요금이 부과되지 않습니다.
종량제 요금제도 제공하지만, 고객이 데이터를 관리하기 때문에 데이터 스토리지뿐만 아니라 컴퓨팅 시간에도 요금이 부과됩니다.
👉  Snowflake 온디맨드의 경우, 고객이 사용한 양에 따라 초당 요금이 청구됩니다. 고객은 Snowflake 용량을 사전 구매하면 할인을 받을 수 있습니다. 가격은 클라우드, 지역, 지원 티어(표준, 엔터프라이즈, 비즈니스 크리티컬, 가상 프라이빗 스노우플레이크[VPS])에 따라 달라집니다.

🍉 클라우드 마켓플레이스
👉  Snowflake는 2019년에 Data Exchange를 출시했으며, 1년 후 Data Marketplace로 이름을 변경했습니다. 현재 2,200개 이상의 데이터 제품을 제공하며, 이 중 상당수는 무료입니다. 또한 Snowflake Marketplace는 1,700개 이상의 애플리케이션을 제공하며, 이를 네이티브 앱이라고 부릅니다.
👉 데이터브릭스는 델타 공유 프로토콜을 사용하여 데이터를 공유하는 방법으로 2022년에 마켓플레이스를 출시했습니다. 현재 287개의 무료 데이터 세트를 포함하여 500개 이상의 데이터 제품을 제공하고 있습니다.

🍉 오픈 소스
👉 아파치 스파크에 뿌리를 둔 데이터브릭스는 플랫폼에서 오픈 소스 소프트웨어를 광범위하게 사용하고 있으며, 오픈 소스 커뮤니티에 많은 기여를 하고 있습니다. 그러나 델타 테이블 형식과 같은 일부 기술을 오픈 소스 커뮤니티에 공개하지 않아 비판을 받았으며, 이후 이를 철회했습니다.
👉 스노우플레이크는 오픈소스를 적극 지지하지 않으며, 실제로 이 회사의 리더들은 아파치 하둡의 실패를 비롯해 오픈소스 소프트웨어에 대한 많은 비판을 표명해 왔습니다. 독점 데이터 베이스의 내부 작동 방식은 미스터리입니다. 그러나 델타 테이블의 경쟁자인 오픈 소스 아파치 아이스버그를 지지하고 나섰습니다.

🍉 설립자
👉  데이터브릭스는 2013년에 아파치 스파크의 배후에 있던 칼 버클리의 AMPLab의 컴퓨터 과학자 그룹에 의해 설립되었습니다. 여기에는 일반적으로 Spark를 만든 것으로 알려진 마테이 자하리아와 그의 두 명의 고문인 알리 고시와 이온 스토이카가 포함됩니다. 공동 창립자인 레이놀드 신, 패트릭 웬델, 앤디 콘윈스키, 아르살란 타바콜리-시라지 역시 버클리와 인연을 맺은 컴퓨터 과학자입니다.
👉 Snowflake는 오라클에서 데이터 아키텍트로 일했던 Benoît Dageville과 Thierry Cruanes, 그리고 현재 Actian이 소유하고 있는 MPP 분석 데이터베이스인 Vectorwise의 공동 설립자인 Marcin Żukowski 등 데이터 웨어하우징 전문가 3명이 2012년에 설립한 회사입니다.

🍉 매출, 고객 수 및 가치 평가
👉 기술에 대한 인사이트, 즉 "테크노그래픽"을 제공하는 회사인 6sense에 따르면 데이터브릭스는 약 10,300명의 고객을 보유하고 있습니다. 비상장 기업인 이 회사의 기업 가치는 430억 달러에 달하는 것으로 알려졌으며, 블룸버그는 최근 이 회사가 새로운 펀딩 라운드에 대해 논의 중이라는 기사에서 이 수치를 인용했습니다. 이는 2년 전 가장 최근의 자금 조달 라운드에서 언급된 380억 달러에서 증가한 수치입니다. 지난 6월, 데이터브릭스는 지난 12개월 동안 처음으로 매출 10억 달러를 돌파했습니다.
👉 스노우플레이크의 시가총액은 525억 달러로, 주가가 주당 392달러로 사상 최고치를 기록했던 2021년 11월의 약 1,230억 달러에서 하락했습니다. 2023 회계연도에는 20억 7천만 달러의 매출을 기록했습니다. 2023년 4월 30일에 마감된 2024 회계연도 1분기 말에 8,100명 이상의 고객을 보유하고 있다고 보고했습니다.

https://www.datanami.com/2023/09/05/databricks-versus-snowflake-comparing-data-giants/