Databricks

Databricks

Databricks公司介绍

Databricks 是目前大数据和人工智能领域最炙手可热的平台之一。简单来说,它是一个统一的数据分析平台,旨在帮助企业解决“数据杂乱”和“模型难落地”的问题。
它的诞生极具传奇色彩:其创始人正是流行开源计算框架 Apache Spark 的原班人马。
特性
传统方案
Databricks (Lakehouse)
存储
结构化与非结构化分开
统一存储
计算引擎
多种引擎碎片化
统一的高性能引擎 (Spark/Photon)
支持任务
偏向 BI 报表
BI + 机器学习 + 实时流处理
开放性
往往是闭源格式
基于 Delta Lake 等开源格式

核心理念:湖仓一体 (Lakehouse)

notion image
notion image
在 Databricks 出现之前,企业通常需要维护两套系统:
  1. 数据湖 (Data Lake):存海量原始数据,便宜但乱,查询慢。
  1. 数据仓库 (Data Warehouse):存结构化数据,快但贵,不支持 AI 模型训练。
Databricks 首创了 Lakehouse(湖仓一体) 架构,试图把两者的优点结合起来:在廉价的对象存储(如 AWS S3 或 Azure Blob)上,实现数据仓库级别的性能和治理能力。

Databricks 的四大核心组件

Databricks 的强大建立在几个关键的开源技术之上:
  • Apache Spark:核心引擎,处理大规模分布式数据计算。
  • Delta Lake:这是 Lakehouse 的基石。它给普通的数据湖文件加上了“版本控制”和“事务支持”(ACID),确保数据不会读到一半出错。
  • MLflow:一个管理机器学习全生命周期的平台,负责实验跟踪、模型打包和部署。
  • Unity Catalog:统一的治理层,让企业能在一个地方管理所有数据的权限和审计。

为什么它这么受欢迎?

1. 极高的性能
通过自研的 Photon 引擎(用 C++ 编写的向量化查询引擎),Databricks 处理 SQL 查询的速度极快,在很多 Benchmark 测试中甚至超过了传统的云端数据仓库(如 Snowflake)。
2. 全能型选手
它打破了团队间的壁垒:
  • 数据工程师:用 Spark 和 SQL 做 ETL。
  • 数据科学家:用 Python/R 在交互式 Notebook 里跑机器学习模型。
  • 数据分析师:用内置的 Databricks SQL 编写报表和仪表盘。
3. 多云战略
Databricks 与三大云厂商(Azure, AWS, GCP)深度集成。特别是 Azure Databricks,它是微软的一方服务,集成度极高。
4.现状:进军生成式 AI (Generative AI)
最近一年,Databricks 动作频频,收购了 MosaicML,并推出了 Dolly 等开源大模型。他们的目标很明确:让企业用自己的私有数据,在自己的平台上,训练自己的 AI 模型,而不必担心隐私泄露给公共大模型厂商。

Databricks 是一家软件服务商,而 AWS、Azure 和 Google Cloud (GCP) 是它运行的“地基”

它们之间既是深度合作伙伴,在某些领域(如 AI 模型和数据仓库)也是竞争对手

1. 核心关系:房客与房东
你可以把 AWS/Azure/GCP 想象成提供水电煤和土地的“地产商”,而 Databricks 是在这些土地上盖好的“全装修豪华办公楼”。
  • 运行环境:Databricks 自己不盖机房,它运行在这些云厂商的虚拟机(如 AWS EC2)和存储(如 S3, Azure Data Lake Storage)之上。
  • 付费模式:当你使用 Databricks 时,你需要付两份钱:
      1. 给云厂商:付底层的计算(CPU/内存)和存储费用。
      1. 给 Databricks:付它的软件服务费(按 DBU 计费)。

2. 与三大云厂商的具体关系
虽然 Databricks 是多云可用的,但它在每个云平台上的“待遇”不太一样:
Microsoft Azure:亲儿子待遇
  • 产品名称Azure Databricks
  • 关系:这是微软的第一方服务(First-party service)。这意味着它是微软自家的产品经理和 Databricks 联合开发的。
  • 优势:你可以直接在 Azure 控制台创建它,账单直接合在 Azure 里面,客服也是微软的人。它与 Power BI 和 Azure Active Directory (AD) 的集成是最丝滑的。
AWS:最早且最强的搭档
  • 关系:Databricks 最早是在 AWS 上成名的,目前 Databricks 约一半以上的收入来自 AWS 用户。
  • 2026 年新动态:双方最近加强了在 生成式 AI 上的合作。Databricks 现在深度集成了 AWS 的 Amazon Bedrock(模型库),并且开始使用 AWS 自研的 Trainium 芯片 来训练 AI 模型,以降低成本。
Google Cloud (GCP):后起之秀
  • 关系:合作起步较晚,但发展很快。
  • 优势:主要侧重于与 Google 的 AI 生态集成。例如,你可以方便地将 Databricks 里的数据喂给 Google 的 Vertex AI 或者 Gemini 模型。

3. 既是队友,也是对手 (Co-opetition)
这是云时代最典型的“竞合关系”:
  • 合作点:云厂商非常欢迎 Databricks。因为 Databricks 消耗了海量的计算和存储资源,变相帮云厂商卖掉了“水电煤”。
  • 竞争点
    • 在数据仓库领域:Databricks 的 SQL Warehouse 与 AWS 的 Redshift、Azure 的 Synapse、Google 的 BigQuery 直接竞争。
    • 在 AI 领域:Databricks 的 Mosaic AI 与 AWS 的 SageMaker、Google 的 Vertex AI 争夺开发者。

Databricks三大核心功能

1. AI / ML(这是你最关心的部分)

这一块是目前 Databricks 的精华,专门用来做大模型(LLM)和 AI 应用:
  • Playground(操场)
    • 用途最简单的起步点。你可以直接在这里调用各种大模型(如 Llama 3, Mixtral, DBRX),通过聊天界面测试 Prompt,对比不同模型的效果。
    • 建议:先去这里试下不同的 Prompt 效果,不需要写代码
  • Agents(代理)
    • 用途:这是 Databricks 最新的 Mosaic AI Agent Framework。它可以帮你构建能“思考”并调用工具(比如查询数据库、搜索文档)的智能体。
    • 建议:如果你想做一个“能根据你私有数据回答问题的机器人”,就研究这里。
  • AI Gateway (Beta)
    • 用途:像一个管家。如果你要调用外部模型(比如 OpenAI 的 GPT-4),通过它来统一管理,可以控制成本和安全。
  • Experiments(实验)
    • 用途:这是集成的 MLflow。当你训练模型或调优参数时,它会自动帮你记录每一次的成功和失败。

2. Data & SQL(这是 AI 的地基)

AI 需要数据,这部分是 Databricks 处理数据的老本行:
  • Catalog(目录)
    • 用途:数据的仓库管理员。在这里查看你的表、文件、模型权限。它是基于 Unity Catalog 的,非常方便管理你的私有知识库。
  • Compute(计算)
    • 用途开关在这里! 所有的计算都需要“虚拟机集群”。你得先创建一个集群(Cluster),Notebook 才能运行。
  • SQL Editor / SQL Warehouses
    • 用途:如果你习惯用 SQL 而不是 Python,这里就是你写 SQL 查询、做数据清洗的地方。

3. Workflow & Data Engineering(自动化)

当你把 AI 逻辑写好后,如何让它自动运行?
  • Workspace(工作区)
    • 用途:你的文件管理器。里面是你写的 Notebooks(代码笔记本)。
  • Jobs & Pipelines
    • 用途定时任务。比如你写了一个每天自动抓取新闻并做 AI 总结的脚本,就在这里设置每天早上 8 点自动跑。
  • Data Ingestion(数据摄取)
    • 用途:把你在别处的数据(比如 Excel, S3 存储, 数据库)搬进 Databricks 的快速通道。

Databricks Fundamentals

1. Core Mission & Positioning

Mission
Databricks aims to democratize data and AI.
Platform Definition
Databricks is a unified data and AI platform built on a lakehouse architecture.

2. Core Design Principles

2.1 Open Architecture

  • Supports open formats:
    • Delta Lake
    • Apache Iceberg
  • Avoids vendor lock-in
  • Works with external engines and tools

2.2 Unified Platform

Single system for:
  • Data engineering
  • Data analytics
  • Machine learning
  • AI / LLM applications

2.3 Interoperability

  • Cross-engine access
  • Open APIs
  • Multi-tool compatibility

3. Lakehouse Architecture

Definition

Lakehouse combines:
  • Data lake (low cost, flexibility)
  • Data warehouse (performance, structure)

Key Benefits

  • Single source of truth
  • Reduced data duplication
  • Lower storage and pipeline costs
  • Unified governance

Open Data Formats (High-Frequency Exam Point)

Correct:
  • Prevent vendor lock-in
  • Allow any engine to read/write data
  • Reduce duplication costs
Incorrect:
  • Not inherently about encryption
  • Not guaranteed faster than proprietary formats

4. Data Intelligence Platform

Concept

Extends lakehouse with:
  • AI-powered data understanding
  • Business context awareness
  • Unified governance

Core Idea

Systems can:
  • Understand enterprise data
  • Enable natural language interaction
  • Power intelligent agents

5. Unity Catalog (Governance Layer)

A universal governance layer for data and AI assets

Capabilities

  • Access control (fine-grained)
  • Data lineage tracking
  • Auditing and compliance
  • Cross-workspace governance

What “Universal” Means

  • Works across any engine
  • Works across any client
  • Supports any data format
  • Supports any asset type
  • Includes open APIs (e.g., Iceberg REST)

Common Misconceptions

  • Not limited to Databricks compute
  • Not proprietary storage
  • Not a search engine

6. AI Interaction Layer

Genie (Business Interface)

  • Natural language querying
  • Context-aware analytics
  • Designed for non-technical users

Databricks Assistant (Developer Tool)

  • SQL/code generation
  • Debugging assistance
  • Notebook integration

Vector Search

  • Semantic retrieval
  • Core component for RAG applications

7. Data Engineering & Orchestration

Lakeflow Jobs

  • Workflow orchestration
  • Scheduling and monitoring
  • Equivalent to Airflow-style systems

Lakeflow Declarative Pipelines

Key features:
  • Declarative ETL definition
  • Automatic optimization
  • Unified batch + streaming support
Not:
  • Manual infrastructure management
  • Batch-only system

8. Analytics Layer

Databricks SQL

  • Data warehousing capability
  • BI dashboards and analytics
  • SQL-based querying layer

9. Machine Learning Layer

MLflow

  • Experiment tracking
  • Model versioning
  • Model deployment lifecycle

10. Data Sharing

  • Open protocol
  • Cross-platform data sharing
  • No data duplication required

11. Databricks Marketplace

  • Exchange platform for:
    • Data
    • AI models
    • Analytics assets

12. Lakebase (OLTP for AI)

Characteristics

  • Postgres-compatible
  • Separation of compute and storage
  • Designed for low-latency, high-throughput workloads
  • Supports AI-native applications

13. Workspace vs Account Layer (Critical Distinction)

Account Level

  • User and group management (principals)
  • Metastore management
  • Global governance

Workspace Level

  • Notebooks
  • Lakeflow Jobs
  • Catalog Explorer

Exam Trap Summary

Component
Layer
Principals
Account
Metastore
Account
Notebooks
Workspace
Jobs
Workspace
Catalog Explorer
Workspace

14. Agent System Tooling

Correct:
  • Agent Framework → development
  • Agent Tracing → observability
  • Agent Evaluation → quality monitoring
Incorrect:
  • Agent Designer (distractor)

15. Full System Mental Model

Databricks stack can be understood as:
  • Governance Layer → Unity Catalog
  • Storage Layer → Lakehouse (open formats)
  • Processing Layer → SQL, MLflow, pipelines
  • AI Layer → Genie, Assistant, Vector Search
  • Orchestration → Lakeflow Jobs