Databricks

dbc-38dfad03-9bc8.cloud.databricks.com

https://dbc-38dfad03-9bc8.cloud.databricks.com/ml/agents?o=7474644627161552

Databricks公司介绍

Databricks 是目前大数据和人工智能领域最炙手可热的平台之一。简单来说，它是一个统一的数据分析平台，旨在帮助企业解决“数据杂乱”和“模型难落地”的问题。

它的诞生极具传奇色彩：其创始人正是流行开源计算框架 Apache Spark 的原班人马。

特性	传统方案	Databricks (Lakehouse)
存储	结构化与非结构化分开	统一存储
计算引擎	多种引擎碎片化	统一的高性能引擎 (Spark/Photon)
支持任务	偏向 BI 报表	BI + 机器学习 + 实时流处理
开放性	往往是闭源格式	基于 Delta Lake 等开源格式

核心理念：湖仓一体 (Lakehouse)

在 Databricks 出现之前，企业通常需要维护两套系统：

数据湖 (Data Lake)：存海量原始数据，便宜但乱，查询慢。

数据仓库 (Data Warehouse)：存结构化数据，快但贵，不支持 AI 模型训练。

Databricks 首创了 Lakehouse（湖仓一体） 架构，试图把两者的优点结合起来：在廉价的对象存储（如 AWS S3 或 Azure Blob）上，实现数据仓库级别的性能和治理能力。

Databricks 的四大核心组件

Databricks 的强大建立在几个关键的开源技术之上：

Apache Spark：核心引擎，处理大规模分布式数据计算。

Delta Lake：这是 Lakehouse 的基石。它给普通的数据湖文件加上了“版本控制”和“事务支持”（ACID），确保数据不会读到一半出错。

MLflow：一个管理机器学习全生命周期的平台，负责实验跟踪、模型打包和部署。

Unity Catalog：统一的治理层，让企业能在一个地方管理所有数据的权限和审计。

为什么它这么受欢迎？

1. 极高的性能

通过自研的 Photon 引擎（用 C++ 编写的向量化查询引擎），Databricks 处理 SQL 查询的速度极快，在很多 Benchmark 测试中甚至超过了传统的云端数据仓库（如 Snowflake）。

2. 全能型选手

它打破了团队间的壁垒：

数据工程师：用 Spark 和 SQL 做 ETL。

数据科学家：用 Python/R 在交互式 Notebook 里跑机器学习模型。

数据分析师：用内置的 Databricks SQL 编写报表和仪表盘。

3. 多云战略

Databricks 与三大云厂商（Azure, AWS, GCP）深度集成。特别是 Azure Databricks，它是微软的一方服务，集成度极高。

4.现状：进军生成式 AI (Generative AI)

最近一年，Databricks 动作频频，收购了 MosaicML，并推出了 Dolly 等开源大模型。他们的目标很明确：让企业用自己的私有数据，在自己的平台上，训练自己的 AI 模型，而不必担心隐私泄露给公共大模型厂商。

Databricks 是一家软件服务商，而 AWS、Azure 和 Google Cloud (GCP) 是它运行的“地基”

它们之间既是深度合作伙伴，在某些领域（如 AI 模型和数据仓库）也是竞争对手。

1. 核心关系：房客与房东

你可以把 AWS/Azure/GCP 想象成提供水电煤和土地的“地产商”，而 Databricks 是在这些土地上盖好的“全装修豪华办公楼”。

运行环境：Databricks 自己不盖机房，它运行在这些云厂商的虚拟机（如 AWS EC2）和存储（如 S3, Azure Data Lake Storage）之上。

付费模式：当你使用 Databricks 时，你需要付两份钱：

给云厂商：付底层的计算（CPU/内存）和存储费用。

给 Databricks：付它的软件服务费（按 DBU 计费）。

2. 与三大云厂商的具体关系

虽然 Databricks 是多云可用的，但它在每个云平台上的“待遇”不太一样：

Microsoft Azure：亲儿子待遇

产品名称：Azure Databricks。

关系：这是微软的第一方服务（First-party service）。这意味着它是微软自家的产品经理和 Databricks 联合开发的。

优势：你可以直接在 Azure 控制台创建它，账单直接合在 Azure 里面，客服也是微软的人。它与 Power BI 和 Azure Active Directory (AD) 的集成是最丝滑的。

AWS：最早且最强的搭档

关系：Databricks 最早是在 AWS 上成名的，目前 Databricks 约一半以上的收入来自 AWS 用户。

2026 年新动态：双方最近加强了在 生成式 AI 上的合作。Databricks 现在深度集成了 AWS 的 Amazon Bedrock（模型库），并且开始使用 AWS 自研的 Trainium 芯片 来训练 AI 模型，以降低成本。

Google Cloud (GCP)：后起之秀

关系：合作起步较晚，但发展很快。

优势：主要侧重于与 Google 的 AI 生态集成。例如，你可以方便地将 Databricks 里的数据喂给 Google 的 Vertex AI 或者 Gemini 模型。

3. 既是队友，也是对手 (Co-opetition)

这是云时代最典型的“竞合关系”：

合作点：云厂商非常欢迎 Databricks。因为 Databricks 消耗了海量的计算和存储资源，变相帮云厂商卖掉了“水电煤”。

竞争点：

在数据仓库领域：Databricks 的 SQL Warehouse 与 AWS 的 Redshift、Azure 的 Synapse、Google 的 BigQuery 直接竞争。
在 AI 领域：Databricks 的 Mosaic AI 与 AWS 的 SageMaker、Google 的 Vertex AI 争夺开发者。

Databricks三大核心功能

1. AI / ML（这是你最关心的部分）

这一块是目前 Databricks 的精华，专门用来做大模型（LLM）和 AI 应用：

Playground（操场）：

用途：最简单的起步点。你可以直接在这里调用各种大模型（如 Llama 3, Mixtral, DBRX），通过聊天界面测试 Prompt，对比不同模型的效果。
建议：先去这里试下不同的 Prompt 效果，不需要写代码。

Agents（代理）：

用途：这是 Databricks 最新的 Mosaic AI Agent Framework。它可以帮你构建能“思考”并调用工具（比如查询数据库、搜索文档）的智能体。
建议：如果你想做一个“能根据你私有数据回答问题的机器人”，就研究这里。

AI Gateway (Beta)：

用途：像一个管家。如果你要调用外部模型（比如 OpenAI 的 GPT-4），通过它来统一管理，可以控制成本和安全。

Experiments（实验）：

用途：这是集成的 MLflow。当你训练模型或调优参数时，它会自动帮你记录每一次的成功和失败。

2. Data & SQL（这是 AI 的地基）

AI 需要数据，这部分是 Databricks 处理数据的老本行：

用途：数据的仓库管理员。在这里查看你的表、文件、模型权限。它是基于 Unity Catalog 的，非常方便管理你的私有知识库。

Compute（计算）：

用途：开关在这里！ 所有的计算都需要“虚拟机集群”。你得先创建一个集群（Cluster），Notebook 才能运行。

SQL Editor / SQL Warehouses：

用途：如果你习惯用 SQL 而不是 Python，这里就是你写 SQL 查询、做数据清洗的地方。

3. Workflow & Data Engineering（自动化）

当你把 AI 逻辑写好后，如何让它自动运行？

Workspace（工作区）：

用途：你的文件管理器。里面是你写的 Notebooks（代码笔记本）。

Jobs & Pipelines：

用途：定时任务。比如你写了一个每天自动抓取新闻并做 AI 总结的脚本，就在这里设置每天早上 8 点自动跑。

Data Ingestion（数据摄取）：

用途：把你在别处的数据（比如 Excel, S3 存储, 数据库）搬进 Databricks 的快速通道。

Databricks Fundamentals

1. Core Mission & Positioning

Mission

Databricks aims to democratize data and AI.

Platform Definition

Databricks is a unified data and AI platform built on a lakehouse architecture.

2. Core Design Principles

2.1 Open Architecture

Supports open formats:

Delta Lake
Apache Iceberg

Avoids vendor lock-in

Works with external engines and tools

2.2 Unified Platform

Single system for:

Data engineering

Data analytics

Machine learning

AI / LLM applications

2.3 Interoperability

Cross-engine access

Open APIs

Multi-tool compatibility

3. Lakehouse Architecture

Definition

Lakehouse combines:

Data lake (low cost, flexibility)

Data warehouse (performance, structure)

Key Benefits

Single source of truth

Reduced data duplication

Lower storage and pipeline costs

Unified governance

Open Data Formats (High-Frequency Exam Point)

Correct:

Prevent vendor lock-in

Allow any engine to read/write data

Reduce duplication costs

Incorrect:

Not inherently about encryption

Not guaranteed faster than proprietary formats

4. Data Intelligence Platform

Concept

Extends lakehouse with:

AI-powered data understanding

Business context awareness

Unified governance

Core Idea

Systems can:

Understand enterprise data

Enable natural language interaction

Power intelligent agents

5. Unity Catalog (Governance Layer)

A universal governance layer for data and AI assets

Capabilities

Access control (fine-grained)

Data lineage tracking

Auditing and compliance

Cross-workspace governance

What “Universal” Means

Works across any engine

Works across any client

Supports any data format

Supports any asset type

Includes open APIs (e.g., Iceberg REST)

Common Misconceptions

Not limited to Databricks compute

Not proprietary storage

Not a search engine

6. AI Interaction Layer

Genie (Business Interface)

Natural language querying

Context-aware analytics

Designed for non-technical users

Databricks Assistant (Developer Tool)

SQL/code generation

Debugging assistance

Notebook integration

Vector Search

Semantic retrieval

Core component for RAG applications

7. Data Engineering & Orchestration

Lakeflow Jobs

Workflow orchestration

Scheduling and monitoring

Equivalent to Airflow-style systems

Lakeflow Declarative Pipelines

Key features:

Declarative ETL definition

Automatic optimization

Unified batch + streaming support

Not:

Manual infrastructure management

Batch-only system

8. Analytics Layer

Databricks SQL

Data warehousing capability

BI dashboards and analytics

SQL-based querying layer

9. Machine Learning Layer

MLflow

Experiment tracking

Model versioning

Model deployment lifecycle

10. Data Sharing

Open protocol

Cross-platform data sharing

No data duplication required

11. Databricks Marketplace

Exchange platform for:

Data
AI models
Analytics assets

12. Lakebase (OLTP for AI)

Characteristics

Postgres-compatible

Separation of compute and storage

Designed for low-latency, high-throughput workloads

Supports AI-native applications

13. Workspace vs Account Layer (Critical Distinction)

Account Level

User and group management (principals)

Metastore management

Global governance

Workspace Level

Notebooks

Lakeflow Jobs

Catalog Explorer

Exam Trap Summary

Component	Layer
Principals	Account
Metastore	Account
Notebooks	Workspace
Jobs	Workspace
Catalog Explorer	Workspace

14. Agent System Tooling

Correct:

Agent Framework → development

Agent Tracing → observability

Agent Evaluation → quality monitoring

Incorrect:

Agent Designer (distractor)

15. Full System Mental Model

Databricks stack can be understood as:

Governance Layer → Unity Catalog

Storage Layer → Lakehouse (open formats)

Processing Layer → SQL, MLflow, pipelines

AI Layer → Genie, Assistant, Vector Search

Orchestration → Lakeflow Jobs