主题
Pandas 与数据处理的完整图景
前两节我们了解了 Pandas 是什么以及为什么 LLM 开发需要它。这一节把它放到更大的技术生态中,让你知道 Pandas 处于什么位置、学完它之后还能往哪些方向延伸。
Pandas 在生态中的位置
┌──────────────────┐
│ 你的应用代码 │
│ (LLM/训练/推理) │
└────────┬─────────┘
│
┌──────────────┼──────────────┐
▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Pandas │ │ NumPy │ │ PyTorch │
│ 数据处理 │ │ 数值计算 │ │ 模型训练 │
└─────┬────┘ └─────┬────┘ └──────────┘
│ │
▼ ▼
┌──────────────────────────┐
│ 底层:Python 标准库 │
└──────────────────────────┘NumPy 是 Pandas 的底层依赖——Pandas 的数值列本质上就是 NumPy 数组。所以你学 Pandas 的过程中会自然掌握 NumPy 的基础用法。
PyTorch / TensorFlow 是深度学习框架——当你用 Pandas 清洗好数据之后,数据会被喂给这些框架来训练模型。
常见的搭配工具
| 工具 | 和 Pandas 的关系 | 典型用途 |
|---|---|---|
| NumPy | Pandas 底层依赖 | 数值运算、数组操作 |
| Matplotlib | Pandas .plot() 的绘图引擎 | 可视化图表 |
| Jupyter Notebook | 运行 Pandas 代码的环境 | 交互式探索分析 |
| SQLAlchemy | 连接数据库的桥梁 | 从数据库读取/写入数据 |
| Polars / Dask | Pandas 的替代/扩展 | 超大数据或更高性能需求 |
| LangChain | AI 应用框架 | 构建 LLM Agent 时调用 Pandas |
推荐的学习路径
如果你是第一次系统学习 Pandas,建议按以下顺序推进:
第一步(你现在在这里):
理解 Pandas 是什么 → 安装环境 → 写出第一行代码
第二步(本教程核心内容):
Series 和 DataFrame → 数据读写 → 清洗筛选 → 分组聚合 → 合并连接
第三步(进阶):
时间序列处理 → 性能优化 → 与 LLM 工具链集成(Agent/MCP)
第四步(实战):
五大综合案例:语料清洗 / RAG构建 / Agent开发 / 模型评估 / Polars迁移本教程的特色
和市面上大多数 Pandas 教程不同,本教程有明确的定位:
- 面向 LLM/AI 开发者:所有示例都围绕大模型相关的真实场景
- 从原理到实战:不只教你怎么调用 API,还讲清楚背后的设计思想
- 面试级深度:每个知识点都覆盖到足以应对技术面试的程度
- 即学即用:每章都有可以直接复制使用的生产级代码模板
好了,介绍部分到此结束。下一章我们就正式进入安装和环境配置,然后开始动手写代码。