Pandas 教程大纲

总体设计思路

Pandas 是大模型数据处理的核心工具——SFT 数据集清洗、模型评估对比、RAG 知识库管理、API 日志分析，几乎所有 LLM 数据工作流都以 Pandas 为基础。不会 Pandas，你就只能手动处理数据，效率低且容易出错。

本教程不仅讲解 Pandas 的核心 API，更通过大量 LLM 场景实战（SFT 数据清洗、模型评估、RAG 知识库、PandasAI），让你真正掌握 Pandas 在大模型开发中的价值。教程的设计遵循以下原则：

从第一天就面向大模型：所有示例围绕 SFT 数据处理、模型评估、RAG 知识库展开
从基础到实战到进阶：数据结构 → 数据清洗 → 分析转换 → 可视化 → 性能优化 → 综合项目
5 个完整实战案例：千万级语料清洗、RAG 知识库构建、Pandas Agent、模型评估对比、Polars 迁移
覆盖最新生态：PandasAI / MCP Server / LangChain Agent / Polars 迁移

第1章：基本介绍（3节）

定位

建立对 Pandas 的整体认知。理解 Pandas 在 LLM 数据处理中的核心地位。

01-01 什么是 Pandas

Pandas 的历史与定位
DataFrame 与 Series 的直觉理解

01-02 为什么大模型需要 Pandas

LLM 开发中的数据处理场景
Pandas vs 纯 Python vs SQL 的选择

01-03 生态与学习路线

Pandas 在 LLM 工具链中的位置
NumPy → Pandas → LangChain 的学习路径

第2章：安装与环境配置（4节）

定位

搭建开发环境，了解 Pandas 3.0 的新特性。

03-01 安装 Pandas

pip / conda 安装方式
常见安装问题排查

03-02 Pandas 3.0 要点速览

PyArrow 后端
性能提升与 API 变化

03-03 PyArrow 后端基础

Arrow 格式的优势
与传统 NumPy 后端的对比

03-04 开发环境推荐

Jupyter Notebook / VS Code / Colab
常用扩展与插件

第3章：核心数据结构（4节）

定位

DataFrame 和 Series 是 Pandas 的核心。理解它们，是使用 Pandas 的前提。

04-01 Series：一维带标签数组

Series 的创建与属性
索引与值的操作

04-02 DataFrame：二维表格

DataFrame 的创建方式
行列索引的理解

04-03 数据查看与探索

head / info / describe / value_counts
快速了解数据全貌

04-04 数据类型（dtype）体系

Pandas 的 dtype 系统
类型转换与内存影响

第4章：数据读写 I/O（4节）

定位

数据处理的起点——把数据读进来，把结果写出去。

05-01 文本格式：CSV 与 JSON

read_csv / read_json 的参数详解
编码问题与大文件处理

05-02 数据库读写 SQL

read_sql / to_sql
连接管理与事务控制

05-03 大模型语料专用格式

JSONL / Parquet / Arrow 格式
SFT 训练数据的读写

05-04 数据加载最佳实践

dtype 指定 / 分块读取 / 惰性加载
内存优化策略

第5章：数据审查与探索（4节）

定位

拿到数据的第一步不是清洗，而是审查——了解数据的"健康状况"。

06-01 基础信息查看

shape / columns / dtypes / index
数据概览的系统性方法

06-02 缺失值识别与统计

isnull / isna / 缺失率计算
缺失值的分布模式

06-03 重复值检测

duplicated / value_counts
重复数据的识别策略

06-04 数据质量报告生成模板

自动化质量检查脚本
一键生成数据健康报告

第6章：数据清洗实战（5节）

定位

数据清洗占数据工作 80% 的时间。这一章覆盖最常见的清洗操作。

07-01 缺失值处理

dropna / fillna / interpolate
不同场景下的缺失值策略

07-02 重复值处理

drop_duplicates 的参数详解
保留策略与去重逻辑

07-03 数据类型转换

astype / to_numeric / to_datetime
类型转换的常见陷阱

07-04 字符串处理

.str 访问器的常用方法
正则表达式清洗

07-05 大模型驱动的高阶数据清洗

用 LLM 辅助判断数据质量
语义去重与异常检测

第7章：数据筛选（4节）

定位

从大量数据中精准找到你需要的那部分。

08-01 布尔索引：最核心的筛选方式

布尔条件的构建
& | ~ 运算符与多条件组合

08-02 query() 方法：简洁表达式筛选

query 的语法详解
与布尔索引的对比

08-03 isin() / between() 等便捷筛选方法

常用筛选函数速查
性能对比

08-04 LLM 场景：筛选高质量对话用于 SFT 训练

完整的 SFT 数据集构建筛选流水线
质量分层采样与 Bad Case 过滤

第8章：数据转换与特征工程（5节）

定位

数据转换是特征工程的基础——列操作、apply、重塑、特征构造。

09-01 列选择与行索引

iloc vs loc 的核心区别
链式索引最佳实践

09-02 列的新增、修改与删除

直接赋值 / assign() / insert() / drop()
条件列生成与映射替换

09-03 apply() 与向量化操作

apply 的三种调用模式
向量化替代方案的性能对比

09-04 数据重塑：宽长格式转换

melt / pivot / stack / unstack
LLM 场景下的数据格式转换

09-05 特征工程实战：为 LLM 训练构造数据

文本特征提取 / 数值分箱 / 交互特征
从原始语料到训练就绪的特征矩阵

第9章：排序与排名（4节）

定位

排序不仅是整理数据，更是分析数据的重要手段。

10-01 排序：sort_values() 深度解析

单列/多列排序
na_position 与性能考量

10-02 rank() 排名方法

六种排名策略
LLM 排行榜生成

10-03 nlargest() / nsmallest()：高效 TopN 选择

堆排序原理与性能优势
分组内 TopN

10-04 排序实战场景

模型评估排行榜生成
SFT 数据质量排序

第10章：分组聚合与透视（6节）

定位

groupby 是数据分析的核心操作——按维度汇总、统计、对比。

11-01 groupby() 分组基础

Split-Apply-Combine 范式
单列/多列分组

11-02 聚合方法 agg() 详解

命名聚合语法、多聚合函数
自定义聚合

11-03 transform() 与 filter()

transform 广播回原形状
filter 按条件丢弃整组

11-04 pivot_table() 与 crosstab()

多维聚合透视
交叉表统计

11-05 groupby 高级用法

遍历 groupby 对象
并行分组处理

11-06 groupby 实战场景

LLM 对话数据的多维分析
模型评估分组统计

第11章：数据合并与连接（5节）

定位

数据分散在多个表中，合并是数据整合的核心操作。

12-01 merge() 基础：四种连接类型

inner/left/right/full outer
on/how 参数详解

12-02 merge() 高级技巧

left_on/right_on 不同列名
索引合并与性能优化

12-03 join() 索引连接

DataFrame.join() 用法
与 merge 的选择决策

12-04 merge 性能优化

大表合并的性能瓶颈
category 类型加速与分块策略

12-05 merge 实战场景

模型评估数据关联
SFT 数据与标注结果合并

第12章：数据拼接与组合（4节）

定位

纵向/横向拼接数据——批量加载、多源汇总。

13-01 concat() 基础

纵向与横向拼接
ignore_index / keys / join 参数

13-02 combine_first() 与 update()

缺失值填充合并
覆盖更新数据

13-03 去重与对齐

drop_duplicates 在合并后的使用
reindex 对齐索引

13-04 concat 实战场景

多文件批量加载合并
LLM 日志数据按日期合并

第13章：时间序列处理（5节）

定位

时间序列在 LLM 场景中无处不在——API 调用日志、训练监控、用户活跃度分析。

14-01 时间序列基础

pd.to_datetime() 解析
DatetimeIndex 操作

14-02 重采样 resample() 与滚动窗口 rolling()

按时间粒度聚合
移动平均/求和

14-03 shift() 与 diff()

数据的滞后/前移
环比/同比计算

14-04 时间序列监控实战

API 调用量/延迟/错误率的实时监控
异常检测与告警

14-05 时间序列实战场景

用户活跃度分析
模型版本对比

第14章：数据可视化（4节）

定位

可视化是数据分析的"眼睛"——一张图胜过千行数据。

15-01 可视化基础：plot() 快速绘图

折线图/柱状图/散点图/直方图

15-02 高级绘图技巧

多子图布局、颜色映射、标注与样式

15-03 LLM 数据可视化实战

模型评分雷达图、训练损失曲线
API 监控仪表盘

15-04 可视化最佳实践

图表选择决策树
配色方案与导出高质量图片

第15章：高级操作技巧（5节）

定位

掌握高级操作，让数据处理更加高效和优雅。

16-01 迭代与分块处理

iterrows/itertuples 的正确用法
chunk 模式处理大文件

16-02 样式与格式化

Style/Styler API
条件着色与格式化输出

16-03 多级索引 MultiIndex

创建/操作多层索引
stack/unstack 转换

16-04 Category 类型深度解析

category 的内部存储机制
性能对比与适用场景

16-05 链式调用 Pipeline

pipe() 方法
链式数据处理的最佳实践

第16章：性能优化（4节）

定位

从"能跑"到"跑得快"——内存优化、计算优化、IO 优化。

17-01 内存优化实战

dtype 优化策略
分块处理减少峰值内存

17-02 计算性能优化

向量化 vs apply
eval() 表达式引擎与 numba 加速

17-03 I/O 性能优化

Parquet 优势 / 列裁剪 / 分区读取

17-04 性能优化综合实战与工具

性能分析工具 / 基准测试框架
端到端优化案例

第17章：PandasAI 与自然语言查询（4节）

定位

用自然语言操作 DataFrame——PandasAI 让非技术人员也能做数据分析。

18-01 PandasAI 简介与环境搭建

安装配置与核心概念

18-02 PandasAI 核心用法

chat() 查询 / plot() 可视化
多轮对话与代码生成

18-03 PandasAI 高级功能

多 DataFrame 查询 / 自定义技能
成本控制与安全性

18-04 PandasAI 在 LLM 开发中的实战

模型评估数据分析
与原生 Pandas 协作工作流

第18章：RAG 知识库管理（4节）

定位

Pandas 在 RAG 系统中的核心角色——知识库数据结构设计、检索管理、版本控制。

19-01 RAG 知识库数据结构设计

Chunk 元数据管理 / 向量存储
来源追踪与版本控制

19-02 知识库检索与排序

相似度计算 / 多路召回 / 重排

19-03 知识库管理与维护

增量更新 / 版本管理 / 去重

19-04 RAG 知识库完整工作流

端到端 RAG 管理系统
导出与部署

第19章：综合项目实战（4节）

定位

三个端到端项目，覆盖 SFT 数据处理、评估报告、成本监控。

20-01 项目一：SFT 数据集端到端处理流水线

数据清洗 / 质量评估 / 分层抽样 / 导出

20-02 项目二：LLM 评估报告自动生成系统

多模型多基准评估 / 自动排名 / 报告导出

20-03 项目三：API 成本监控仪表盘

API 日志分析 / 实时成本追踪 / 预算告警

20-04 项目总结与进阶路线图

Pandas 技能树与学习路径

第20章：LangChain + Pandas Agent（4节）

定位

用 LangChain 构建 DataFrame 分析 Agent——让 AI 自主完成数据分析任务。

21-01 LangChain + Pandas 集成概览

DataFrame Agent 的原理与架构

21-02 构建数据分析 Agent

完整的 Agent 实现
Tool 自定义与错误处理

21-03 Agent 记忆与上下文管理

多轮对话中的状态保持
Token 管理与数据摘要

21-04 Agent 实战场景

自动化报告生成
交互式数据问答

第21章：MCP Server 与多模态（4节）

定位

MCP 协议让 Pandas 成为 AI 工具链的一部分；多模态数据管理是 LLM 开发的新前沿。

22-01 MCP 协议与 Pandas

MCP 核心概念
Pandas MCP Server 的架构设计

22-02 MCP Server 工具开发

定义 Tool / 实现 handler
完整 Pandas Server 代码

22-03 MCP 资源与安全

Resource 定义 / 权限控制 / 沙箱执行

22-04 MCP 完整实战

Claude Desktop / Cursor 集成
调试技巧与常见问题

第22章：多模态数据处理（4节）

定位

图像、音频、视频数据的元数据管理与训练数据构建。

23-01 图像数据与 Pandas

图像元数据管理 / EXIF 提取
VLM 训练数据构建

23-02 音频数据与 Pandas

音频元数据管理
ASR 数据集构建

23-03 多模态数据统一管理

图文/音视频混合数据集
跨模态关联分析

23-04 多模态实战场景

VLM 训练数据集构建
多模态 RAG 知识库管理

第23章：分布式处理与总结（4节）

定位

当数据量超过单机处理能力时，需要分布式方案。

24-01 Dask 基础：Pandas 的分布式替代

Dask DataFrame API
与 Pandas 的兼容性

24-02 Modin 与 Ray：其他分布式方案

Modin 的 drop-in 替换策略
Polars 迁移路径

24-03 分布式处理最佳实践

分块策略 / 内存管理
何时该升级到分布式

24-04 分布式实战场景

千万级语料的分布式清洗
从 Pandas 到 Dask 的迁移案例

第24章：总结与进阶路线（3节）

定位

知识体系总结与未来方向。

25-01 知识体系总结

Pandas 核心知识图谱
各章节关联关系

25-02 学习路线图与资源推荐

从入门到精通的进阶路径
官方文档/书籍/课程推荐

25-03 进阶主题与前沿方向

Pandas 3.0 新特性
PyArrow 后端 / Polars 迁移指南

第25章：案例1：千万级语料清洗（4节）

定位

端到端实战：从原始对话日志到 SFT/DPO 训练就绪数据。

26-01 加载千万级对话数据

大规模 CSV/JSONL 的加载策略
分块读取与 dtype 优化

26-02 质量分析报告生成

自动化质量报告
多维度统计分析

26-03 LLM 辅助智能清洗

调用 LLM API 批量判断数据质量
语义去重与成本控制

26-04 导出 SFT/DPO 训练格式

JSONL 格式转换
train/val 划分与 Parquet 输出

第26章：案例2：RAG 知识库构建（4节）

定位

端到端实战：从原始文档到可检索知识库。

27-01 文档解析与分块

PDF/Markdown/HTML 文档解析
文本分块策略

27-02 元数据管理

chunk 级别的元数据追踪
文档-chunk 关联

27-03 向量准备与分块

token 计数统计
chunk 大小分布分析

27-04 端到端 RAG 管道

从原始文档到可检索知识库
质量检查点与自动化输出

第27章：案例3：LangChain Pandas Agent（4节）

定位

端到端实战：构建一个能自然语言问答的 DataFrame 分析 Agent。

28-01 环境配置与 API Key 管理

API Key 安全存储
多模型配置

28-02 创建 Pandas Agent

Agent 初始化与 Tool 定义
错误处理策略

28-03 自然语言问答

中文查询支持
复杂分析任务

28-04 Web 应用部署

FastAPI 后端 + Streamlit 前端
Docker 容器化

第28章：案例4：模型评估对比分析（4节）

定位

端到端实战：多模型多基准的评估对比与报告生成。

29-01 加载多模型评测结果

多源数据合并与标准化
缺失值处理与数据对齐

29-02 自动化指标计算与对比表生成

多维度评分计算
对比矩阵生成

29-03 可视化对比图表

雷达图 / 柱状对比图 / 热力图

29-04 生成评估报告

自动生成 Markdown/HTML 报告
关键发现与决策建议

第29章：案例5：迁移 Polars 获得加速（4节）

定位

端到端实战：从 Pandas 迁移到 Polars，获得 5-10 倍性能提升。

30-01 性能瓶颈识别

内存/计算/I/O 瓶颈分析
cProfile + Pandas profiling

30-02 语法迁移：关键函数对照与改写

Pandas vs Polars API 对照表
常见代码迁移模式

30-03 混合使用：Pandas 与 Polars 数据互转

互转方法与注意事项
渐进式迁移策略

30-04 迁移性能报告

端到端迁移报告生成
成本效益分析与建议

Pandas 教程大纲 ​

总体设计思路 ​

第1章：基本介绍（3节） ​

定位 ​

01-01 什么是 Pandas ​

01-02 为什么大模型需要 Pandas ​

01-03 生态与学习路线 ​

第2章：安装与环境配置（4节） ​

定位 ​

03-01 安装 Pandas ​

03-02 Pandas 3.0 要点速览 ​

03-03 PyArrow 后端基础 ​

03-04 开发环境推荐 ​

第3章：核心数据结构（4节） ​

定位 ​

04-01 Series：一维带标签数组 ​

04-02 DataFrame：二维表格 ​

04-03 数据查看与探索 ​

04-04 数据类型（dtype）体系 ​

第4章：数据读写 I/O（4节） ​

定位 ​

05-01 文本格式：CSV 与 JSON ​

05-02 数据库读写 SQL ​

05-03 大模型语料专用格式 ​

05-04 数据加载最佳实践 ​

第5章：数据审查与探索（4节） ​

定位 ​

06-01 基础信息查看 ​

06-02 缺失值识别与统计 ​

06-03 重复值检测 ​

06-04 数据质量报告生成模板 ​

第6章：数据清洗实战（5节） ​

定位 ​

07-01 缺失值处理 ​

07-02 重复值处理 ​

07-03 数据类型转换 ​

07-04 字符串处理 ​

07-05 大模型驱动的高阶数据清洗 ​

第7章：数据筛选（4节） ​

定位 ​

08-01 布尔索引：最核心的筛选方式 ​

08-02 query() 方法：简洁表达式筛选 ​

08-03 isin() / between() 等便捷筛选方法 ​

08-04 LLM 场景：筛选高质量对话用于 SFT 训练 ​

第8章：数据转换与特征工程（5节） ​

定位 ​

09-01 列选择与行索引 ​

09-02 列的新增、修改与删除 ​

09-03 apply() 与向量化操作 ​

09-04 数据重塑：宽长格式转换 ​

09-05 特征工程实战：为 LLM 训练构造数据 ​

第9章：排序与排名（4节） ​

定位 ​

10-01 排序：sort_values() 深度解析 ​

10-02 rank() 排名方法 ​

10-03 nlargest() / nsmallest()：高效 TopN 选择 ​

10-04 排序实战场景 ​

第10章：分组聚合与透视（6节） ​

定位 ​

11-01 groupby() 分组基础 ​

11-02 聚合方法 agg() 详解 ​

11-03 transform() 与 filter() ​

11-04 pivot_table() 与 crosstab() ​

11-05 groupby 高级用法 ​

11-06 groupby 实战场景 ​

第11章：数据合并与连接（5节） ​

定位 ​

12-01 merge() 基础：四种连接类型 ​

12-02 merge() 高级技巧 ​

12-03 join() 索引连接 ​

12-04 merge 性能优化 ​

12-05 merge 实战场景 ​

第12章：数据拼接与组合（4节） ​

定位 ​

13-01 concat() 基础 ​

13-02 combine_first() 与 update() ​

13-03 去重与对齐 ​

13-04 concat 实战场景 ​

第13章：时间序列处理（5节） ​

定位 ​

Pandas 教程大纲

总体设计思路

第1章：基本介绍（3节）

定位

01-01 什么是 Pandas

01-02 为什么大模型需要 Pandas

01-03 生态与学习路线

第2章：安装与环境配置（4节）

定位

03-01 安装 Pandas

03-02 Pandas 3.0 要点速览

03-03 PyArrow 后端基础

03-04 开发环境推荐

第3章：核心数据结构（4节）

定位

04-01 Series：一维带标签数组

04-02 DataFrame：二维表格

04-03 数据查看与探索

04-04 数据类型（dtype）体系

第4章：数据读写 I/O（4节）

定位

05-01 文本格式：CSV 与 JSON

05-02 数据库读写 SQL

05-03 大模型语料专用格式

05-04 数据加载最佳实践

第5章：数据审查与探索（4节）

定位

06-01 基础信息查看

06-02 缺失值识别与统计

06-03 重复值检测

06-04 数据质量报告生成模板

第6章：数据清洗实战（5节）

定位

07-01 缺失值处理

07-02 重复值处理

07-03 数据类型转换

07-04 字符串处理

07-05 大模型驱动的高阶数据清洗

第7章：数据筛选（4节）

定位

08-01 布尔索引：最核心的筛选方式

08-02 query() 方法：简洁表达式筛选

08-03 isin() / between() 等便捷筛选方法

08-04 LLM 场景：筛选高质量对话用于 SFT 训练

第8章：数据转换与特征工程（5节）

定位

09-01 列选择与行索引

09-02 列的新增、修改与删除

09-03 apply() 与向量化操作

09-04 数据重塑：宽长格式转换

09-05 特征工程实战：为 LLM 训练构造数据

第9章：排序与排名（4节）

定位

10-01 排序：sort_values() 深度解析

10-02 rank() 排名方法

10-03 nlargest() / nsmallest()：高效 TopN 选择

10-04 排序实战场景

第10章：分组聚合与透视（6节）

定位

11-01 groupby() 分组基础

11-02 聚合方法 agg() 详解

11-03 transform() 与 filter()

11-04 pivot_table() 与 crosstab()

11-05 groupby 高级用法

11-06 groupby 实战场景

第11章：数据合并与连接（5节）

定位

12-01 merge() 基础：四种连接类型

12-02 merge() 高级技巧

12-03 join() 索引连接

12-04 merge 性能优化

12-05 merge 实战场景

第12章：数据拼接与组合（4节）

定位

13-01 concat() 基础

13-02 combine_first() 与 update()

13-03 去重与对齐

13-04 concat 实战场景

第13章：时间序列处理（5节）

定位