主题
Pandas 教程大纲
总体设计思路
Pandas 是大模型数据处理的核心工具——SFT 数据集清洗、模型评估对比、RAG 知识库管理、API 日志分析,几乎所有 LLM 数据工作流都以 Pandas 为基础。不会 Pandas,你就只能手动处理数据,效率低且容易出错。
本教程不仅讲解 Pandas 的核心 API,更通过大量 LLM 场景实战(SFT 数据清洗、模型评估、RAG 知识库、PandasAI),让你真正掌握 Pandas 在大模型开发中的价值。教程的设计遵循以下原则:
- 从第一天就面向大模型:所有示例围绕 SFT 数据处理、模型评估、RAG 知识库展开
- 从基础到实战到进阶:数据结构 → 数据清洗 → 分析转换 → 可视化 → 性能优化 → 综合项目
- 5 个完整实战案例:千万级语料清洗、RAG 知识库构建、Pandas Agent、模型评估对比、Polars 迁移
- 覆盖最新生态:PandasAI / MCP Server / LangChain Agent / Polars 迁移
第1章:基本介绍(3节)
定位
建立对 Pandas 的整体认知。理解 Pandas 在 LLM 数据处理中的核心地位。
01-01 什么是 Pandas
- Pandas 的历史与定位
- DataFrame 与 Series 的直觉理解
01-02 为什么大模型需要 Pandas
- LLM 开发中的数据处理场景
- Pandas vs 纯 Python vs SQL 的选择
01-03 生态与学习路线
- Pandas 在 LLM 工具链中的位置
- NumPy → Pandas → LangChain 的学习路径
第2章:安装与环境配置(4节)
定位
搭建开发环境,了解 Pandas 3.0 的新特性。
03-01 安装 Pandas
- pip / conda 安装方式
- 常见安装问题排查
03-02 Pandas 3.0 要点速览
- PyArrow 后端
- 性能提升与 API 变化
03-03 PyArrow 后端基础
- Arrow 格式的优势
- 与传统 NumPy 后端的对比
03-04 开发环境推荐
- Jupyter Notebook / VS Code / Colab
- 常用扩展与插件
第3章:核心数据结构(4节)
定位
DataFrame 和 Series 是 Pandas 的核心。理解它们,是使用 Pandas 的前提。
04-01 Series:一维带标签数组
- Series 的创建与属性
- 索引与值的操作
04-02 DataFrame:二维表格
- DataFrame 的创建方式
- 行列索引的理解
04-03 数据查看与探索
- head / info / describe / value_counts
- 快速了解数据全貌
04-04 数据类型(dtype)体系
- Pandas 的 dtype 系统
- 类型转换与内存影响
第4章:数据读写 I/O(4节)
定位
数据处理的起点——把数据读进来,把结果写出去。
05-01 文本格式:CSV 与 JSON
- read_csv / read_json 的参数详解
- 编码问题与大文件处理
05-02 数据库读写 SQL
- read_sql / to_sql
- 连接管理与事务控制
05-03 大模型语料专用格式
- JSONL / Parquet / Arrow 格式
- SFT 训练数据的读写
05-04 数据加载最佳实践
- dtype 指定 / 分块读取 / 惰性加载
- 内存优化策略
第5章:数据审查与探索(4节)
定位
拿到数据的第一步不是清洗,而是审查——了解数据的"健康状况"。
06-01 基础信息查看
- shape / columns / dtypes / index
- 数据概览的系统性方法
06-02 缺失值识别与统计
- isnull / isna / 缺失率计算
- 缺失值的分布模式
06-03 重复值检测
- duplicated / value_counts
- 重复数据的识别策略
06-04 数据质量报告生成模板
- 自动化质量检查脚本
- 一键生成数据健康报告
第6章:数据清洗实战(5节)
定位
数据清洗占数据工作 80% 的时间。这一章覆盖最常见的清洗操作。
07-01 缺失值处理
- dropna / fillna / interpolate
- 不同场景下的缺失值策略
07-02 重复值处理
- drop_duplicates 的参数详解
- 保留策略与去重逻辑
07-03 数据类型转换
- astype / to_numeric / to_datetime
- 类型转换的常见陷阱
07-04 字符串处理
- .str 访问器的常用方法
- 正则表达式清洗
07-05 大模型驱动的高阶数据清洗
- 用 LLM 辅助判断数据质量
- 语义去重与异常检测
第7章:数据筛选(4节)
定位
从大量数据中精准找到你需要的那部分。
08-01 布尔索引:最核心的筛选方式
- 布尔条件的构建
- & | ~ 运算符与多条件组合
08-02 query() 方法:简洁表达式筛选
- query 的语法详解
- 与布尔索引的对比
08-03 isin() / between() 等便捷筛选方法
- 常用筛选函数速查
- 性能对比
08-04 LLM 场景:筛选高质量对话用于 SFT 训练
- 完整的 SFT 数据集构建筛选流水线
- 质量分层采样与 Bad Case 过滤
第8章:数据转换与特征工程(5节)
定位
数据转换是特征工程的基础——列操作、apply、重塑、特征构造。
09-01 列选择与行索引
- iloc vs loc 的核心区别
- 链式索引最佳实践
09-02 列的新增、修改与删除
- 直接赋值 / assign() / insert() / drop()
- 条件列生成与映射替换
09-03 apply() 与向量化操作
- apply 的三种调用模式
- 向量化替代方案的性能对比
09-04 数据重塑:宽长格式转换
- melt / pivot / stack / unstack
- LLM 场景下的数据格式转换
09-05 特征工程实战:为 LLM 训练构造数据
- 文本特征提取 / 数值分箱 / 交互特征
- 从原始语料到训练就绪的特征矩阵
第9章:排序与排名(4节)
定位
排序不仅是整理数据,更是分析数据的重要手段。
10-01 排序:sort_values() 深度解析
- 单列/多列排序
- na_position 与性能考量
10-02 rank() 排名方法
- 六种排名策略
- LLM 排行榜生成
10-03 nlargest() / nsmallest():高效 TopN 选择
- 堆排序原理与性能优势
- 分组内 TopN
10-04 排序实战场景
- 模型评估排行榜生成
- SFT 数据质量排序
第10章:分组聚合与透视(6节)
定位
groupby 是数据分析的核心操作——按维度汇总、统计、对比。
11-01 groupby() 分组基础
- Split-Apply-Combine 范式
- 单列/多列分组
11-02 聚合方法 agg() 详解
- 命名聚合语法、多聚合函数
- 自定义聚合
11-03 transform() 与 filter()
- transform 广播回原形状
- filter 按条件丢弃整组
11-04 pivot_table() 与 crosstab()
- 多维聚合透视
- 交叉表统计
11-05 groupby 高级用法
- 遍历 groupby 对象
- 并行分组处理
11-06 groupby 实战场景
- LLM 对话数据的多维分析
- 模型评估分组统计
第11章:数据合并与连接(5节)
定位
数据分散在多个表中,合并是数据整合的核心操作。
12-01 merge() 基础:四种连接类型
- inner/left/right/full outer
- on/how 参数详解
12-02 merge() 高级技巧
- left_on/right_on 不同列名
- 索引合并与性能优化
12-03 join() 索引连接
- DataFrame.join() 用法
- 与 merge 的选择决策
12-04 merge 性能优化
- 大表合并的性能瓶颈
- category 类型加速与分块策略
12-05 merge 实战场景
- 模型评估数据关联
- SFT 数据与标注结果合并
第12章:数据拼接与组合(4节)
定位
纵向/横向拼接数据——批量加载、多源汇总。
13-01 concat() 基础
- 纵向与横向拼接
- ignore_index / keys / join 参数
13-02 combine_first() 与 update()
- 缺失值填充合并
- 覆盖更新数据
13-03 去重与对齐
- drop_duplicates 在合并后的使用
- reindex 对齐索引
13-04 concat 实战场景
- 多文件批量加载合并
- LLM 日志数据按日期合并
第13章:时间序列处理(5节)
定位
时间序列在 LLM 场景中无处不在——API 调用日志、训练监控、用户活跃度分析。
14-01 时间序列基础
- pd.to_datetime() 解析
- DatetimeIndex 操作
14-02 重采样 resample() 与滚动窗口 rolling()
- 按时间粒度聚合
- 移动平均/求和
14-03 shift() 与 diff()
- 数据的滞后/前移
- 环比/同比计算
14-04 时间序列监控实战
- API 调用量/延迟/错误率的实时监控
- 异常检测与告警
14-05 时间序列实战场景
- 用户活跃度分析
- 模型版本对比
第14章:数据可视化(4节)
定位
可视化是数据分析的"眼睛"——一张图胜过千行数据。
15-01 可视化基础:plot() 快速绘图
- 折线图/柱状图/散点图/直方图
15-02 高级绘图技巧
- 多子图布局、颜色映射、标注与样式
15-03 LLM 数据可视化实战
- 模型评分雷达图、训练损失曲线
- API 监控仪表盘
15-04 可视化最佳实践
- 图表选择决策树
- 配色方案与导出高质量图片
第15章:高级操作技巧(5节)
定位
掌握高级操作,让数据处理更加高效和优雅。
16-01 迭代与分块处理
- iterrows/itertuples 的正确用法
- chunk 模式处理大文件
16-02 样式与格式化
- Style/Styler API
- 条件着色与格式化输出
16-03 多级索引 MultiIndex
- 创建/操作多层索引
- stack/unstack 转换
16-04 Category 类型深度解析
- category 的内部存储机制
- 性能对比与适用场景
16-05 链式调用 Pipeline
- pipe() 方法
- 链式数据处理的最佳实践
第16章:性能优化(4节)
定位
从"能跑"到"跑得快"——内存优化、计算优化、IO 优化。
17-01 内存优化实战
- dtype 优化策略
- 分块处理减少峰值内存
17-02 计算性能优化
- 向量化 vs apply
- eval() 表达式引擎与 numba 加速
17-03 I/O 性能优化
- Parquet 优势 / 列裁剪 / 分区读取
17-04 性能优化综合实战与工具
- 性能分析工具 / 基准测试框架
- 端到端优化案例
第17章:PandasAI 与自然语言查询(4节)
定位
用自然语言操作 DataFrame——PandasAI 让非技术人员也能做数据分析。
18-01 PandasAI 简介与环境搭建
- 安装配置与核心概念
18-02 PandasAI 核心用法
- chat() 查询 / plot() 可视化
- 多轮对话与代码生成
18-03 PandasAI 高级功能
- 多 DataFrame 查询 / 自定义技能
- 成本控制与安全性
18-04 PandasAI 在 LLM 开发中的实战
- 模型评估数据分析
- 与原生 Pandas 协作工作流
第18章:RAG 知识库管理(4节)
定位
Pandas 在 RAG 系统中的核心角色——知识库数据结构设计、检索管理、版本控制。
19-01 RAG 知识库数据结构设计
- Chunk 元数据管理 / 向量存储
- 来源追踪与版本控制
19-02 知识库检索与排序
- 相似度计算 / 多路召回 / 重排
19-03 知识库管理与维护
- 增量更新 / 版本管理 / 去重
19-04 RAG 知识库完整工作流
- 端到端 RAG 管理系统
- 导出与部署
第19章:综合项目实战(4节)
定位
三个端到端项目,覆盖 SFT 数据处理、评估报告、成本监控。
20-01 项目一:SFT 数据集端到端处理流水线
- 数据清洗 / 质量评估 / 分层抽样 / 导出
20-02 项目二:LLM 评估报告自动生成系统
- 多模型多基准评估 / 自动排名 / 报告导出
20-03 项目三:API 成本监控仪表盘
- API 日志分析 / 实时成本追踪 / 预算告警
20-04 项目总结与进阶路线图
- Pandas 技能树与学习路径
第20章:LangChain + Pandas Agent(4节)
定位
用 LangChain 构建 DataFrame 分析 Agent——让 AI 自主完成数据分析任务。
21-01 LangChain + Pandas 集成概览
- DataFrame Agent 的原理与架构
21-02 构建数据分析 Agent
- 完整的 Agent 实现
- Tool 自定义与错误处理
21-03 Agent 记忆与上下文管理
- 多轮对话中的状态保持
- Token 管理与数据摘要
21-04 Agent 实战场景
- 自动化报告生成
- 交互式数据问答
第21章:MCP Server 与多模态(4节)
定位
MCP 协议让 Pandas 成为 AI 工具链的一部分;多模态数据管理是 LLM 开发的新前沿。
22-01 MCP 协议与 Pandas
- MCP 核心概念
- Pandas MCP Server 的架构设计
22-02 MCP Server 工具开发
- 定义 Tool / 实现 handler
- 完整 Pandas Server 代码
22-03 MCP 资源与安全
- Resource 定义 / 权限控制 / 沙箱执行
22-04 MCP 完整实战
- Claude Desktop / Cursor 集成
- 调试技巧与常见问题
第22章:多模态数据处理(4节)
定位
图像、音频、视频数据的元数据管理与训练数据构建。
23-01 图像数据与 Pandas
- 图像元数据管理 / EXIF 提取
- VLM 训练数据构建
23-02 音频数据与 Pandas
- 音频元数据管理
- ASR 数据集构建
23-03 多模态数据统一管理
- 图文/音视频混合数据集
- 跨模态关联分析
23-04 多模态实战场景
- VLM 训练数据集构建
- 多模态 RAG 知识库管理
第23章:分布式处理与总结(4节)
定位
当数据量超过单机处理能力时,需要分布式方案。
24-01 Dask 基础:Pandas 的分布式替代
- Dask DataFrame API
- 与 Pandas 的兼容性
24-02 Modin 与 Ray:其他分布式方案
- Modin 的 drop-in 替换策略
- Polars 迁移路径
24-03 分布式处理最佳实践
- 分块策略 / 内存管理
- 何时该升级到分布式
24-04 分布式实战场景
- 千万级语料的分布式清洗
- 从 Pandas 到 Dask 的迁移案例
第24章:总结与进阶路线(3节)
定位
知识体系总结与未来方向。
25-01 知识体系总结
- Pandas 核心知识图谱
- 各章节关联关系
25-02 学习路线图与资源推荐
- 从入门到精通的进阶路径
- 官方文档/书籍/课程推荐
25-03 进阶主题与前沿方向
- Pandas 3.0 新特性
- PyArrow 后端 / Polars 迁移指南
第25章:案例1:千万级语料清洗(4节)
定位
端到端实战:从原始对话日志到 SFT/DPO 训练就绪数据。
26-01 加载千万级对话数据
- 大规模 CSV/JSONL 的加载策略
- 分块读取与 dtype 优化
26-02 质量分析报告生成
- 自动化质量报告
- 多维度统计分析
26-03 LLM 辅助智能清洗
- 调用 LLM API 批量判断数据质量
- 语义去重与成本控制
26-04 导出 SFT/DPO 训练格式
- JSONL 格式转换
- train/val 划分与 Parquet 输出
第26章:案例2:RAG 知识库构建(4节)
定位
端到端实战:从原始文档到可检索知识库。
27-01 文档解析与分块
- PDF/Markdown/HTML 文档解析
- 文本分块策略
27-02 元数据管理
- chunk 级别的元数据追踪
- 文档-chunk 关联
27-03 向量准备与分块
- token 计数统计
- chunk 大小分布分析
27-04 端到端 RAG 管道
- 从原始文档到可检索知识库
- 质量检查点与自动化输出
第27章:案例3:LangChain Pandas Agent(4节)
定位
端到端实战:构建一个能自然语言问答的 DataFrame 分析 Agent。
28-01 环境配置与 API Key 管理
- API Key 安全存储
- 多模型配置
28-02 创建 Pandas Agent
- Agent 初始化与 Tool 定义
- 错误处理策略
28-03 自然语言问答
- 中文查询支持
- 复杂分析任务
28-04 Web 应用部署
- FastAPI 后端 + Streamlit 前端
- Docker 容器化
第28章:案例4:模型评估对比分析(4节)
定位
端到端实战:多模型多基准的评估对比与报告生成。
29-01 加载多模型评测结果
- 多源数据合并与标准化
- 缺失值处理与数据对齐
29-02 自动化指标计算与对比表生成
- 多维度评分计算
- 对比矩阵生成
29-03 可视化对比图表
- 雷达图 / 柱状对比图 / 热力图
29-04 生成评估报告
- 自动生成 Markdown/HTML 报告
- 关键发现与决策建议
第29章:案例5:迁移 Polars 获得加速(4节)
定位
端到端实战:从 Pandas 迁移到 Polars,获得 5-10 倍性能提升。
30-01 性能瓶颈识别
- 内存/计算/I/O 瓶颈分析
- cProfile + Pandas profiling
30-02 语法迁移:关键函数对照与改写
- Pandas vs Polars API 对照表
- 常见代码迁移模式
30-03 混合使用:Pandas 与 Polars 数据互转
- 互转方法与注意事项
- 渐进式迁移策略
30-04 迁移性能报告
- 端到端迁移报告生成
- 成本效益分析与建议