跳转到内容

Pandas 教程大纲

总体设计思路

Pandas 是大模型数据处理的核心工具——SFT 数据集清洗、模型评估对比、RAG 知识库管理、API 日志分析,几乎所有 LLM 数据工作流都以 Pandas 为基础。不会 Pandas,你就只能手动处理数据,效率低且容易出错。

本教程不仅讲解 Pandas 的核心 API,更通过大量 LLM 场景实战(SFT 数据清洗、模型评估、RAG 知识库、PandasAI),让你真正掌握 Pandas 在大模型开发中的价值。教程的设计遵循以下原则:

  1. 从第一天就面向大模型:所有示例围绕 SFT 数据处理、模型评估、RAG 知识库展开
  2. 从基础到实战到进阶:数据结构 → 数据清洗 → 分析转换 → 可视化 → 性能优化 → 综合项目
  3. 5 个完整实战案例:千万级语料清洗、RAG 知识库构建、Pandas Agent、模型评估对比、Polars 迁移
  4. 覆盖最新生态:PandasAI / MCP Server / LangChain Agent / Polars 迁移

第1章:基本介绍(3节)

定位

建立对 Pandas 的整体认知。理解 Pandas 在 LLM 数据处理中的核心地位。

01-01 什么是 Pandas

  • Pandas 的历史与定位
  • DataFrame 与 Series 的直觉理解

01-02 为什么大模型需要 Pandas

  • LLM 开发中的数据处理场景
  • Pandas vs 纯 Python vs SQL 的选择

01-03 生态与学习路线

  • Pandas 在 LLM 工具链中的位置
  • NumPy → Pandas → LangChain 的学习路径

第2章:安装与环境配置(4节)

定位

搭建开发环境,了解 Pandas 3.0 的新特性。

03-01 安装 Pandas

  • pip / conda 安装方式
  • 常见安装问题排查

03-02 Pandas 3.0 要点速览

  • PyArrow 后端
  • 性能提升与 API 变化

03-03 PyArrow 后端基础

  • Arrow 格式的优势
  • 与传统 NumPy 后端的对比

03-04 开发环境推荐

  • Jupyter Notebook / VS Code / Colab
  • 常用扩展与插件

第3章:核心数据结构(4节)

定位

DataFrame 和 Series 是 Pandas 的核心。理解它们,是使用 Pandas 的前提。

04-01 Series:一维带标签数组

  • Series 的创建与属性
  • 索引与值的操作

04-02 DataFrame:二维表格

  • DataFrame 的创建方式
  • 行列索引的理解

04-03 数据查看与探索

  • head / info / describe / value_counts
  • 快速了解数据全貌

04-04 数据类型(dtype)体系

  • Pandas 的 dtype 系统
  • 类型转换与内存影响

第4章:数据读写 I/O(4节)

定位

数据处理的起点——把数据读进来,把结果写出去。

05-01 文本格式:CSV 与 JSON

  • read_csv / read_json 的参数详解
  • 编码问题与大文件处理

05-02 数据库读写 SQL

  • read_sql / to_sql
  • 连接管理与事务控制

05-03 大模型语料专用格式

  • JSONL / Parquet / Arrow 格式
  • SFT 训练数据的读写

05-04 数据加载最佳实践

  • dtype 指定 / 分块读取 / 惰性加载
  • 内存优化策略

第5章:数据审查与探索(4节)

定位

拿到数据的第一步不是清洗,而是审查——了解数据的"健康状况"。

06-01 基础信息查看

  • shape / columns / dtypes / index
  • 数据概览的系统性方法

06-02 缺失值识别与统计

  • isnull / isna / 缺失率计算
  • 缺失值的分布模式

06-03 重复值检测

  • duplicated / value_counts
  • 重复数据的识别策略

06-04 数据质量报告生成模板

  • 自动化质量检查脚本
  • 一键生成数据健康报告

第6章:数据清洗实战(5节)

定位

数据清洗占数据工作 80% 的时间。这一章覆盖最常见的清洗操作。

07-01 缺失值处理

  • dropna / fillna / interpolate
  • 不同场景下的缺失值策略

07-02 重复值处理

  • drop_duplicates 的参数详解
  • 保留策略与去重逻辑

07-03 数据类型转换

  • astype / to_numeric / to_datetime
  • 类型转换的常见陷阱

07-04 字符串处理

  • .str 访问器的常用方法
  • 正则表达式清洗

07-05 大模型驱动的高阶数据清洗

  • 用 LLM 辅助判断数据质量
  • 语义去重与异常检测

第7章:数据筛选(4节)

定位

从大量数据中精准找到你需要的那部分。

08-01 布尔索引:最核心的筛选方式

  • 布尔条件的构建
  • & | ~ 运算符与多条件组合

08-02 query() 方法:简洁表达式筛选

  • query 的语法详解
  • 与布尔索引的对比

08-03 isin() / between() 等便捷筛选方法

  • 常用筛选函数速查
  • 性能对比

08-04 LLM 场景:筛选高质量对话用于 SFT 训练

  • 完整的 SFT 数据集构建筛选流水线
  • 质量分层采样与 Bad Case 过滤

第8章:数据转换与特征工程(5节)

定位

数据转换是特征工程的基础——列操作、apply、重塑、特征构造。

09-01 列选择与行索引

  • iloc vs loc 的核心区别
  • 链式索引最佳实践

09-02 列的新增、修改与删除

  • 直接赋值 / assign() / insert() / drop()
  • 条件列生成与映射替换

09-03 apply() 与向量化操作

  • apply 的三种调用模式
  • 向量化替代方案的性能对比

09-04 数据重塑:宽长格式转换

  • melt / pivot / stack / unstack
  • LLM 场景下的数据格式转换

09-05 特征工程实战:为 LLM 训练构造数据

  • 文本特征提取 / 数值分箱 / 交互特征
  • 从原始语料到训练就绪的特征矩阵

第9章:排序与排名(4节)

定位

排序不仅是整理数据,更是分析数据的重要手段。

10-01 排序:sort_values() 深度解析

  • 单列/多列排序
  • na_position 与性能考量

10-02 rank() 排名方法

  • 六种排名策略
  • LLM 排行榜生成

10-03 nlargest() / nsmallest():高效 TopN 选择

  • 堆排序原理与性能优势
  • 分组内 TopN

10-04 排序实战场景

  • 模型评估排行榜生成
  • SFT 数据质量排序

第10章:分组聚合与透视(6节)

定位

groupby 是数据分析的核心操作——按维度汇总、统计、对比。

11-01 groupby() 分组基础

  • Split-Apply-Combine 范式
  • 单列/多列分组

11-02 聚合方法 agg() 详解

  • 命名聚合语法、多聚合函数
  • 自定义聚合

11-03 transform() 与 filter()

  • transform 广播回原形状
  • filter 按条件丢弃整组

11-04 pivot_table() 与 crosstab()

  • 多维聚合透视
  • 交叉表统计

11-05 groupby 高级用法

  • 遍历 groupby 对象
  • 并行分组处理

11-06 groupby 实战场景

  • LLM 对话数据的多维分析
  • 模型评估分组统计

第11章:数据合并与连接(5节)

定位

数据分散在多个表中,合并是数据整合的核心操作。

12-01 merge() 基础:四种连接类型

  • inner/left/right/full outer
  • on/how 参数详解

12-02 merge() 高级技巧

  • left_on/right_on 不同列名
  • 索引合并与性能优化

12-03 join() 索引连接

  • DataFrame.join() 用法
  • 与 merge 的选择决策

12-04 merge 性能优化

  • 大表合并的性能瓶颈
  • category 类型加速与分块策略

12-05 merge 实战场景

  • 模型评估数据关联
  • SFT 数据与标注结果合并

第12章:数据拼接与组合(4节)

定位

纵向/横向拼接数据——批量加载、多源汇总。

13-01 concat() 基础

  • 纵向与横向拼接
  • ignore_index / keys / join 参数

13-02 combine_first() 与 update()

  • 缺失值填充合并
  • 覆盖更新数据

13-03 去重与对齐

  • drop_duplicates 在合并后的使用
  • reindex 对齐索引

13-04 concat 实战场景

  • 多文件批量加载合并
  • LLM 日志数据按日期合并

第13章:时间序列处理(5节)

定位

时间序列在 LLM 场景中无处不在——API 调用日志、训练监控、用户活跃度分析。

14-01 时间序列基础

  • pd.to_datetime() 解析
  • DatetimeIndex 操作

14-02 重采样 resample() 与滚动窗口 rolling()

  • 按时间粒度聚合
  • 移动平均/求和

14-03 shift() 与 diff()

  • 数据的滞后/前移
  • 环比/同比计算

14-04 时间序列监控实战

  • API 调用量/延迟/错误率的实时监控
  • 异常检测与告警

14-05 时间序列实战场景

  • 用户活跃度分析
  • 模型版本对比

第14章:数据可视化(4节)

定位

可视化是数据分析的"眼睛"——一张图胜过千行数据。

15-01 可视化基础:plot() 快速绘图

  • 折线图/柱状图/散点图/直方图

15-02 高级绘图技巧

  • 多子图布局、颜色映射、标注与样式

15-03 LLM 数据可视化实战

  • 模型评分雷达图、训练损失曲线
  • API 监控仪表盘

15-04 可视化最佳实践

  • 图表选择决策树
  • 配色方案与导出高质量图片

第15章:高级操作技巧(5节)

定位

掌握高级操作,让数据处理更加高效和优雅。

16-01 迭代与分块处理

  • iterrows/itertuples 的正确用法
  • chunk 模式处理大文件

16-02 样式与格式化

  • Style/Styler API
  • 条件着色与格式化输出

16-03 多级索引 MultiIndex

  • 创建/操作多层索引
  • stack/unstack 转换

16-04 Category 类型深度解析

  • category 的内部存储机制
  • 性能对比与适用场景

16-05 链式调用 Pipeline

  • pipe() 方法
  • 链式数据处理的最佳实践

第16章:性能优化(4节)

定位

从"能跑"到"跑得快"——内存优化、计算优化、IO 优化。

17-01 内存优化实战

  • dtype 优化策略
  • 分块处理减少峰值内存

17-02 计算性能优化

  • 向量化 vs apply
  • eval() 表达式引擎与 numba 加速

17-03 I/O 性能优化

  • Parquet 优势 / 列裁剪 / 分区读取

17-04 性能优化综合实战与工具

  • 性能分析工具 / 基准测试框架
  • 端到端优化案例

第17章:PandasAI 与自然语言查询(4节)

定位

用自然语言操作 DataFrame——PandasAI 让非技术人员也能做数据分析。

18-01 PandasAI 简介与环境搭建

  • 安装配置与核心概念

18-02 PandasAI 核心用法

  • chat() 查询 / plot() 可视化
  • 多轮对话与代码生成

18-03 PandasAI 高级功能

  • 多 DataFrame 查询 / 自定义技能
  • 成本控制与安全性

18-04 PandasAI 在 LLM 开发中的实战

  • 模型评估数据分析
  • 与原生 Pandas 协作工作流

第18章:RAG 知识库管理(4节)

定位

Pandas 在 RAG 系统中的核心角色——知识库数据结构设计、检索管理、版本控制。

19-01 RAG 知识库数据结构设计

  • Chunk 元数据管理 / 向量存储
  • 来源追踪与版本控制

19-02 知识库检索与排序

  • 相似度计算 / 多路召回 / 重排

19-03 知识库管理与维护

  • 增量更新 / 版本管理 / 去重

19-04 RAG 知识库完整工作流

  • 端到端 RAG 管理系统
  • 导出与部署

第19章:综合项目实战(4节)

定位

三个端到端项目,覆盖 SFT 数据处理、评估报告、成本监控。

20-01 项目一:SFT 数据集端到端处理流水线

  • 数据清洗 / 质量评估 / 分层抽样 / 导出

20-02 项目二:LLM 评估报告自动生成系统

  • 多模型多基准评估 / 自动排名 / 报告导出

20-03 项目三:API 成本监控仪表盘

  • API 日志分析 / 实时成本追踪 / 预算告警

20-04 项目总结与进阶路线图

  • Pandas 技能树与学习路径

第20章:LangChain + Pandas Agent(4节)

定位

用 LangChain 构建 DataFrame 分析 Agent——让 AI 自主完成数据分析任务。

21-01 LangChain + Pandas 集成概览

  • DataFrame Agent 的原理与架构

21-02 构建数据分析 Agent

  • 完整的 Agent 实现
  • Tool 自定义与错误处理

21-03 Agent 记忆与上下文管理

  • 多轮对话中的状态保持
  • Token 管理与数据摘要

21-04 Agent 实战场景

  • 自动化报告生成
  • 交互式数据问答

第21章:MCP Server 与多模态(4节)

定位

MCP 协议让 Pandas 成为 AI 工具链的一部分;多模态数据管理是 LLM 开发的新前沿。

22-01 MCP 协议与 Pandas

  • MCP 核心概念
  • Pandas MCP Server 的架构设计

22-02 MCP Server 工具开发

  • 定义 Tool / 实现 handler
  • 完整 Pandas Server 代码

22-03 MCP 资源与安全

  • Resource 定义 / 权限控制 / 沙箱执行

22-04 MCP 完整实战

  • Claude Desktop / Cursor 集成
  • 调试技巧与常见问题

第22章:多模态数据处理(4节)

定位

图像、音频、视频数据的元数据管理与训练数据构建。

23-01 图像数据与 Pandas

  • 图像元数据管理 / EXIF 提取
  • VLM 训练数据构建

23-02 音频数据与 Pandas

  • 音频元数据管理
  • ASR 数据集构建

23-03 多模态数据统一管理

  • 图文/音视频混合数据集
  • 跨模态关联分析

23-04 多模态实战场景

  • VLM 训练数据集构建
  • 多模态 RAG 知识库管理

第23章:分布式处理与总结(4节)

定位

当数据量超过单机处理能力时,需要分布式方案。

24-01 Dask 基础:Pandas 的分布式替代

  • Dask DataFrame API
  • 与 Pandas 的兼容性

24-02 Modin 与 Ray:其他分布式方案

  • Modin 的 drop-in 替换策略
  • Polars 迁移路径

24-03 分布式处理最佳实践

  • 分块策略 / 内存管理
  • 何时该升级到分布式

24-04 分布式实战场景

  • 千万级语料的分布式清洗
  • 从 Pandas 到 Dask 的迁移案例

第24章:总结与进阶路线(3节)

定位

知识体系总结与未来方向。

25-01 知识体系总结

  • Pandas 核心知识图谱
  • 各章节关联关系

25-02 学习路线图与资源推荐

  • 从入门到精通的进阶路径
  • 官方文档/书籍/课程推荐

25-03 进阶主题与前沿方向

  • Pandas 3.0 新特性
  • PyArrow 后端 / Polars 迁移指南

第25章:案例1:千万级语料清洗(4节)

定位

端到端实战:从原始对话日志到 SFT/DPO 训练就绪数据。

26-01 加载千万级对话数据

  • 大规模 CSV/JSONL 的加载策略
  • 分块读取与 dtype 优化

26-02 质量分析报告生成

  • 自动化质量报告
  • 多维度统计分析

26-03 LLM 辅助智能清洗

  • 调用 LLM API 批量判断数据质量
  • 语义去重与成本控制

26-04 导出 SFT/DPO 训练格式

  • JSONL 格式转换
  • train/val 划分与 Parquet 输出

第26章:案例2:RAG 知识库构建(4节)

定位

端到端实战:从原始文档到可检索知识库。

27-01 文档解析与分块

  • PDF/Markdown/HTML 文档解析
  • 文本分块策略

27-02 元数据管理

  • chunk 级别的元数据追踪
  • 文档-chunk 关联

27-03 向量准备与分块

  • token 计数统计
  • chunk 大小分布分析

27-04 端到端 RAG 管道

  • 从原始文档到可检索知识库
  • 质量检查点与自动化输出

第27章:案例3:LangChain Pandas Agent(4节)

定位

端到端实战:构建一个能自然语言问答的 DataFrame 分析 Agent。

28-01 环境配置与 API Key 管理

  • API Key 安全存储
  • 多模型配置

28-02 创建 Pandas Agent

  • Agent 初始化与 Tool 定义
  • 错误处理策略

28-03 自然语言问答

  • 中文查询支持
  • 复杂分析任务

28-04 Web 应用部署

  • FastAPI 后端 + Streamlit 前端
  • Docker 容器化

第28章:案例4:模型评估对比分析(4节)

定位

端到端实战:多模型多基准的评估对比与报告生成。

29-01 加载多模型评测结果

  • 多源数据合并与标准化
  • 缺失值处理与数据对齐

29-02 自动化指标计算与对比表生成

  • 多维度评分计算
  • 对比矩阵生成

29-03 可视化对比图表

  • 雷达图 / 柱状对比图 / 热力图

29-04 生成评估报告

  • 自动生成 Markdown/HTML 报告
  • 关键发现与决策建议

第29章:案例5:迁移 Polars 获得加速(4节)

定位

端到端实战:从 Pandas 迁移到 Polars,获得 5-10 倍性能提升。

30-01 性能瓶颈识别

  • 内存/计算/I/O 瓶颈分析
  • cProfile + Pandas profiling

30-02 语法迁移:关键函数对照与改写

  • Pandas vs Polars API 对照表
  • 常见代码迁移模式

30-03 混合使用:Pandas 与 Polars 数据互转

  • 互转方法与注意事项
  • 渐进式迁移策略

30-04 迁移性能报告

  • 端到端迁移报告生成
  • 成本效益分析与建议

基于 MIT 许可发布