主题
Pandas 是什么
如果你做过数据分析,大概率听过 Pandas 这个名字。它可能是 Python 数据科学领域最流行的库——没有之一。但如果你是刚接触 AI/大模型开发,可能还不清楚它到底能做什么、为什么你需要学它。
这一章用最通俗的方式回答三个问题:Pandas 是什么?它能解决什么问题?为什么大模型开发离不开它?
一句话定义
Pandas = Python + Data + Analysis(面板数据)
简单来说,Pandas 是一个 Python 库,专门用来处理表格型数据——就像 Excel 那种"行和列组成的表"。但和 Excel 不同的是:
| 对比维度 | Excel | Pandas |
|---|---|---|
| 数据量上限 | 约 100 万行就会卡 | 单机可处理千万级行 |
| 操作方式 | 鼠标点菜单 | 写代码自动化 |
| 可重复性 | 手动操作难复现 | 脚本跑一遍即可重现 |
| 复杂分析 | 公式嵌套容易出错 | 链式调用清晰可控 |
| 与代码集成 | 需要导出导入 | 直接在 Python 中使用 |
它的名字从哪来
Pandas 这个名字来自 Panel Data(面板数据),这是经济学和统计学中用来描述多维数据集的术语。不过现在大家更习惯把它理解为 Python Data Analysis System。
它的创始人是 Wes McKinney,2008 年开始开发,最初的目标是让金融数据的分析工作更高效。十多年过去,Pandas 已经成为 Python 数据处理的事实标准——几乎所有数据相关的 Python 项目都会用到它。
核心能力一览
Pandas 能做的事情很多,但归根结底围绕三大能力:
┌─────────────────────────────────────────────┐
│ Pandas 三大核心能力 │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 数据读取 │ │ 数据清洗 │ │ 数据分析 │ │
│ │ │ │ │ │ │ │
│ │ CSV │ │ 缺失值 │ │ 统计汇总 │ │
│ │ Excel │ │ 去重 │ │ 分组聚合 │ │
│ │ SQL数据库 │ │ 类型转换 │ │ 排序排名 │ │
│ │ JSON │ │ 字符串 │ │ 合并连接 │ │
│ │ Parquet │ │ 筛选过滤 │ │ 可视化 │ │
│ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────────────────────────┘别担心记不住这些——后续章节会逐一详细讲解。你现在只需要建立一个大体的认知:Pandas 就是一个帮你高效处理表格数据的工具库。