跳转到内容

Pandas 是什么

如果你做过数据分析,大概率听过 Pandas 这个名字。它可能是 Python 数据科学领域最流行的库——没有之一。但如果你是刚接触 AI/大模型开发,可能还不清楚它到底能做什么、为什么你需要学它。

这一章用最通俗的方式回答三个问题:Pandas 是什么?它能解决什么问题?为什么大模型开发离不开它?

一句话定义

Pandas = Python + Data + Analysis(面板数据)

简单来说,Pandas 是一个 Python 库,专门用来处理表格型数据——就像 Excel 那种"行和列组成的表"。但和 Excel 不同的是:

对比维度ExcelPandas
数据量上限约 100 万行就会卡单机可处理千万级行
操作方式鼠标点菜单写代码自动化
可重复性手动操作难复现脚本跑一遍即可重现
复杂分析公式嵌套容易出错链式调用清晰可控
与代码集成需要导出导入直接在 Python 中使用

它的名字从哪来

Pandas 这个名字来自 Panel Data(面板数据),这是经济学和统计学中用来描述多维数据集的术语。不过现在大家更习惯把它理解为 Python Data Analysis System

它的创始人是 Wes McKinney,2008 年开始开发,最初的目标是让金融数据的分析工作更高效。十多年过去,Pandas 已经成为 Python 数据处理的事实标准——几乎所有数据相关的 Python 项目都会用到它。

核心能力一览

Pandas 能做的事情很多,但归根结底围绕三大能力:

┌─────────────────────────────────────────────┐
│              Pandas 三大核心能力              │
│                                             │
│   ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│   │  数据读取  │ │  数据清洗  │ │  数据分析  │ │
│   │          │ │          │ │          │ │
│   │ CSV      │ │ 缺失值    │ │ 统计汇总  │ │
│   │ Excel    │ │ 去重      │ │ 分组聚合  │ │
│   │ SQL数据库 │ │ 类型转换  │ │ 排序排名  │ │
│   │ JSON     │ │ 字符串    │ │ 合并连接  │ │
│   │ Parquet  │ │ 筛选过滤  │ │ 可视化    │ │
│   └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────────────────────────┘

别担心记不住这些——后续章节会逐一详细讲解。你现在只需要建立一个大体的认知:Pandas 就是一个帮你高效处理表格数据的工具库

基于 MIT 许可发布