Pandas 箱线图
箱线图(Box Plot)是一种用于显示数据分布和检测异常值的强大工具。它通过展示数据的中位数、四分位数以及可能的异常值,帮助我们快速了解数据的整体情况。在本教程中,我们将学习如何使用Pandas绘制箱线图,并通过实际案例展示其应用。
什么是箱线图?
箱线图由五个主要部分组成:
- 中位数(Median):数据的中位数,表示数据的中心位置。
- 四分位数(Quartiles):将数据分为四等份,分别是下四分位数(Q1)、中位数(Q2)和上四分位数(Q3)。
- 箱体(Box):由Q1和Q3之间的区域组成,表示数据的中间50%。
- 须线(Whiskers):从箱体延伸出的线,通常表示数据的正常范围。
- 异常值(Outliers):超出须线范围的数据点,可能是异常值。
使用Pandas绘制箱线图
Pandas提供了简单的接口来绘制箱线图。我们可以使用 DataFrame.plot.box()
方法来绘制箱线图。
示例数据集
首先,让我们创建一个示例数据集:
import pandas as pd
import numpy as np
# 创建一个包含随机数据的DataFrame
data = {
'A': np.random.normal(0, 1, 100),
'B': np.random.normal(1, 2, 100),
'C': np.random.normal(2, 3, 100)
}
df = pd.DataFrame(data)
绘制箱线图
接下来,我们可以使用以下代码绘制箱线图:
df.plot.box()
输出
备注
在实际运行代码时,你将看到一个图形化的箱线图,展示了每列数据的中位数、四分位数、箱体、须线以及可能的异常值。
逐步讲解
1. 中位数
中位数是数据的中心位置,表示数据集中50%的值低于中位数,50%的值高于中位数。