Pandas 基础统计

Pandas 是一个强大的 Python 数据分析库，广泛应用于数据处理和分析任务。在数据分析中，统计是一个非常重要的部分。Pandas 提供了许多内置函数，可以帮助我们快速计算数据的统计特征。本文将介绍如何使用 Pandas 进行基础统计分析。

1. 描述性统计

描述性统计是对数据集的基本特征进行总结的过程。Pandas 提供了 describe() 函数，可以快速生成描述性统计信息。

示例：使用 `describe()` 函数

import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
}

df = pd.DataFrame(data)

# 使用describe()函数
print(df.describe())

输出：

              A          B           C
count  5.000000   5.000000    5.000000
mean   3.000000  30.000000  300.000000
std    1.581139  15.811388  158.113883
min    1.000000  10.000000  100.000000
25%    2.000000  20.000000  200.000000
50%    3.000000  30.000000  300.000000
75%    4.000000  40.000000  400.000000
max    5.000000  50.000000  500.000000

备注

describe() 函数默认只对数值型列进行统计。如果数据中包含非数值型列，可以使用 include='all' 参数来包含所有列。

2. 数据聚合

数据聚合是指将数据集中的多个值合并为一个单一的值。Pandas 提供了多种聚合函数，如 sum()、mean()、median()、min()、max() 等。

示例：使用聚合函数

# 计算每列的总和
print(df.sum())

# 计算每列的平均值
print(df.mean())

# 计算每列的中位数
print(df.median())

输出：

A     15
B    150
C    1500
dtype: int64

A      3.0
B     30.0
C    300.0
dtype: float64

A      3.0
B     30.0
C    300.0
dtype: float64

提示

你可以使用 groupby() 函数对数据进行分组，然后对每个组应用聚合函数。

3. 常用统计方法

Pandas 还提供了许多其他常用的统计方法，如 std()（标准差）、var()（方差）、corr()（相关性）等。

示例：计算标准差和相关性

# 计算每列的标准差
print(df.std())

# 计算列之间的相关性
print(df.corr())

输出：

A     1.581139
B    15.811388
C   158.113883
dtype: float64

     A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0

警告

相关性矩阵中的值范围在 -1 到 1 之间。1 表示完全正相关，-1 表示完全负相关，0 表示无相关性。

4. 实际案例

假设你有一个包含学生成绩的数据集，你想要分析学生的平均成绩、最高成绩和最低成绩。

示例：分析学生成绩

# 创建学生成绩DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Math': [85, 90, 78, 92, 88],
    'Science': [88, 85, 90, 87, 89],
    'English': [92, 88, 85, 90, 87]
}

df = pd.DataFrame(data)

# 计算每科的平均成绩
print(df[['Math', 'Science', 'English']].mean())

# 计算每科的最高成绩
print(df[['Math', 'Science', 'English']].max())

# 计算每科的最低成绩
print(df[['Math', 'Science', 'English']].min())

输出：

Math       86.6
Science    87.8
English    88.4
dtype: float64

Math       92
Science    90
English    92
dtype: int64

Math       78
Science    85
English    85
dtype: int64

5. 总结

通过本文，我们学习了如何使用 Pandas 进行基础统计分析。我们介绍了描述性统计、数据聚合和常用统计方法，并通过实际案例展示了这些方法的应用。掌握这些基础统计方法，将有助于你更好地理解和分析数据。

6. 附加资源与练习

练习 1：创建一个包含 10 行数据的 DataFrame，计算每列的平均值和标准差。
练习 2：使用 groupby() 函数对数据进行分组，并计算每个组的平均值。
附加资源：阅读 Pandas 官方文档了解更多高级统计方法。

注意

在练习时，确保你理解每个函数的输出含义，并尝试修改代码以观察不同的结果。

1. 描述性统计​

示例：使用 describe() 函数​

2. 数据聚合​

示例：使用聚合函数​

3. 常用统计方法​

示例：计算标准差和相关性​

4. 实际案例​

示例：分析学生成绩​

5. 总结​

6. 附加资源与练习​

1. 描述性统计

示例：使用 `describe()` 函数

2. 数据聚合

示例：使用聚合函数

3. 常用统计方法

示例：计算标准差和相关性

4. 实际案例

示例：分析学生成绩

5. 总结

6. 附加资源与练习