Pandas 基础统计
Pandas 是一个强大的 Python 数据分析库,广泛应用于数据处理和分析任务。在数据分析中,统计是一个非常重要的部分。Pandas 提供了许多内置函数,可以帮助我们快速计算数据的统计特征。本文将介绍如何使用 Pandas 进行基础统计分析。
1. 描述性统计
描述性统计是对数据集的基本特征进行总结的过程。Pandas 提供了 describe()
函数,可以快速生成描述性统计信息。
示例:使用 describe()
函数
import pandas as pd
# 创建一个简单的DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]
}
df = pd.DataFrame(data)
# 使用describe()函数
print(df.describe())
输出:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 30.000000 300.000000
std 1.581139 15.811388 158.113883
min 1.000000 10.000000 100.000000
25% 2.000000 20.000000 200.000000
50% 3.000000 30.000000 300.000000
75% 4.000000 40.000000 400.000000
max 5.000000 50.000000 500.000000
备注
describe()
函数默认只对数值型列进行统计。如果数据中包含非数值型列,可以使用 include='all'
参数来包含所有列。
2. 数据聚合
数据聚合是指将数据集中的多个值合并为一个单一的值。Pandas 提供了多种聚合函数,如 sum()
、mean()
、median()
、min()
、max()
等。
示例:使用聚合函数
# 计算每列的总和
print(df.sum())
# 计算每列的平均值
print(df.mean())
# 计算每列的中位数
print(df.median())
输出:
A 15
B 150
C 1500
dtype: int64
A 3.0
B 30.0
C 300.0
dtype: float64
A 3.0
B 30.0
C 300.0
dtype: float64
提示
你可以使用 groupby()
函数对数据进行分组,然后对每个组应用聚合函数。