Pandas 自定义聚合

在数据分析中，聚合（Aggregation）是一个常见的操作，它允许我们将数据集中的多个值合并为一个单一的值。Pandas提供了许多内置的聚合函数，如 sum()、mean()、max() 等。然而，有时我们需要根据特定的需求自定义聚合函数。本文将详细介绍如何在Pandas中使用自定义聚合函数。

什么是自定义聚合？

自定义聚合是指使用用户定义的函数来对数据进行聚合操作。与内置的聚合函数不同，自定义聚合函数可以根据具体的业务逻辑来处理数据，从而实现更灵活的数据分析。

基本用法

在Pandas中，我们可以使用 agg() 或 aggregate() 方法来应用自定义聚合函数。以下是一个简单的示例：

python
import pandas as pd

# 创建一个示例DataFrame
data = {
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Values': [10, 15, 10, 20, 10, 30]
}
df = pd.DataFrame(data)

# 定义一个自定义聚合函数
def custom_agg(x):
    return x.max() - x.min()

# 应用自定义聚合函数
result = df.groupby('Category')['Values'].agg(custom_agg)
print(result)

输出：

Category
A    5
B    10
C    20
Name: Values, dtype: int64

在这个示例中，我们定义了一个名为 custom_agg 的函数，它计算每个组中最大值与最小值的差。然后，我们使用 groupby() 和 agg() 方法将这个函数应用到 Values 列上。

多列聚合

有时我们需要对多列进行聚合操作。Pandas允许我们在 agg() 方法中传递一个字典，指定每列应用的聚合函数。以下是一个示例：

python
# 定义一个自定义聚合函数
def custom_agg(x):
    return x.sum() / x.count()

# 应用自定义聚合函数到多列
result = df.groupby('Category').agg({
    'Values': ['sum', custom_agg]
})
print(result)

输出：

          Values        
             sum custom_agg
Category                    
A              25      12.5
B              30      15.0
C              40      20.0

在这个示例中，我们对 Values 列同时应用了 sum 和自定义的 custom_agg 函数。

实际案例

假设我们有一个销售数据集，包含产品类别、销售额和销售日期。我们希望计算每个类别的总销售额，并找出每个类别中销售额最高的日期。

python
# 创建一个示例销售数据集
sales_data = {
    'Category': ['Electronics', 'Electronics', 'Clothing', 'Clothing', 'Electronics'],
    'Sales': [1000, 1500, 500, 700, 2000],
    'Date': ['2023-01-01', '2023-01-02', '2023-01-01', '2023-01-03', '2023-01-04']
}
sales_df = pd.DataFrame(sales_data)

# 定义一个自定义聚合函数
def max_sales_date(x):
    return x.loc[x['Sales'].idxmax(), 'Date']

# 应用自定义聚合函数
result = sales_df.groupby('Category').agg({
    'Sales': 'sum',
    'Date': max_sales_date
})
print(result)

输出：

               Sales        Date
Category                         
Clothing        1200  2023-01-03
Electronics     4500  2023-01-04

在这个案例中，我们计算了每个类别的总销售额，并找出了每个类别中销售额最高的日期。

总结

自定义聚合函数为Pandas提供了极大的灵活性，使我们能够根据具体需求对数据进行处理。通过 agg() 方法，我们可以轻松地应用自定义函数，甚至可以对多列进行不同的聚合操作。

附加资源与练习

练习1：创建一个包含学生姓名、科目和成绩的DataFrame，使用自定义聚合函数计算每个学生的平均成绩和最高成绩。
练习2：在一个包含订单数据的DataFrame中，使用自定义聚合函数计算每个客户的订单总金额和订单数量。

通过练习这些示例，你将更好地掌握Pandas中的自定义聚合功能。

什么是自定义聚合？​

基本用法​

多列聚合​

实际案例​

总结​

附加资源与练习​

什么是自定义聚合？

基本用法

多列聚合

实际案例

总结

附加资源与练习