RDD创建方式
在Apache Spark中,RDD(弹性分布式数据集)是核心的数据抽象。RDD是不可变的分布式对象集合,可以并行操作。理解如何创建RDD是学习Spark编程的第一步。本文将详细介绍几种常见的RDD创建方式,并通过代码示例和实际案例帮助你掌握这些方法。
1. 从集合创建RDD
最简单的方式是从本地集合(如列表、数组等)创建RDD。Spark提供了parallelize
方法,可以将本地集合转换为RDD。
代码示例
from pyspark import SparkContext
# 初始化SparkContext
sc = SparkContext("local", "RDD Creation Example")
# 从集合创建RDD
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)
# 输出RDD内容
print(rdd.collect()) # 输出: [1, 2, 3, 4, 5]
备注
parallelize
方法将本地集合分发到集群的各个节点上,形成一个分布式数据集。