1. 缓存和checkpoint机制
缓存和checkpoint也叫作rdd的持久化,将rdd的数据存储在指定位置。
作用:
1.1 缓存使用
- 缓存级别
- 使用
- persist使用该方法
- cache内部调用persist
- 手动释放 unpersist
from pyspark import SparkContext
from pyspark.storagelevel import StorageLevel
sc = SparkContext()
rdd = sc.parallelize(['a', 'b','a','c'])
rdd_kv = rdd.map(lambda x: (x,1))
rdd_kv.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)
rdd_kv.collect()
rdd_group = rdd_kv.groupByKey()
rdd_reduce = rdd_group.reduceByKey(lambda x,y:x+y)
res = rdd_reduce.collect()
print(res)
1.2 checkpoint
from pyspark import SparkContext
sc = SparkContext()
sc.setCheckpointDir('hdfs://node1:8020/checkpoint')
rdd = sc.parallelize(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k'])
rdd_kv = rdd.map(lambda x: (x, 1))
rdd_kv.checkpoint()
print(rdd_kv.glom().collect())
rdd_group = rdd_kv.groupByKey()
rdd_reduce = rdd_group.reduceByKey(lambda x, y: x + y)
res = rdd_kv.collect()
print(res)
res1 = rdd_group.collect()
print(res1)
res2 = rdd_reduce.collect()
print(res2)
1.3 缓存和checkpoint的区别
- 生命周期
- 缓存数据,程序计算结束后自动删除
- checkpoint 程序结束,数据依然保留在HDFS
- 存储位置
- 缓存 优先存储在内存上,也可以选存储在本地磁盘,是在计算任务所在的内存和磁盘上。
- checkpoint存储在HDFS上
- 依赖关系
- 缓存数据后,会
保留rdd之间依赖关系,缓存临时存储,数据可能会丢失,需要保留依赖,当缓存丢失后可以按照依赖重新计算。 - checkpoint,数据存储后会
断开依赖,数据保存在HDFS,HDFS三副本机制可以保证数据不丢失,所以没有比较保留依赖关系。
注意:缓存和checkpoint可以作为rdd优化的方案,提升计算速度,一般对经常要使用的rdd进行缓存和checkpoint,对计算比较复杂的rdd进行缓存或checkpoint。
2. 数据共享
2.1 广播变量
减少task线程对应变量的定义,节省内存空间。
from pyspark import SparkContext
sc= SparkContext()
a_obj = sc.broadcast(10)
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])
rdd2 = rdd.map(lambda x:x+a_obj.value)
res = rdd2.collect()
print(res)
2.2 累加器
避免资源抢占造成错误
from pyspark import SparkContext
sc = SparkContext()
acc_obj = sc.accumulator(0)
rdd = sc.parallelize([1,2,3])
rdd2 = rdd.map(lambda x:acc_obj.add(x))
res = rdd.collect()
print(res)
res1 = rdd2.collect()
print(res1)
print(acc_obj.value)
查看结果:
3. RDD依赖关系
- 窄依赖
- 每个父RDD的一个partition最多被子RDD的一个partition所使用。
- 宽依赖
- 一个父RDD的partition会被多个子RDD的partition所使用
- groupByKey
- reduceByKey
- sortByKey
- 在宽依赖中rdd之间会发生数据交换,这个交换的过程称为rdd的shuffle
- 只要是宽依赖必然发生shuffle
- 在宽依赖进行数据交换时,只有等待所有分区交换完成后,才能进行后续的计算,非常影响计算速度。
from pyspark import SparkContext
sc = SparkContext()
rdd = sc.parallelize([1,2,3,4])
rdd_kv = sc.parallelize([('a',1), ('b',2), ('c',3)])
rdd2 = rdd.map(lambda x:x+1)
rdd3 = rdd_kv.groupByKey()
res = rdd3.collect()
print(res)
DAG 管理维护rdd之间依赖关系,保证代码的执行顺序,
DAG会根据依赖关系划分stage,每个stage都是一个的计算步骤,当发生宽依赖时,会单独拆分一个计算步骤(stage),进行相关数据计算,可以保证每个单独的stage可以并行执行
在发生宽依赖进行shuffle时,会的方法执行shuffle计算
拆分计算步骤的本质是为了保证数据计算的并行执行
查看spark的计算过程,通过DAG判断算子是宽依赖还是窄依赖
拆分了计算stage是宽依赖,没有拆分是窄依赖
启动spark的历史日志
start-history-server.sh
4.shuffle过程
mapreduce的shuffle作用: 将map计算后的数据传递给redue使用。
mapreduce的shuffle过程: 分区(将相同key的数据放在一个分区,采用hash),排序,合并(规约)。
将map计算的数据传递给reduce
spark中也有shuffle
当执行宽依赖的算子就会进行shuffle
将rdd的数据传递给下一个rdd,进行数据交换
无论是spark还是mr,shuffle的本质是传递交换数据。
4.1 shuffle介绍
- spark的shuffle的两个部分
- shuffle write 写
- shuffle read 读
- 会进行文件的读写,影响spark的计算速度
- spark的shuffle方法类
- 是spark封装好的处理shuffle的方法
- hashshuffle类
- 进行的是hash计算
- spark1.2版本之前主要使用,之后引入了sortshuffle
- spark2.0之后,删除了hashshuffle,从2.0版本开始使用sortshuffle类
- 优化的hashshuffle和未优化的ashshuffle
- sortshuffle类
- 排序方式将相同key值数据放在一起
- sortshuffle类使用时,有两个方法实现shuffle
- bypass模式版本和普通模式版本
- bypass模式版本不会排序,会进行hash操作
- 普通模式版本会排序进行shuffle
- 可以通过配置指定按照那种模式执行 根据task数量决定 默认 task数量小于等于200 采用bypass,task数量超过200个则使用普通模式的方法进行shuffle
- 一个分区对应一个task,所以task数量由分区数决定
普通模式和bypass模式的主要区别在于如何将相同key值的数据放在一起
- 排序 普通模式采用的策略
- 哈希取余 bypass模式采用的策略
4.2 spark计算要尽量避免shuffle
from pyspark import SparkContext
sc = SparkContext()
rdd = sc.parallelize([('男',20),('男',23),('女',20),('女',22)])
rdd2 = rdd.reduceByKey(lambda x,y:x+y)
boy = sc.accumulator(0)
girl = sc.accumulator(0)
def func(x):
if x[0]=='男':
boy.add(x[1])
else :
girl.add(x[1])
return None
rdd3 = rdd.map(func)
rdd3.collect()
print(boy.value)
print(girl.value)
5. 并行度
-
资源并行度
-
数据并行度
- 就是task数量,task由分区数决定
- 为了保证task能充分利用cpu资源,实现并行计算,需要设置分区数应该和资源并行度一致
- 在实际公司中就要根据公司资源并行度进行设置分区数
- 有的场景下公司会要求数据并行度大于资源并行度
资源并行度,
按照yarn安装的服务器数量指定excutor数量 3
核心数量按照yarn中的nodemanager中的核心数指定 2
数据并行度指定
官方建议 数据并行度的task数量和资源并行度数量一致