2022年10月27日的内容

Spark RDD 依赖关系和阶段任务划分及任务调度原理

依赖关系血缘关系介绍多个连续的RDD的依赖关系，称之为血缘关系，通过RDD的血缘关系，就可以构建出DAG 有向无环图。 RDD为了提高容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关系将数据源重新读取进行计算。查看血缘关系任意转换算子使用 toDebug...

2年前 (2022-10-27) 2110℃ 2喜欢

介绍持久化的作用，供RDD的重复使用，针对计算耗时比较长，可以提高计算的效率，针对数据比较重要的数据保存到持久化中，数据的安全性也可以得到保障。持久化操作是在行动算子执行时完成的。注意：RDD中不存储数据，如果一个RDD需要重复使用，那么需要从头再次执行来获取数据，RD...

2年前 (2022-10-27) 5484℃ 0喜欢

前言默认情况下，Spark可以将一个作业切分多个任务后，发送给Executor节点并行计算，而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建RDD时指定。注意：这里的并行执行的任务数量，并不是指的切分任务的数量。 Spark分区的目的是为了并行计算，因为一个分区就是...

2年前 (2022-10-27) 2268℃ 0喜欢

前言 Spark的部署方式虽然有多种模式，如：本地local、Standalone、Apache Mesos、Hadoop YARN等，但是大家90%以上的场景用的都是spark on yarn的模式。 Spark on yarn运行分两种模式：1.Yarn-Cluster模式；...

2年前 (2022-10-27) 1098℃ 1喜欢