由于blog各种垃圾评论太多,而且本人审核评论周期较长,所以懒得管理评论了,就把评论功能关闭,有问题可以直接qq骚扰我

最新发布 第4页

西门飞冰的博客梦想成为架构师的普通运维

大数据

Spark 内存管理

Spark 内存管理
介绍 Spark是基于内存的分布式计算引擎,其内置强大的内存管理机制,保证数据优先内存处理,并支持数据磁盘存储。 在执行Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 S...

3个月前 (10-29) 116℃ 0喜欢

大数据

Spark RDD 共享变量

Spark RDD 共享变量
介绍 一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上,并且这些变量在远程机器上 的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是...

3个月前 (10-29) 142℃ 0喜欢

大数据

Spark RDD 依赖关系和阶段任务划分及任务调度原理

Spark RDD 依赖关系和阶段任务划分及任务调度原理
依赖关系 血缘关系介绍 多个连续的RDD的依赖关系,称之为血缘关系,通过RDD的血缘关系,就可以构建出DAG 有向无环图。 RDD为了提高容错性,需要将RDD间的关系保存下来,一旦出现错误,可以根据血缘关系将数据源重新读取进行计算。 查看血缘关系 任意转换算子使用 toDebug...

3个月前 (10-27) 170℃ 1喜欢

大数据

Spark RDD 持久化(Cache和CheckPoint)

Spark RDD 持久化(Cache和CheckPoint)
介绍 持久化的作用,供RDD的重复使用,针对计算耗时比较长,可以提高计算的效率,针对数据比较重要的数据保存到持久化中,数据的安全性也可以得到保障。 持久化操作是在行动算子执行时完成的。 注意:RDD中不存储数据,如果一个RDD需要重复使用,那么需要从头再次执行来获取数据,RD...

3个月前 (10-27) 165℃ 0喜欢

大数据

Spark RDD 分区规则和分区器

Spark RDD 分区规则和分区器
前言 默认情况下,Spark可以将一个作业切分多个任务后,发送给Executor节点并行计算,而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建RDD时指定。注意:这里的并行执行的任务数量,并不是指的切分任务的数量。 Spark分区的目的是为了并行计算,因为一个分区就是...

3个月前 (10-27) 222℃ 0喜欢

大数据

Spark on Yarn 两种模式执行流程

Spark on Yarn 两种模式执行流程
前言 Spark的部署方式虽然有多种模式,如:本地local、Standalone、Apache Mesos、Hadoop YARN等,但是大家90%以上的场景用的都是spark on yarn的模式。 Spark on yarn运行分两种模式:1.Yarn-Cluster模式;...

3个月前 (10-27) 152℃ 1喜欢

架构设计

分布式事务之XA方案(Seata实现)

分布式事务之XA方案(Seata实现)
什么是XA? XA 规范 是 X/Open 组织定义的分布式事务处理(DTP,Distributed Transaction Processing) 标准。 典型的二段式事务解决方案 在 Seata 定义的分布式事务框架内,利⽤事务资源(数据库、消息服务等)对 XA 协议的⽀...

3个月前 (10-23) 282℃ 3喜欢

架构设计

分布式事务之TCC方案

分布式事务之TCC方案
TCC 介绍 TCC属于2阶段分布式事务 TCC是Try-尝试、Confirm-确认、Cancel-取消 Try:尝试阶段,对资源进行锁定 Confirm:确认阶段,对资源进行确认,完成操作 Cancel:取消阶段,对资源进行还原,取消操作 案例介绍 假设我们的产品有两个服务...

3个月前 (10-23) 158℃ 1喜欢

架构设计

分布式事务之AT方案(Seata实现)

分布式事务之AT方案(Seata实现)
什么是分布式事务 分布式事务指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。简单的说,就是一次大的操作由不同的小操作组成,这些小的操作分布在不同的服务器上,且属于不同的应用,分布式事务需要保证这些小操作要么全部成功,要么全部失败。...

3个月前 (10-23) 294℃ 2喜欢

架构设计

分布式事务之二段式和三段式

分布式事务之二段式和三段式
什么是分布式事务 分布式事务指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。简单的说,就是一次大的操作由不同的小操作组成,这些小的操作分布在不同的服务器上,且属于不同的应用,分布式事务需要保证这些小操作要么全部成功,要么全部失败。...

3个月前 (10-23) 182℃ 1喜欢