简介
传统的存算一体架构具有数据本地化的先天性能优势,而采用存算分离之后,由于所有的数据读写都要通过网络进行,因此就失去了数据本地化的性能优势。为了解决这个问题,会在计算和存储之间引入新的分布式缓存组件,例如Juice FS和Alluxio,以进一步提升数据的读写性能。
Juic...
1年前 (2023-06-05) 2200℃
3喜欢
简介
Spark Shuffle通常是在RDD宽依赖的情况下发生,是上游Stage和下游Stage之间传递数据的一种机制。shuffle阶段通常会伴随中间数据的落盘(数据量不大的情况下也可以不落盘而是全部保存在内存中),shuffle的性能高低直接影响了整个Spark程序的性能和...
1年前 (2023-06-05) 2086℃
0喜欢
简介
在实际工作中,绝大多数的离线数仓,批处理作业,都是使用SQL脚本开发的,通过SQL语句实现处理的逻辑。得益于spark的优良性能,尤其是在spark 3.0之后,spark sql的性能有了大幅度的提升。目前在绝大多数的公司的数仓团队中,都是通过spark sql来开发批处...
1年前 (2023-06-05) 883℃
0喜欢
简介
在Spark On K8s场景下, 涉及计算资源的设置, 除了driver.cores、 executor.cores、 driver.memory 和executor.memory这4个Spark自有的参数外, 还会受到K8s对资源控制的影响, 例如k8s request...
1年前 (2023-06-05) 2213℃
1喜欢
简介
元数据checkpoint主要用于Spark Streaming场景,以便Driver从故障中快速恢复任务的DAG和状态数据; 而RDD checkpoint主要是对有状态转换算子的数据做持久化,以切断依赖链,缩短Spark程序恢复时间 在Spark On K8s环境下,c...
1年前 (2023-06-05) 1601℃
0喜欢
简介
Spark 支持使用Pod Template文件定义Driver和Executor的Pod规格信息,在Pod Template中可以使用Kubernetes原生支持的语法,这样不仅可以极大简化spark-submit的参数数量,而且可以在Pod Template中添加spa...
1年前 (2023-06-05) 551℃
0喜欢
简介
在之前的案例中,spark 作业退出之后,所有的内容都销毁了,如果要对之前运行的程序进行调试和优化,是没有办法查询的,这个时候就有必要部署Spark History Server了。Spark History Server是一个非常重要的工具,可以帮助用户管理和监控 Spa...
1年前 (2023-06-05) 1869℃
0喜欢
简介
容器化是当前甚至未来一段时间内计算机提供资源的主流方式,当下的云原生就是有力的例证。在这种趋势引领下大数据也会走向容器化,容器化也就意味着存算分离。
大数据主要提供海量数据的存储和海量数据的计算这两大类的能力,简单来讲大数据存算分离就是将提供存储的组件和提供计算的组件从物理...
1年前 (2023-06-05) 2947℃
2喜欢
简介
Iceberg 的优势有以下几点:
1、增量数据更新:Iceberg 可以支持增量数据更新,而不是全量数据覆盖,从而减少了数据更新的时间和成本。
2、事务管理:Iceberg 支持事务管理,可以确保数据的一致性和可靠性。
3、版本管理:Iceberg 支持版本管理,可以方便...
2年前 (2023-04-28) 4665℃
1喜欢
前言
数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多,两大直接后果:Spark 任务 OOM 异常退出和数据倾斜拖慢整个任务的执行。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。
导致...
2年前 (2022-10-31) 1037℃
4喜欢