由于blog各种垃圾评论太多,而且本人审核评论周期较长,所以懒得管理评论了,就把评论功能关闭,有问题可以直接qq骚扰我

标签:大数据

中间件

Kafka on Pulsar(KOP)

Kafka on Pulsar(KOP)
KOP 介绍 KoP(Kafka on Pulsar)通过在 Pulsar 代理上引入 Kafka 协议处理程序,为 Apache Pulsar 带来了原生的Apache Kafka协议支持。通过将 KoP 协议处理程序添加到您现有的 Pulsar 集群,您可以将现有的 Kafk...

2年前 (2022-10-14) 927℃ 1喜欢

中间件

Pulsar 架构原理

Pulsar 架构原理
bookkeeper 集群的架构 Apache BookKeeper 是企业级存储系统,旨在保证高持久性、一致性与低延迟。 企业级的实时存储平台需要具备的特点: 以极低的延迟(小于 5 毫秒)读写 entry 流 能够持久、一致、容错地存储数据 在写数据时,能够进行流式传输或...

2年前 (2022-10-14) 830℃ 0喜欢

中间件

Pulsar function

Pulsar function
function 背景 当我们进行流式处理的时候,很多情况下,我们的需求可能只是下面这些简单的操作:简单的ETL 操作\聚合计算操作等相关服务。 但为了实现这些功能,我们不得不去部署一整套 流处理服务(spark、flink等)。但是我们仅仅需要这些服务的一小部分功能,部署流处理...

2年前 (2022-10-14) 2970℃ 0喜欢

中间件

Pulsar 主要功能介绍及使用

Pulsar 主要功能介绍及使用
多租户模式 什么是多租户 Apache Pulsar 最初诞生于雅虎,当时就是为了解决雅虎内部各个部门之间数据的协调,所以多租户特性显得至关重用,Pulsar 从诞 生之日起就考虑到多租户这一特性,并在后续的实现过程中,将其不断的完善。 多租户这一特性,使得各个部门之间可以共享同...

2年前 (2022-10-14) 2489℃ 1喜欢

中间件

Pulsar介绍和集群部署

Pulsar介绍和集群部署
Pulsar 基本介绍 背景 Apache Pulsar 是一个云原生企业级的发布订阅(pub-sub)消息系统2012年雅虎孵化,2016年开源成为apache的顶级项目,Pulsar 已经被腾讯、智联招聘、涂鸦智能、中国移动、中国电信、360、达达集团(京东到家)、苏宁、平安...

2年前 (2022-10-14) 1783℃ 2喜欢

大数据

hive 自定义UDF函数

hive 自定义UDF函数
说明 Hive自带了一些函数,比如:max/min等,但是数量有限,碰到一些个性化业务需求,比如数据加密脱敏、URL解码、身份证校验、解析IP和手机号归属地,就可以通过自定义UDF来方便的扩展。 官方文档:https://cwiki.apache.org/confluence/d...

2年前 (2022-10-07) 730℃ 0喜欢

大数据

hive存储格式和压缩算法选择

hive存储格式和压缩算法选择
结论 hive 压缩和存储组合推荐使用:orc + snappy 获得最好的性能和合理的压缩率 存储格式选择 Hive支持的存储数据的格式主要有:textfile 、orc、parquet。 textfile存储格式是基于行存储的,实际生产不使用,一般只有数仓的ODS原始数据层使...

2年前 (2022-10-04) 6646℃ 1喜欢

大数据

atlas2.1集成CDH6.2进行元数据管理

atlas2.1集成CDH6.2进行元数据管理
Atlas介绍 Apache atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。 核心组件 core Ingest/Export:Ingest 组件允许将元数据添加到 ...

3年前 (2021-02-22) 3300℃ 39喜欢

大数据

ClickHouse学习和集群部署

ClickHouse学习和集群部署
1、ClickHouse产生背景 随着科技的发展,时代的进步,数据分析师已经不再满足于传统的T+1式报表或需要提前设置好维度与指标的OLAP查询。数据分析师更希望使用可以支持任意指标、任意维度并秒级给出反馈的大数据Ad-hoc查询系统。这对大数据技术来说是一项非常大的挑战,传统的...

3年前 (2021-02-09) 6257℃ 7喜欢

大数据

实时计算——storm原理和运维

实时计算——storm原理和运维
什么是storm Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有较高的吞吐率和较低的延迟。Storm是无状态的,它通过Apache ZooKeeper 管理分布式环境和集群状态。部署和开发S...

5年前 (2019-05-04) 5674℃ 4喜欢