
【深圳】源创会:5.26下午、轰趴馆等你”

数据采集 ETL & 流批一体化框架 bboss v7.2.0 发布,大幅提升数据加工处理性能 --- 高效、稳定、快速、安全
bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成:
-
Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java orm 客户端框架
-
数据采集同步 ETL ,一个基于 java 语言实现数据采集作业的强大 ETL 工具,提供丰富的输入插件和输出插件,可以基于插件规范轻松扩展新的输入插件和输出插件
-
流批一体化计算框架,提供灵活的数据指标统计计算流批一体化处理功能的简易框架,可以结合数据采集同步 ETL 工具,实现数据流处理和批处理计算,亦可以独立使用;计算结果可以保存到各种关系数据库、分布式数据仓库 Elasticsearch、Clickhouse 等,特别适用于数据体量和规模不大的企业级数据分析计算场景,具有成本低、见效快、易运维等特点,助力企业降本增效。
-
数据采集同步改进:增加并行模式执行数据加工方法datarefactor,大幅提升数据加工处理性能
除数据库输入插件,其他输入插件采用并行模式执行数据加工方法datarefactor。
数据库输入插件默认采用串行模式执行,可以通过dbInputConfig.setParallelDatarefactor(true)切换为并行执行模式
并行加工处理模式只有在并行作业任务模式才起作用,参考章节【4.3 串行执行和并行执行】
-
修复Elasticsearch输出插件日期转换空指针异常问题
-
数据采集同步改进:文件输入插件从ftp下载文件,重启作业时,文件过滤器检测状态表中文件异常时将异常抛出去,而不是认为文件不存在,避免不可以预知的异常
- RecordGenerator接口方法参数由Context调整为TaskContext,简化接口设计
public void buildRecord(Context taskContext, CommonRecord record, Writer builder) throws Exception; 调整为: public void buildRecord(TaskContext taskContext, CommonRecord record, Writer builder) throws Exception;
- kafka输出插件改进,增加并行批量消息输出能力,提升插件性能
- 处理采用sqlserver数据库管理增量同步状态管理表无法创建问题
- Elasticsearch客户端和http-proxy支持http请求拦截器功能,配置HttpRequestInterceptor
- 增加对Clickhouse jdbc官方驱动的支持(使用http端口),参考文档:https://doc.bbossgroups.com/#/persistent/datasource-cluster
- 插件改进:优化http输出插件、文本文件输出插件、dummy输出插件、Elasticsearch输出插件,大幅提升并行批处理任务性能
- 流处理指标计算改进:调整etl和流处理混合模式中的流处理功能到批处理任务中执行,提升流处理计算性能
- 简化回调处理结果和参数对象泛型结构定义
- 添加增量采集配置正确性校验功能
- 增加统一异常信息构建工具
- 处理作业过程中指标分析器提示metricspersistent已经停止问题
bboss低版本作业升级到7.2.0教程
https://www.bilibili.com/video/BV1gm421g7Zg/
bboss 详细介绍文档
https://esdoc.bbossgroups.com/#/README
项目源码地址参考:源码下载和构建
Elasticsearch Highlevel Java Restclient 快速上手
https://esdoc.bbossgroups.com/#/quickstart
导入和使用 bboss ETL maven 坐标
bboss 版本最新版本号从以下文档章节【1.1 在工程中导入 bboss maven 坐标】获取:
https://esdoc.bbossgroups.com/#/db-es-tool
bboss ETL & 流处理插件使用指南
https://esdoc.bbossgroups.com/#/datatran-plugins
bboss 实战视频
Elasticsearch Bboss Stream ETL 介绍视频
实时采集 Mysql binlog 增删改数据视频教程
bboss 流批一体化计算入门教程
Elasticsearch 导出 Excel 文件,按记录数切割 Excel 文件,解决单个文件导出数量过大问题
通用数据库管理工具 -- 支持关系数据库、Clickhouse、doris 等数据库管理
https://doc.bbossgroups.com/#/tools
还没有评论,来说两句吧...