数据采集 ETL & 流批一体化框架 bboss v7.0.7 发布 --- 高效、稳定、快速、安全
bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成:
- Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java 客户端框架
- 数据采集同步 ETL ,一个基于 java 语言实现数据采集作业的强大 ETL 工具,提供丰富的输入插件和输出插件,可以基于插件规范轻松扩展新的输入插件和输出插件
- 流批一体化计算框架,提供灵活的数据指标统计计算流批一体化处理功能的简易框架,可以结合数据采集同步 ETL 工具,实现数据流处理和批处理计算,亦可以独立使用;计算结果可以保存到各种关系数据库、分布式数据仓库 Elasticsearch、Clickhouse 等,特别适用于数据体量和规模不大的企业级数据分析计算场景,具有成本低、见效快、易运维等特点,助力企业降本增效。
项目源码地址参考:源码下载和构建
v7.0.7 功能改进
- 文件采集插件改进:增加word、pdf、图片、视频等类型文件采集功能
- 文件输出插件改进:增加文件输入插件数据写入空闲时间阈值配置
- 优化完成文件清理机制:在扫描新文件过程中检测完成文件并清理
- 作业停止机制优化:异常情况停止时清理队列中的数据
- http proxy微服务框架改进:httpproxy增加一组httpGetforObjectWithParams/httpGetforStringWithParams/httpGetforStringWithParamsHeaders/httpPostforStringWithHeader方法
- 优化http proxy rpc api方法结构,消除多态方法冲突问题
- 增加一组sendJsonBodyfortypeobject方法,支持非标准容器类行和元素类型rpc服务调用
-
数据库输入插件改进:增加enableLocalDate控制开关,是否启用Localdate和LocalDateTime类型,true 启用 false 不启用,默认为false;如果不启用则将Localdate和LocalDateTime类型的值统一转换为Date类型处理
-
增量状态管理改进:设置已完成记录增量状态过期清理机制,设置采集完毕文件状态记录有效期,过期后迁移到历史表,同时清理内存中的记录,添加相关案例: fileInputConfig.setCleanCompleteFiles(true);//删除已完成文件
fileInputConfig.setFileLiveTime(30 * 1000L);//已采集完成文件存活时间,超过这个时间的文件就会根据CleanCompleteFiles标记,进行清理操作,单位:毫秒
fileInputConfig.setRegistLiveTime(60 * 1000L);//已完成文件状态记录有效期,单位:毫秒
fileInputConfig.setScanOldRegistRecordInterval(30 * 1000L);//扫描过期已完成文件状态记录时间间隔,默认为1天,单位:毫秒
-
增加ObjectHolder类,保持对象,用来在作业各组件之间传递其保持的对象
导入和使用bboss
bboss 版本最新版本号从以下文档章节【1.1 在工程中导入 bboss maven 坐标】获取:
https://esdoc.bbossgroups.com/#/db-es-tool
bboss ETL 插件使用指南
https://esdoc.bbossgroups.com/#/datatran-plugins
ETL 实战视频:Elasticsearch 导出 Excel 文件,按记录数切割 Excel 文件,解决单个文件导出数量过大问题
bboss 详细介绍文档
https://esdoc.bbossgroups.com/#/README
bboss 介绍视频
Elasticsearch Bboss Stream ETL 介绍视频
实时采集 Mysql binlog 增删改数据视频教程
bboss流批一体化计算入门教程
还没有评论,来说两句吧...