数据采集 ETL 工具 bboss-datatran v6.7.6 发布,支持Elasticsearch 8以及其他Elasticsearch低版本和Opensearch之间数据同步。
bboss-datatran 是一款基于 java 语言开发的数据采集同步工具,提供数据采集、数据清洗转换处理和数据入库功能,支持在 Elasticsearch、关系数据库 (mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件 / 日志文件、excel 文件、csv 文件、SFTP/FTP、http/https 等多种数据源之间进行海量数据采集同步;支持数据实时增量和全量数据采集;提供了作业任务控制 API、作业监控 api,支持作业启动、暂停 (pause)、继续(resume)、停止控制机制;支持 http jwt 服务认证和数据签名。基于 bboss 可轻松定制一款属于自己的 ETL 管理工具。
v6.7.6 功能改进
-
异步批处理增加scriptField功能,通过其指定操作的dsl脚本,使用案例:
data = new HashMap<String,Object>(); data.put("id",1000); data.put("script","{\"name\":\"duoduo104\",\"goodsid\":104}"); clientOptions = new ClientOptions(); clientOptions.setIdField("id"); clientOptions.setScriptField("script"); bulkProcessor.insertData("bulkdemo",data,clientOptions); data = new HashMap<String,Object>(); data.put("id",1000); data.put("script","{\"name\":\"updateduoduo104\",\"goodsid\":1104}"); clientOptions = new ClientOptions(); clientOptions.setIdField("id"); clientOptions.setScriptField("script"); bulkProcessor.updateData("bulkdemo",data,clientOptions);
-
https协议支持Elasticsearch官方的三种ssl证书,参考文档:https协议配置
-
优化客户端工具类索引字段管理方法,将内置嵌套结构也增加到字段清单中
-
调整JobTaskMetrics中作业开始时间、作业id、作业名称的设置机制,避免作业执行异常时未正确设置作业信息
-
修复Elasticsearch输入插件createBaseDataTran方法被重复调用两次问题
-
文件输入输出插件改进:ftp发送失败文件重试扫描机制、备份文件清理扫描机制改进
-
文件输入输出插件改进:将生成的文件信息(本地文件路径、ftp文件路径)添加到作业jobmetrics中,获取方法:
/** * 文件导出时特定的文件类型任务上下文,包含了导出文件清单信息 */ public void afterCall(TaskContext taskContext) { JobTaskMetrics taskMetrics = taskContext.getJobTaskMetrics(); List<GenFileInfo> genFileInfos = (List<GenFileInfo>) taskMetrics.readJobExecutorData(FileOutputConfig.JobExecutorDatas_genFileInfos); }
数据同步作业开发视频教程:
https://www.bilibili.com/video/BV1xf4y1Z7xu
bboss 案例大全
https://esdoc.bbossgroups.com/#/bboss-datasyn-demo
Quick Start
https://esdoc.bbossgroups.com/#/quickstart
开发交流
https://www.bbossgroups.com/forum.html
还没有评论,来说两句吧...