10月26日,北京站源创会,聊聊高性能计算与大模型推理
v4.0.1
着重在以下几方面进行了功能加强和升级。
功能该要
-
添加Transformer功能
通过在TIS流程中设置Transformer功能逻辑,可实现在ETL数仓功能中,在E(数据抽取)阶段即可高效实现各种字段值转换功能,如:字段脱敏,字段拼接,取子字符串等功能。
-
提供数据预览功能
为了配合以上Transformer数据处理功能,当用户完成Transformer功能设置后,需要第一时间验证Transformer处理逻辑是否正确。基于此需求,TIS提供了数据预览功能,可以在预览数据页面直观查看数据表中真实的数据和被Transformer处理逻辑执行过的数据。
-
提供Cloudera版本的Hadoop/Hive实现
加强Hadoop生态支持力度,提供Cloudera版本的Hadoop/Hive实现插件支持。
-
优化MongoDB数据源字段分析功能
由于MongoDB是Schemaless,一般以MongoDB作为数据源导入,需要手动为MongoDB 的Collection设置Schema,这是一件烦冗且容易出错的事儿。TIS提供了基于Collection中的存量数据自动分析对应的Schema结构,大大提高了MongoDB作为源的数据管道配置效率。
-
增加数据管道、数据源的克隆功能
用户在业务系统中需要添加大量类似的配置源,例如:多个MySQL数据库,只是数据库名称不一样,其他:host、用户名、密码都一样,因此用户不想每个数据源都从新开始配置,只需配置一个数据源,其他数据库实例只需克隆该实例,然后改一下克隆出来的数据库实例的数据库名就行,从而提高了添加数据源实例的效率。
-
提供了TIS与DolphinScheduler整合方案插件
为响应用户多次提出TIS与DolphinScheduler整合方案的需要,提供了TIS与DolphinScheduler整合方案插件,事先在TIS中配置数据管道,验证无误后,通过在相应的配置插件页面,一键同步需要同步表任务到DolphinScheduler平台,即可在DS平台中事先轻松拉起数据同步任务,全程不需要编写一行配置代码。
如果你在DolphinScheduler平台中,厌倦了烦冗枯燥且容易出错的DataX、SeaTunnel的JSON配置脚本编写。您可以尝试一下TIS新提供的与DolphinScheduler整合插件,一定会有惊喜。
-
优化增量实时同步任务启动速度
当用户选择整库数据表同步任务执行,启动时间过慢。原因是有大量表执行启动任务时,需要针对每个表创建JDBC Connection实例,这样是非常耗时的。优化方案是,实现了Connection实例复用技术,大大加快了整库表同步增量任务启动速度。
-
添加MariaDB的Source/Sink Connector连接器
支持MariaDB的批量读/写、实时增量读/写功能。
-
单机部署提供设置多同步任务并发执行
为了充分挖掘单机版机器CPU并发执行的潜力,在TIS单机版部署模式下可以设置多个同步任务并发执行,可以大幅提高单机版数据同步的吞吐率。
Bug Fix
-
flink 启动立即失败,报告无法分配足够slot资源#362
-
修改分表识别自定义规则没有生效#361
-
通过savepoint或者checkpoint恢复增量任务执行有误#356
-
达梦数据库最新版本有找不到表的情况#354
-
psgql同步到doris由于数据类型为geometry导致错误#333
-
MySQL创建增量通道到ES时,部署报错#332
-
K8S 环境中利用Powerjob启动执行器,打开datax执行器报错#330
-
增量同步mysql到doris null值被转换成了\N#328
-
mongo->mysql通道构建发生报错#326
-
使用Oracle作为流式管道Source当指定schema时存在错误#322
New Feature
-
优化TIS Flink实时增量通道启动速度#366
-
aliyun ACK 测试flink-application模式增量通部署失败,须将TIS的JDK版本升级到JDK11#365
-
Make flink-cdc for mysql source connector support tableName matcher with regex pattern#360
-
DORIS date类型不能作为联合主键的第一个#359
-
数据源添加Mongodb数据库名称无法使用符号-#352
-
批量数据同步设置任务触发参数#347
-
TIS 与 dolphinscheduler 整合方案实现#345
-
Transformer中使用上下文绑定参数#342
-
实现数据预览#338
-
MySQL版本:'10.5.21 使用哪种插件安装#337
-
由于用户的MySQL服务器在美国导致启动时候checkTimeZone出错#327
-
Hive Haddop 增加Cloudera的版本支持#323
-
尝试在生产环境中使用NodePort 作为服务暴露的方式#321
-
tis-k8s/src/main/filters/tis-console.yaml 中ConfigMap tis.host配置对应的Namespace冲突#320
-
K8S中以ReplicationController发布的资源需要改造成为 deployment类型#319
-
MariaDB数据库支持...#307
-
增加任务实例和数据源复制功能#303
-
[feat]需要定义数据同步可自定义表列映射#225
经典案例
多源同步Doris
Installation
-
TIS Package 安装说明 (https://tis.pub/docs/install/tis/uber)
-
TIS Flink Standalone Package 安装说明 (https://tis.pub/docs/install/flink-cluster/standalone)
-
Flink On Kubernetes安装说明( https://tis.pub/docs/install/flink-cluster/native)
-
分布式批量数据同步组件PowerJob安装说明( https://tis.pub/docs/install/powerjob/k8s)
-
TIS Zeppeline NoteBook Installation安装说明 (https://tis.pub/docs/install/zeppelin)
TIS是啥?
TIS是一款实时ETL数仓产品,为您提供企业级数据集成服务,基于批(DataX),流(Flink-CDC、Chunjun)一体,提供简单易用的操作界面,降低用户实施端到端数据同步的实施门槛,缩短任务配置时间,避免配置过程中出错,使数据同步变得简单、有趣且容易上手 详细介绍
如果您正在利用DataX、Flink-CDC、SeaTunnel编写脚本来驱动执行端到端数据同步程序,是非常烦冗且容易出错的事儿。并因此感到些许厌倦,您可以尝试一下TIS,一定会给您带来不小的惊喜。
还没有评论,来说两句吧...