资料介绍
软件简介
seatunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。
为什么我们需要 seatunnel
seatunnel 尽所能为您解决海量数据同步中可能遇到的问题:
- 数据丢失与重复
- 任务堆积与延迟
- 吞吐量低
- 应用到生产环境周期长
- 缺少应用运行状态监控
seatunnel 使用场景
- 海量数据同步
- 海量数据集成
- 海量数据的 ETL
- 海量数据聚合
- 多源数据处理
seatunnel 的特性
- 简单易用,灵活配置,无需开发
- 实时流式处理
- 离线多源数据分析
- 高性能、海量数据处理能力
- 模块化和插件化,易于扩展
- 支持利用 SQL 做数据处理和聚合
- 支持 Spark Structured Streaming
- 支持 Spark 2.x
seatunnel 的工作流程
Input[数据源输入] -> Filter[数据处理] -> Output[结果输出]
多个 Filter 构建了数据处理的 Pipeline,满足各种各样的数据处理需求,如果您熟悉 SQL,也可以直接通过 SQL 构建数据处理的 Pipeline,简单高效。目前 seatunnel 支持的Filter列表, 仍然在不断扩充中。您也可以开发自己的数据处理插件,整个系统是易于扩展的。
seatunnel 支持的插件
- Input plugin
Fake, File, Hdfs, Kafka, S3, Socket, 自行开发的 Input plugin
- Filter plugin
Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行开发的Filter plugin
- Output plugin
Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行开发的 Output plugin
环境依赖
-
java 运行环境,java >= 8
-
如果您要在集群环境中运行 seatunnel,那么需要以下 Spark 集群环境的任意一种:
- Spark on Yarn
- Spark Standalone
如果您的数据量较小或者只是做功能验证,也可以仅使用 local
模式启动,无需集群环境,seatunnel 支持单机运行。 注: seatunnel 2.0 支持 Spark 和 Flink 上运行
下载
可以直接运行的软件包下载地址:https://github.com/InterestingLab/seatunnel/releases
快速入门
快速入门:https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/quick-start
关于 seatunnel 的详细文档
生产应用案例
-
微博, 增值业务部数据平台 微博某业务有数百个实时流式计算任务使用内部定制版 seatunnel,以及其子项目Guardian做 seatunnel On Yarn 的任务监控。
-
新浪, 大数据运维分析平台 新浪运维数据分析平台使用 seatunnel 为新浪新闻,CDN 等服务做运维大数据的实时和离线分析,并写入 Clickhouse。
-
搜狗,搜狗奇点系统 搜狗奇点系统使用 seatunnel 作为 ETL 工具, 帮助建立实时数仓体系
-
趣头条,趣头条数据中心 趣头条数据中心,使用 seatunnel 支撑 mysql to hive 的离线 ETL 任务、实时 hive to clickhouse 的 backfill 技术支撑,很好的 cover 离线、实时大部分任务场景。
-
永辉超市子公司-永辉云创,会员电商数据分析平台 seatunnel 为永辉云创旗下新零售品牌永辉生活提供电商用户行为数据实时流式与离线 SQL 计算。
-
水滴筹, 数据平台 水滴筹在 Yarn 上使用 seatunnel 做实时流式以及定时的离线批处理,每天处理 3~4T 的数据量,最终将数据写入 Clickhouse。
更多案例参见: https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/case_study/
贡献观点和代码
提交问题和建议:https://github.com/InterestingLab/seatunnel/issues
贡献代码:https://github.com/InterestingLab/seatunnel/pulls
开发者
感谢所有开发者
- 基于DSP的航空发动机分布式总线设计方案 14次下载
- 虚拟化模型驱动的分布式数据湖架构设计 5次下载
- Ceph分布式存储系统性能优化研究综述 5次下载
- 基于分布式数据Cache的实时动态迁移机制 20次下载
- 区块链中的分布式数据库管理系统相关研究 8次下载
- 基于分布式文件系统元数据操作优化 0次下载
- 一种面向高性能计算的分布式对象存储系统 0次下载
- 分布式数据流上的高性能分发策略 0次下载
- 基于高清视频数据的高性能分布式存储系统 1次下载
- 分布式云管理协同平台研究 6次下载
- Windows平台的分布式实时仿真系统 10次下载
- 基于Windows平台的分布式实时仿真系统
- 无线分布式集成监测网络系统及应用
- 分布式制造资源集成系统软件平台研究
- 无线分布式集成监测网络系统及应用
- Java手写分布式锁的实现 424次阅读
- tldb提供分布式锁使用方法 761次阅读
- 数据库如何实现分布式锁 4438次阅读
- 深入理解redis分布式锁 763次阅读
- Apache Pulsar的特性 607次阅读
- 分布式存储架构面临的挑战 1288次阅读
- 如何使用分布式存储系统促进AI模型训练 494次阅读
- 鸿蒙分布式相机“踩坑”分享 1578次阅读
- 分布式光纤传感器原理_分布式光纤传感器的应用 8424次阅读
- 分布式控制系统的介绍 5216次阅读
- 分布式工业物联网云平台是怎样的 1694次阅读
- Redis 分布式锁的正确实现方式 3483次阅读
- Apache Ignite上的TensorFlow!分布式内存数据源 3618次阅读
- 浅谈分布式块存储的元数据服务设计 4871次阅读
- 深度解读分布式存储技术之分布式剪枝系统 1773次阅读
下载排行
本周
- 1山景DSP芯片AP8248A2数据手册
- 1.06 MB | 532次下载 | 免费
- 2RK3399完整板原理图(支持平板,盒子VR)
- 3.28 MB | 339次下载 | 免费
- 3TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 4DFM软件使用教程
- 0.84 MB | 295次下载 | 免费
- 5元宇宙深度解析—未来的未来-风口还是泡沫
- 6.40 MB | 227次下载 | 免费
- 6迪文DGUS开发指南
- 31.67 MB | 194次下载 | 免费
- 7元宇宙底层硬件系列报告
- 13.42 MB | 182次下载 | 免费
- 8FP5207XR-G1中文应用手册
- 1.09 MB | 178次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537798次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191187次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论
查看更多