Streamsets简单介绍

Streamsets是一款用于数据集成、处理及流转的开源平台,它提供了一个web操作界面,在该界面中业务人员可以不需要编写复杂的代码,只需要通过拖拽和连线的方式,即可从多项不同的数据源中(如kafak、rabbitmq、hdfs、mysql、redis)创建批处理和流式数据流,实现数据的快速获取、操作及写入,提高业务处理速度,实现对数据流的统一管理。

Streamsets官方下载地址:https://streamsets.com/ Streamsets相关概念介绍

Pipeline:一个完整的数据操作流程,包括从Origins中获取数据、在Processors中处理数据、在
Destinations接收到传输过来的数据,一个Pipeline中有且最多拥有一个Origins。

Origins: 数据来源,Pipeline的起始阶段,表示Pipeline中数据的原始产生者,目前3.8.0版本支持Kafka、Elasticsearch、HDFS、JDBC、MongoDB、HTTP Server、Amazon S3、Pulsar、RabbitMQ、Redis等数十种数据来源;

Processors: 数据处理操作,支持数据分流、加密、数据筛选、数据删除等多种操作,可以根据需求自由组合操作;

Destinations:数据接收端,Pipeline的结束阶段,接收Processors中处理好的数据,目前3.8.0版本支持Kafka、Elasticsearch、Flume、Cassandra、HDFS、HBASE、InfluxDB、Kinesis、Kudu、MongoDB、Amazon S3、Pulsar、RabbitMQ、Hive、Solr、Splunk、Redis等数十种数据末端;

Executors:主要用于Destinations接收数据满足一定条件后自动触发相应的任务,作为整个Pipeline操作过程中的一个补充,例如在目标关闭时移动完全写入的文件。