DataTorrent-流式处理和分析平台

DataTorrent - 流式处理和分析平台

分布式应用/网格

授权协议: 商业软件

操作系统: 跨平台

开发语言: Java

软件简介

DataTorrent是一个实时的流式处理和分析平台，它每秒可以处理超过10亿个实时事件。

与Twitter平均每秒大约6000条微博相比，最近发布的DataTorrent
1.0似乎已经超出了需求，它每秒可以处理超过10亿个实时事件。他们在一个包含37个节点的集群上进行了测试，每个节点256GB内存、12核超线程CPU。在CPU达到饱和之前，DataTorrent声称已经实现了线性扩展，而CPU达到饱和时处理速度为每秒16亿个事件。Phu
Hoang是DataTorrent的联合创始人和CEO，他告诉InfoQ，在同样的硬件上，他们的解决方案在性能上比Apache
Spark要高“好几个数量级”。

DataTorrent基于Hadoop
2.x构建，是一个实时的、有容错能力的数据流式处理和分析平台，它使用本地Hadoop应用程序，而这些应用程序可以与执行其它任务，如批处理，的应用程序共存。该平台的架构如下图所示：

StrAM（Streaming Application Master）是一个本地的YARN Application
Master，负责管理将要在Hadoop集群上执行的逻辑DAG（Directed Acyclic
Graph），包括资源分配、分区、扩展、调度、Web服务、运行时更改、统计、SLA执行、安全等等。

在架构示意图的上层，用户应用程序作为已连接的算子和/或应用程序模板存在。算子的示例有InputReceiver（模拟接收输入数据）、Average（针对指定维度的键计算数据平均值）、RedisAverageOutput（将计算好的平均值写入Redis数据存储）、SmtpAvgOperator（发送电子邮件警报）。这些算子是Malhar库的一部分，该库包含了超过400个这样的算子，并在GitHub上开源。用户可以根据需要编写其它算子。

软件首页