ETL的技术本质是:通过调度管理控制一系列具有数据处理功能的各种程序有序地运行。因此,有人总结:“ETL是BI(商业智能)的基础,调度是ETL的灵魂”。从功能层面讲,调度是ETL技术体系的重要组成部分;从架构层面讲,调度是ETL技术体系的核心;从应用层面讲:调度是成百上千任务的管理者、控制者,它不仅限于调度任务,同时还担当各种任务的分类管理、展示、监控维护等诸多重任。可见ETL调度的重要性,ETL调度独立发展将是ETL技术发展的一种必然趋势!
TASKCTL开源版作为目前唯一的ETL调度领域开源软件,保证100% free,绝无黑盒代码。它志在促进该领域的独立发展,使调度在ETL领域独立化、专业化、系统化。从而使项目实施更轻松便捷,使企业基础架构更清晰、更易管理。
(一)主要适用环境
操作系统 :aix/linux/unix/windows等(由于采用标准c语言构建,理论上可应用与各种主流unix系列);
项目规模 :适用于中小型ETL项目;
ETL工具环境 :TASKCTL由于采用任务插件驱动机制,因此,可支持各种存储过程、各种脚本、以及诸如Datastage\Informatica\kettle等各种ETL工具任务。
(二)主要功能
核心调度功能 :主要可以完成串行、并行、依赖、互斥、执行计划排程(自然日历、逻辑日历)、定时、容错(重做、忽略)、循环、条件分支、远程、负载均衡、断点续作、参数控制、返回控制、跳转控制、变量自动设置、作业输入输出传递、时间窗口控制、并发控制、资源阈值控制、优先级控制、自定义条件等各种不同的核心调度功能。
扩展功能
网络扩展:可实现单机部署、多服务部署、远程代理部署、集群部署等多种网络部署;
应用扩展:设计有专门的应用API接口(C接口、JAVA接口、WebServices接口),可实现更多的调度应用;
任务类型扩展:除开工具本身内置的各种ETL作业、DataStage、Oracle、DB2、sql、Kettle、Java、Shell、Python、exe、bat、ftp、script等作业类型外,为了适应不同类型的任务调度,平台可通过具有统一模版、统一接口的插件进行快速自定义扩展。几乎只要有命令行接口的程序,TASKCTL都可支持调度;
应用功能:配置功能、流程设计功能、监控功能、各种查询功能以及诸如重跑、重置等人工干预功能;
高可用支持:支持高可用分布式集群调度,可跨平台调度,Linux可调度Windows平台作业;
预警支持:支持短信与邮件预警功能,可通过配置实现JOB的短信与邮件告警;
流程图支持:流程图采用有序无环图思想设计,可以根据作业自动绘制流程图拓扑。
(三) 主要创新
简易性: 整个软件安装可实现分钟级完成安装,一分钟即可上手完成“Hello World!”配置;
作业实时监控: 任务监控采用高效数据缓存算法,可对10万级作业进行统一实时监控和错误秒级定位;
无数据库设计 :国内首款专业无数据库调度技术平台;
插件机制 :业界唯一通过具有统一应用接口的插件来扩展任务类型的技术平台;
流程设计代码开发设计理念:调度领域唯一通过文本代码设计流程的调度技术平台。具有语法代码特征的文本代码设计与传统记录表格对话框方式相比,操作更方便、设计更灵活、可读性更强。
(四)其它
主要文档
《TASKCTL1.0(开源版)快速使用指南》
《TASKCTL1.0(开源版)流程XML代码》
《TASKCTL1.0(开源版)任务驱动插件应用》
《TASKCTL1.0(开源版)技术白皮书》
《TASKCTL1.0(开源版)二次开发手册》
《TASKCTL1.0(开源版)源代码简要说明》