分布式调度系统架构实战

本内容为阿里云飞天系列之一。

大规模集群管理有两个很重要的问题是资源调度和任务调度。阿里云飞天系统中的伏羲模块就是负责这两项功能的分布式调度系统,伏羲能自动的将大规模的CPU、内存、网络等硬件资源高效地在多个任务之间分配调度,并将任务切分后在多台机器上实现并行处理,完成用户所需要的最终输出结果。

伏羲支持多任务优先级管控和抢占,也支持多租户资源配额,调度过程完全自动化,具备容错功能,系统任何角色故障自动恢复failover。伏羲系统已经支持单集群1万台服务器,目前支撑了阿里集团多个数据业务和产品,如MaxCompute以及OTS/OSS/SLS等多个阿里云产品。在2015年世界排序竞赛中伏羲获得世界冠军并打破四项世界纪录。

内容大纲:

  • 伏羲架构介绍
  • 任务调度
  • 资源调度
  • 容错机制
  • 规模挑战
  • 安全与资源隔离
  • 总结
我来评几句
登录后评论

已发表评论数()