当前位置:首页 > 智算网络技术 >

虎鲸云际管理调度系统(Grampus)

虎鲸云际管理调度系统接入智算网络各个智算中心,对算力、存储、网络等资源进行统一管理和协同调度,统一对上层应用提供作业操作等能力。

特点:

  • 资源管理:各智算中心的算力、存储、网络等资源信息采集、监控、管理;
  • 作业管理:提供了人工智能作业管理功能;
  • 作业调度:根据集群负载、数据拓扑、能源损耗等调度因子选择最优智算中心执行作业;

下图展示了系统总体架构:1. 虎鲸业务:开放API提供作业等标准接口给外部用户使用;管理后台主要给管理员对虎鲸系统进行管理;领域微服务实现作业等核心业务逻辑,支撑上层API接口;监控可视化负责展示智算网络的各种指标数据;2. 虎鲸调度:任务控制器、调度器框架和调度器插件主要为基于kubenetes技术栈的作业调度;虚拟节点代理用于将底层智算中心集群管理系统包装成kubernetes的一个节点,供调度器调度使用;3. 虎鲸适配器,用于屏蔽各个智算中心集群管理系统接口,对上提供统一的接入标准接口;启智章鱼、Model Arts则为各个智算中心异构集群管理系统。