虎鲸云际管理调度系统接入智算网络各个智算中心,对算力、存储、网络等资源进行统一管理和协同调度,统一对上层应用提供作业操作等能力。
特点:
下图展示了系统总体架构:1. 虎鲸业务:开放API提供作业等标准接口给外部用户使用;管理后台主要给管理员对虎鲸系统进行管理;领域微服务实现作业等核心业务逻辑,支撑上层API接口;监控可视化负责展示智算网络的各种指标数据;2. 虎鲸调度:任务控制器、调度器框架和调度器插件主要为基于kubenetes技术栈的作业调度;虚拟节点代理用于将底层智算中心集群管理系统包装成kubernetes的一个节点,供调度器调度使用;3. 虎鲸适配器,用于屏蔽各个智算中心集群管理系统接口,对上提供统一的接入标准接口;启智章鱼、Model Arts则为各个智算中心异构集群管理系统。