当前位置:首页 > 智算网络技术 >

启智章鱼(Octopus)

启智章鱼主要针对AI等场景计算与资源管理的需求来设计,向使用算力的用户提供了对数据、算法、镜像、模型与算力等资源的管理与使用功能,方便用户一站式构建计算环境,实现计算。 同时,向集群管理人员提供了集群资源管理与监控,计算任务管理与监控等功能,方便集群管理人员对整体系统进行操作与分析。

特点:

  • AI流水线:提供在线调试、实时训练、一键部署的一站式全流程开发;
  • 资源管理:提供系统资源、自定义资源、资源规格、资源池等细粒度资源管理;
  • 作业调度:根据集群负载等调度因子选择最优节点执行作业;

文档:https://octopus.openi.org.cn
代码仓:https://git.openi.org.cn/OpenI/octopus
交流社区:https://git.openi.org.cn/OpenI/octopus/issues

下图展示了系统总体架构:1、统一入口:分为章鱼计算平台和章鱼管理后台,计算平台面向使用平台来运行训练任务的用户;管理后台提供给管理员对集群资源和系统进行管理;2、业务服务:包括数据管理、算法管理、模型部署、模型开发、模型训练、异构资源管理、镜像管理、用户管理、权限管理等多个功能模块;3、资源调度:包括容器编排引擎、容器引擎、调度器、调度器插件、作业控制器、数据多级缓存、异构设备插件、异构算力拓扑感知、异构算力虚拟化、分布式计算任务等功能模块;4、硬件设施,包括CPU、GPU、NPU、网络和存储等硬件资源;5、公共组件,包括日志收集、监控系统、缓存数据库、镜像仓库、时序数据库、对象存储等。