方案概述
坤前AI管理平台是一套基于GPU服务器集群的用于深度学习的资源管理平台软件,它将GPU资源、CPU资源、内存、硬盘等资源虚拟化后进行统一管理,按需分配给不同用户和群组使用。
坤前AI管理平台能够助力科研单位、高等院校、人工智能企业更快地进入深度学习研发领域,更好地聚焦算法本身,更快地推出能够解决实际问题和需求的产品。
方案特点
1. 支持可视化操作,降低了集群管理难度
2. 支持资源按需分配,有效提高集群资源利用率
3. 预置丰富的软件环境,协助用户快速搭建应用
4. 实时监控系统运行,有效保持系统的高可用状态
5. 提供完善的用户管理功能,构建安全、公平、灵活的计算环境
方案架构
平台从基本业务需求出发,将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理,结合不同深度学习框架(如:Tensorflow、Caffe), 实现快速创建机器学习应用,聚焦于算法本身,更好地管理IT设施、优化运维。
方案优势
快速部署
在10分钟内,离线状态完成单个节点的安装,并且提供节点的动态增加和删除功能,帮助运维管理员快速建立GPU集群。
五步创建应用
基于容器技术,秒级创建GPU应用,如Caffe、Tensorflow;系统级负载均衡,冗余支持;运行状态实时监控,节点故障快速迁移。
镜像定制/分发平台
很多用户会使用自己需要的平台,比如基于某个操作系统,不同机器学习框架,开放不同服务端口。我们针对不同的软件会提供不同的应用模板,方便用户选择操作系统后,再选择需要的应用(比如SSH、Tensorflow、Caffe),那之后即可生成需要的应用,并发布到平台内,可以供平台调用使用。
自我故障恢复
一旦应用发生故障,集群会通知客户异常状态,并试图重新恢复应用为可用状态。
特别是在关键的多副本的应用中, 单个节点发生故障时,集群会将应用迁移到其它节点上,不会影响到客户的正常使用。
节点规模动态扩展
节省初期投资成本,根据开发需求不断扩展节点,节点增加集群不停止,并且实现系统负载均衡。



