坤前AI管理平台

方案概述

坤前AI管理平台是一套基于GPU服务器集群的用于深度学习的资源管理平台软件，它将GPU资源、CPU资源、内存、硬盘等资源虚拟化后进行统一管理，按需分配给不同用户和群组使用。

坤前AI管理平台能够助力科研单位、高等院校、人工智能企业更快地进入深度学习研发领域，更好地聚焦算法本身，更快地推出能够解决实际问题和需求的产品。

方案特点

1. 支持可视化操作，降低了集群管理难度

2. 支持资源按需分配，有效提高集群资源利用率

3. 预置丰富的软件环境，协助用户快速搭建应用

4. 实时监控系统运行，有效保持系统的高可用状态

5. 提供完善的用户管理功能，构建安全、公平、灵活的计算环境

方案架构

平台从基本业务需求出发，将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理，结合不同深度学习框架(如：Tensorflow、Caffe)，实现快速创建机器学习应用，聚焦于算法本身，更好地管理IT设施、优化运维。

方案优势

快速部署

在10分钟内，离线状态完成单个节点的安装，并且提供节点的动态增加和删除功能，帮助运维管理员快速建立GPU集群。

五步创建应用

基于容器技术，秒级创建GPU应用，如Caffe、Tensorflow；系统级负载均衡，冗余支持；运行状态实时监控，节点故障快速迁移。

镜像定制/分发平台

很多用户会使用自己需要的平台，比如基于某个操作系统，不同机器学习框架，开放不同服务端口。我们针对不同的软件会提供不同的应用模板，方便用户选择操作系统后，再选择需要的应用（比如SSH、Tensorflow、Caffe），那之后即可生成需要的应用，并发布到平台内，可以供平台调用使用。

自我故障恢复

一旦应用发生故障，集群会通知客户异常状态，并试图重新恢复应用为可用状态。

特别是在关键的多副本的应用中，单个节点发生故障时，集群会将应用迁移到其它节点上，不会影响到客户的正常使用。

节点规模动态扩展

节省初期投资成本，根据开发需求不断扩展节点，节点增加集群不停止，并且实现系统负载均衡。