栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

坤前AI管理平台

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

坤前AI管理平台

方案概述

      坤前AI管理平台是一套基于GPU服务器集群的用于深度学习的资源管理平台软件,它将GPU资源、CPU资源、内存、硬盘等资源虚拟化后进行统一管理,按需分配给不同用户和群组使用。

     坤前AI管理平台能够助力科研单位、高等院校、人工智能企业更快地进入深度学习研发领域,更好地聚焦算法本身,更快地推出能够解决实际问题和需求的产品。

方案特点

1. 支持可视化操作,降低了集群管理难度

2. 支持资源按需分配,有效提高集群资源利用率

3. 预置丰富的软件环境,协助用户快速搭建应用

4. 实时监控系统运行,有效保持系统的高可用状态

5. 提供完善的用户管理功能,构建安全、公平、灵活的计算环境

方案架构

     平台从基本业务需求出发,将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理,结合不同深度学习框架(如:Tensorflow、Caffe), 实现快速创建机器学习应用,聚焦于算法本身,更好地管理IT设施、优化运维。

 

方案优势

快速部署

在10分钟内,离线状态完成单个节点的安装,并且提供节点的动态增加和删除功能,帮助运维管理员快速建立GPU集群。

五步创建应用 

基于容器技术,秒级创建GPU应用,如Caffe、Tensorflow;系统级负载均衡,冗余支持;运行状态实时监控,节点故障快速迁移。

镜像定制/分发平台

很多用户会使用自己需要的平台,比如基于某个操作系统,不同机器学习框架,开放不同服务端口。我们针对不同的软件会提供不同的应用模板,方便用户选择操作系统后,再选择需要的应用(比如SSH、Tensorflow、Caffe),那之后即可生成需要的应用,并发布到平台内,可以供平台调用使用。

自我故障恢复

一旦应用发生故障,集群会通知客户异常状态,并试图重新恢复应用为可用状态。

特别是在关键的多副本的应用中, 单个节点发生故障时,集群会将应用迁移到其它节点上,不会影响到客户的正常使用。

节点规模动态扩展

节省初期投资成本,根据开发需求不断扩展节点,节点增加集群不停止,并且实现系统负载均衡。

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/311088.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号