坤前AI管理平台
坤前AI管理平台是一套基于GPU服务器集群的用于深度学习的资源管理平台软件, 它将GPU资源、CPU资源、内存、硬盘等资源虚拟化后进行统一管理,按需分配给不同用户和群组使用。
坤前AI管理平台助力科研单位、高等院校、人工智能企业更快地进入深度学习研发领域,更好地聚焦算法本身,更快地推出能够解决实际问题和需求的产品。
支持可视化操作,降低了集群管理难度
支持资源按需分配,有效提高集群资源利用率
预置丰富的软件环境,协助用户快速搭建应用
实时监控系统运行,有效保持系统的高可用状态
提供完善的用户管理功能,构建安全、公平、灵活的计算环境
方案架构
坤前集群管理软件采用BS架构, 以GlusterFS、Kubernetes、Docker等为基础为用户提供集群部署及扩容、存储管理、文件管理、镜像管理、作业管理、用户管理和系统监控等集群管理功能, 其功能架构如下图所示:
方案优势
平台从基本业务需求出发,将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理,结合不同深度学习框架(如:Tensorflow、Caffe), 实现快速创建机器学习应用,聚焦于算法本身,更好地管理IT设施、优化运维。
快速部署
在10分钟内,离线状态完成单个节点的安装,并且提供节点的动态增加和删除功能,帮助运维管理员快速建立GPU集群。
五步创建应用
基于容器技术,秒级创建GPU应用,如Caffe、Tensorflow;系统级负载均衡,冗余支持;运行状态实时监控,节点故障快速迁移。
镜像定制/分发平台
很多用户会使用自己需要的平台,比如基于某个操作系统,不同机器学习框架,开放不同服务端口。我们针对不同的软件会提供不同的应用模板, 方便用户选择操作系统后,再选择需要的应用(比如SSH、Tensorflow、Caffe),那之后即可生成需要的应用,并发布到平台内,可以供平台调用使用。
自我故障恢复
一旦应用发生故障,集群会通知客户异常状态,并试图重新恢复应用为可用状态。特别是在关键的多副本的应用中, 单个节点发生故障时,集群会将应用迁移到其它节点上,不会影响到客户得正常使用。
节点规模动态扩展
节省初期投资成本,根据开发需求不断扩展节点,节点增加集群不停止,并且实现系统负载均衡。
坤前公众号

400-025-7877

坤前解决方案
坤前热门产品
服务支持
关于坤前
关于坤前

版权所有 ©2020-2028 南京坤前计算机科技有限公司
苏ICP备19055357号-2

苏公网安备 32010402000995号