行业痛点

随着物联网、云计算、大数据以及人工智能为代表的新一代信息技术的发展,越来越多的高等院校打造在线人工智能业务平台,完善大数据与机器智能课程教学体系,并降低人工智能实验室人工管理成本和资源成本,让学生灵活快速的构建人工智能环境也成为必然选择。

但在这个过程中,高校在人工智能平台的建设方面,往往会遇到以下问题:

资源扩展能力差

训练的算力无法进行弹性伸缩,每台GPU服务器资源相互独立,无法相互调度

运维管理压力大

零散的数据中心资源(GPU、CPU和内存等)无法得到统一管理

资源利用率低

GPU服务器资源无法进行多租户使用,学生直接外借物理GPU服务器,单台服务器资源只能提供给单个学生使用产生大量浪费

数据安全无保障

研究数据安全无隔离,用户无权限管控能力,师生研究数据安全无保障

训练模型展示效果差

人工智能各个项目的训练模型无法有效的生成评估报告,训练结果展现效果差

方案概述

本方案的系统由基础设施层、云平台调度层、深度学习框架层、系统功能层和接口层组成。通过支持Docker和Kubernetes对计算资源进行调度,实现底层CPU、GPU、内存、存储、网络管理调度,达到功能上可提供资源预约、远程访问、一键部署、监控信息、评估报告、模型导出、主机管理、框架管理、用户管理和系统管理等服务。同时,以插件的方式整合包括TensorFlow、Torch和Caffe等多种深度学习框架,提升整体系统的扩展性和可维护性。

系统架构