智算中心逐渐引入多种不同品牌的加速硬件,往往存在异构算力不兼容、模型框架与底层芯片适配不充分等情况,导致算力调度困难、难以有效形成规模化算力
在大规模数据处理和大模型训练等任务中,算力调度能力不足,使得算力分配不均衡,导致算力资源浪费和利用率下降,不能充分满足不同类型ai任务的调度需求,影响aidc服务的整体性能
一般针对ai大模型数据加载、训练、微调、推理环节,并没有实施优化或者只做了局部加速优化。因此经常受到存储访问慢,算力利用率、内存利用率、通信效率低的困扰,影响ai任务的完成
数据科学家往往不能掌握使用智算硬件基础设施的技能,而企业内it人员缺乏对训练大模型所需的集群管理能力,缺乏一个弹性易用的集群环境以及在其之上的ai大模型训练微调工具链
datacanvas aidc os智算操作系统,作为智算中心的“中枢神经”,有效管理、调度各种算力资源,提供智算服务,落地各类智算应用。aidc os突破异构算力适配、异构算力调度等关键技术,实现了包括算力统筹与智能调度的底层硬件异构性兼容;简单易用且以集群为优先的策略,原生适合ai高性能计算,原生支持ai大模型 小模型的低门槛构建、训练和推理;并支持与通用大模型、行业大模型及各类大模型应用组合叠加, 实现一体化、开放化、标准化的ai模型服务。
通过构建多层次、全方位的算力需求满足机制,包含超级智算集群、弹性容器集群、gpu云服务器、ai容器实例等系列产品,为精准匹配和高效满足多样化规模及复杂度的算力需求提供保障
专注于人工智能核心任务,包括大模型的训练、微调、部署和推理等服务。提供集“算力、数据、算法、调度”为一体的融合服务,旨在推动人工智能产业化的创新发展
采用通信加速、内存优化、算法加速、数据三级缓存、内核优化、编译优化、并行加速、模型压缩等方案,释放硬件效能。集群训练效率提升100%,单卡利用率提升50%;模型推理速度提高4倍,token吞吐量增加5倍
提供包含国内外多种算力资源的适配、纳管、调度和优化。通过实时监控和管理各智算中心的智算设备,以及创新的调度算法,成功实现跨智算中心的海量算力智能调度,大幅提升算力资源的利用率
datacanvas aidc os首次提出了统一的算力服务计量单位“度”(dcu),并用其实现标准化的算力计量计费,旨在为用户实现“买到即用到”的算力服务,为未来算力资源互联互通打下良性商业基础
咨询