日前,一年一度的科技盛会云栖大会在杭州如期举行。大会以“云启智跃,产业蝶变”为主题,设有400多个分论坛,吸引了来自全球的科技爱好者和业界专家,共同探讨人工智能发展的前景和方向,全面展现云计算与人工智能融合。凭借对前沿科技的不懈探索和实践,作业帮应邀参会,作业帮基础架构负责人董晓聪进行了题为“云原生助力业务AIGC发展”的主题分享。

OpenAI于2022年11月30日发布ChatGPT,开启了AIGC的新纪元。国内外头部科技企业纷纷探索与实践,作业帮当然也不例外,于2023年9月正式对外推出自研大模型。在此期间,除了算法老师重度参与外,基础设施也面临了许多新的挑战,亟需基础架构解决。董晓聪从作业帮云原生的发展历程出发,深入探讨了在AIGC时代背景下,如何通过云原生技术解决新出现的问题。

作为云原生的早期践行者,在CPU时代实施云原生建设的过程中,面对规模化和技术栈多元化带来的技术难题,基于整体的云原生建设,作业帮建设了一套多云多活的架构,保障业务更高的稳定性。不仅成功实现了97%以上服务的容器化改造,更是显著提升了系统的可用性和资源利用率,大幅降低了运维成本,提高了研发效率,实现了质量、成本、效率、安全等方面的全面提升。

进入AIGC时代后,基础架构层面也面临了新的挑战,如GPU算力资源的不均衡分布、高昂的推理成本以及缺乏成熟的DevSecOps流程等。针对这些问题,作业帮基础架构团队通过资源统一调度、DevSecOps流程优化、异构算力网络构建等技术方案来支撑AIGC时代的高强度技术需求。

尽管当前AIGC的基础设施建设尚处于初级阶段,但随着技术的不断进步,未来将有更多的可能性。董晓聪介绍,作业帮正在探索GPU serverless等新型算力形态的应用。同时,作业帮也在积极研究如何利用AIGC技术反哺云原生架构,以实现更高水平的自动化运维和智能化管理。