星空体育(中国)官方网站

服务热线
020-88889999
网站首页 关于星空体育官网 产品中心 星空新闻动态 成功案例 行业资讯 资质荣誉 在线留言 联系星空体育官网
联系星空体育官网
电话
020-88889999
邮箱:admin@rqhuafu.com
地址:广东省广州市

产品中心

郑纬民院士携最佳论文出席 QCon:月之暗面 Kimi 大模型推理架构 Mooncake全网最权威解读XK星空app体育

发布时间:2025-04-04 04:18:22 点击量:

  星空体育app免费下载星空体育app免费下载星空体育app免费下载近日,中国工程院院士 / 清华大学教授 / 博士生导师郑纬民确认出席 QCon 北京大会发表题为《》的主题演讲,并将分享 Kimi 幕后的大模型推理架构 Mooncake。

  2025 年,人工智能加速从单模态向多模态发展,大模型在各行业广泛落地。在此进程中,人工智能大模型生命周期的各个环节对算力和存储产生了爆发式需求。数据获取时,海量小文件存储面临挑战;数据预处理开销成为大模型训练瓶颈;模型训练任务负载重、硬件出错概率高;模型微调需平衡数据规模与质量;模型推理存在算力困境。

  这些问题该如何解决?在当前大模型产品中又如何落地相应解决方案?郑纬民将在本次演讲中结合 Kimi 幕后的大模型推理架构 Mooncake 对以上问题进行深入剖析。Kimi 从初期频繁算力扩容仍宕机,到如今能平稳承载高速增长的流量,Mooncake 发挥了关键作用,且该成果已于近期荣获第 23 届 USENIX 文件与存储技术会议(FAST25)最佳论文奖()。

  Mooncake 采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache 缓存池。其核心创新在于以 KVCache 为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。

  实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake 在符合 SLOs 的情况下,将有效请求处理能力提高了 59%~498%。目前,Mooncake 已在数千个节点上运行,每天处理超过 1000 亿个 tokenXK星空app体育。在实际部署中,Mooncake 的创新架构使 Kimi 在 NVIDIA A800 和 H800 集群上分别比以前的系统多处理 115% 和 107% 的请求。

  2025 年 AI 大模型的两个特点:阐述 AI 大模型从单模态迈向多模态的发展趋势,以及在各行业落地带来的变革。

  数据获取:收集不同模态海量文件时,面临海量小文件存储难题,如元数据管理困难、现有文件系统难以满足需求等。

  数据预处理:对分布式技术提出挑战,其开销逐渐制约大模型训练,需创新数据处理方式。

  模型训练:检查点文件读写对存储系统要求高XK星空app体育,现有策略性能不佳,需优化存储策略以应对硬件错误和大规模数据存储需求。

  模型微调:精调垂域模型需要可控算力,同时要平衡数据规模与质量,以提升模型在特定领域的性能。

  模型推理:实时处理用户请求,需要稳定可靠算力,当前面临算力困境,需探索新的推理架构和优化方法。

  清华大学 “八卦炉” 智算系统解析:介绍 “八卦炉” 在国产超算上的应用,以及对多种国产芯片的支持和性能优化成果。

  Mooncake——Kimi 幕后的大模型推理架构:剖析 Mooncake 以 KVCache 为中心的架构设计、工作原理和优势XK星空app体育,以及其在提升 Kimi 性能方面的关键作用。

  三步让企业明确如何利用 AI 大模型:指导企业通过明确关键问题、评估数据质量、判断人力与 AI 的适用性,以及选择和微调模型等步骤,有效利用 AI 大模型实现转型发展。

  除了郑纬民院士的权威解读之外,月之暗面系统工程师黄维啸也将在「面向 AI 的研发基础设施」专题论坛上分享 《月之暗面稳定高效的 LLM 基础设施构建之道》,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率、避免浪费,并进一步将该思路应用于强化学习任务的训练中。

  2025 年 4 月 10 - 12 日,QCon 全球软件开发大会 将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。届时,腾讯安全副总裁、腾讯玄武实验室负责人于旸(TK)、亚马逊云科技大中华区产品技术总监王晓野、微软亚太人工智能黑带团队技术总经理曾臻(Vickie)、原网易集团副总裁 / 杭州研究院执行院长 / 现杭州久痕科技 CEO 汪源博士等重磅嘉宾也将在主论坛分享各自领域内的洞察和实践。

  本次大会还策划了 多模态大模型及应用、AI 驱动的工程生产力、面向 AI 的研发基础设施、不被 AI 取代的工程师、大模型赋能 AIOps、云成本优化、Lakehouse 架构演进、越挫越勇的大前端 等专题,届时将有来自不同行业、不同领域、不同企业的 100+ 资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。返回搜狐,查看更多

网站地图