在火山引擎AI云原生的支撑下,在上层的应用产品之外,企业都获得的是一个当下最适配AI推理落地的IT土壤。
这个土壤是可以看作是目前国内最新、最适配AI推理生长的IT架构体系。这其中有大规模GPU集群弹性调度管理,也更有国内最适配AI推理场景的存储计算产品,以及基于AI训练推理需求的网络加持、对特殊推理场景数据需求满足环境,进而帮助企业以更快、更稳、更具性价比的方式进行AI落地。
作者| 皮爷
出品|产业家
2025年,大模型落地走到哪了?
“现在在具体场景的落地过程中,我们的推理需求规模几乎是训练需求的 5-10 倍,伴随着AI使用程度的加深甚至都不止。”一位AI企业相关负责人告诉产业家。
一个足够真实的情况是,在“AI大模型”成为热词的近两年时间里,关于大模型的产业落地正在呈现愈发向上的趋势,其中最鲜明的表现恰是推理需求。
根据IDC报告显示,未来5年中国市场的训练、推理算力需求将分别以超50%、190%的年复合增速发展,在2028年推理算将全面超过训练算。
这也是如今市场上讨论的焦点。即伴随着如智能体等越来越多AI落地形态的出现,企业对于AI技术的落地,也就是推理需求正在显著增加。
但旺盛的需求背后,另一个问题也更在被加速摆上台面:即在中国的AI产业生态里,AI落地的土壤到底怎么样了?从细颗粒度的视角来看,这个问题不单纯是关乎数据体系和模型发展的考校,外界更多的聚焦点是AI底层基础设施,也就是AI Infra层的建设。
一个偏底层的认知是,在过去一众大型流量活动的背后,提供支撑的是一个个庞大的CPU集群,基于其上的各种被适配验证过的数据库、存储、计算中间件和不同PaaS层产品,这些底层一起保证了上层应用活动的开展。
但如今在AI时代,不论是PaaS层的一系列构成,还是底层IaaS侧的弹性处理,抑或是网络,在更复杂的数据类型、更大体量的数据规模等新环境里,都需要重新求解。
这些新解传导到业务的最前端对应着的恰是企业的在AI应用上的直接落地,比如如何高效的发布和管理应用、如何应对大规模的在线推理流量等等。
可以说,在显性的数据难题和模型难题之外,如果想要实现AI大模型的大范围产业落地,AI infra是一个必须跨过的难题。
那么,如今它到底走到哪了?在AI推理需求即将爆发,甚至也可以说已经爆发的2025年,真正适配AI大模型大规模落地的底层AI infra应该是什么样的?
一、大规模推理场景爆发前夜:
站上台前的AI infra
“我们的数据也够用,底层模型也用的是目前业内排名靠前的模型,但搭出来的AI应用就是不行。”在一个行业活动上,一位零售企业负责人告诉产业家。
更具体的细节是,这家企业有较强的IT基础,在过去多年时间里,其早早就构建了从ERP到CRM,以及数据库等全链条的数字化架构,企业有很强的数据积淀。这也使得企业负责人在AI大潮到来之前心怀激动,在他们看来,“在数据的优势下,这是一个弯道超车的机会。”
但结果却不尽如人意。从表现来看,包括推理训练成本高、AI应用反应速度慢等等问题越发明显,最终这个项目在2023年年末被暂时搁置。
实际上,这是最早一批,乃至现在很多企业尝试AI落地都在面临的现状。即在数据和模型之外,越来越多AI infra的问题开始浮现,比如GPU卡资源不足、固有的计算存储产品和前端模型的无法打通,比如数据库的不适配,再比如网络抖动导致训练效率低等等,这些因素都在成为企业落地大模型的难点。
对AI infra一个普遍的定义是,其往往指的是为AI训练、推理等操作提供支持的一整套系统,其中包括硬件(如 GPU 服务器、存储设备)、软件(如操作系统、开发框架)、网络(如高速网络连接和安全防护)和数据体系。
如果平移到固有的云计算架构,它对应的正是一系列app应用背后的覆盖基础设施、平台、软件、数据以及模型的整个IT架构,通过整个架构的运转进而完成从客户需求到具体应用产品表达的整个链条。
但这并不是一件容易的事。
“很多都是和之前CPU的模式不一样的,尤其是推理阶段。”火山引擎云基础产品负责人罗浩告诉产业家,“比如,要存储的数据类型更丰富了,从以前的文本、图片小文件为主到现在大规模的视频、大文件都需要存储,存储的数量也在指数级增长,以前CPU架构编排的对象是函数,现在GPU架构里编排的都是大模型,需要重新 优化计算、存储与网络架构来提高吞吐、降低IO的延迟。”
更准确的说法是,在AI大模型时代,伴随着业务架构从以CPU为中心转变为以GPU为中心,整个体系都需要升级,这里面不仅包括资源层的更高难度调度模式,也更包括对新的资源层和新的数据模型的处理方式,对应到产品侧则是适配AI模型的一系列计算、存储数据库产品、新的编排等中间件,以及新的网络稳定手段等等。
这些底层IT土壤的优先级甚至在数据和大模型能力之前。“严格意义上说,现在部分场景环节的数据是够用的,需要新的AI infra先一步完成AI工程落地,这样才能保证满足企业的大规模推理落地。”一位投资人告诉我们。
实际上,在过去两年时间里,AI infra的刚需性在过去两年时间里也在被不断印证。根据不完全统计,在2024 年 1 月 1 日至 7 月 31 日期间,包括智算中心方向,向量数据库方向,以及大模型的编排能力等方向的企业备受资本推崇,融资额度占比在整个大模型领域超过15%。
但热度和刚需之外,却仍有问题存在。比如在如今大模型推理需求井喷的当下,不同场景、不同领域对于AI Infra仍有不同,如今国内市面上大部分AI Infra服务商提供的仅仅是其中一个单点的加持,很难为企业提供从弹性算力服务到数据存储计算,再到模型推理、应用表达的整个完整链条服务。
答案在哪?或者说,在中国当下的AI落地浪潮里,这种覆盖全链条的AI Infra服务模型出现了吗?
二、火山引擎AI云原生,
“快走一步”
美图,在中国的应用市场上几乎可以算是骨灰级玩家。在过去的多年时间里,凭借美图秀秀的产品在市场上引领美颜相机赛道。伴随着AI时代的到来,转型成为必选之路。
但也恰如上文所说,这是一个不太容易的命题。具体到美图秀秀的应用而言则是,其不仅需要保证前端产品AI功能的用户使用体验,更要保持成本和投入的可控。
这种推理落地侧的需求对应到AI infra侧是GPU资源的弹性调度、存储产品性能、不同地域的网络稳定要求,以及最核心的异构GPU卡调度训练效率等等。
火山引擎成为了美图选择的底层助力者。在一系列从算力资源到存储网络等的加持下,美图构建了一个有弹性、成本可控、健康的AI infra架构,不仅可以做到在不同场景下实现不同GPU卡资源的调度,也更可以做到在流量高峰的资源迅速扩容,满足其大规模推理场景的落地。
有同样经历的还有沐瞳科技和深势科技。前者是国内最早一批游戏出海的企业,其2016年上线《Mobile Legends: Bang Bang》,目前游戏月活突破 1.1 亿,全球累计下载量超 10 亿次。在游戏内,对战双方存在一定程度的辱骂、宗教歧视等有攻击性的语言和行 为,需要根据AI进行识别、隔离。
其采取的方案是,在火山引擎通过Private Link私网访问调用豆包大模型API,同时在火山机器学习平台、云搜索、向量数据库等产品的加持下,基于豆包大模型进行调优和定制,最终实现推理侧的超低时延、低成本的落地,完成相关AI产品的落地。
深势科技也更是如此,作为如今国内AI for science的头部企业,其在业务开展过程中往往会遇到大量不同格式的数据处理问题,对非结构化数据进行高速读取,也恰是在火山引擎的加持下,其不仅实现了不同训练推理场景的资源匹配,也更基于平台的统一调度能力保证了底层资源的高利用率,保证业务的高效推进。
在刚刚举办火山引擎FORCE原动力大会上,这种面向企业大规模推理落地侧的助力,也更可以理解为AI的先进底层实践,正式被火山引擎以方案的形态放到台前,它就是“AI云原生”方案。
其中,几个亮点尤为值得一提。
比如算力层面,火山引擎推出弹性预约实例ESI和抢占式实例Spot,全面支持CPU和GPU,依托字节海量资源内外共池技术,线上可提供百万核的CPU弹性算力、万卡级的GPU弹性能力,满足不同场景客户的弹性算力需求,兼具性价比。
此外,在存储层面,为了解决传统AI架构中核心数据流动绕行CPU的问题,火山引擎正式发布弹性极速缓存EIC。
作为火山引擎的又一自研产品,其通过GPU Direct和RDMA技术完全重写了KV,可以把显存中的KV Cache缓存到远端主机或者本地主机的内存中,相比传统的缓存技术,延时降低至1/50, 在Prefix Cahce、P/D分离、多轮对话和长文本处理等场景,核心指标TTFT、TPOT最大可有数倍提升,同时还能整体降低GPU的消耗。
亮点也更在网络层面。火山引擎的第三代异构GPU和NPU实例,以及第四代CPU实例,全面支持普惠的vRDMA互联能力,在VPC网络中就可以提供最高达320G的带宽,延时相比传统VPC网络平均降低80%,显著提升训练和推理效率;同时,AI 网关的智能路由方案支持基于 GPU 利用率指标加载负载均衡,可以帮助用户以智能化调度应对大规模推理流量,网络成本最高优化70%。
更值得一提的是,在本次大会上,火山引擎veStack智算版也更升级到2.0阶段。“新一代的智算版,不仅在智算基础设施有了更丰富的支持,在稳定性建设、运维能力、训练框架和模型开发能力上都有了进一步提升,同时在生态方面提供了标准化API,针对各行各业的不同场景都提供了行业落地能力,可以能够帮助客户更好的应对智算时代的各种挑战。”罗浩告诉我们。
实际上,这些全部的产品已经在字节内部的AI体系内被全面铺开。根据火山引擎总裁谭待表示,自今年5月字节跳动发布豆包大模型,7个月内其调用量增长了超过33倍,截至12月日均tokens使用量已突破4万亿。
在其中,有很大一部分都是来自推理侧的需求。这些需求在火山引擎AI云原生的支持下,被以更高效、更具性价比、更实用、更安全的方式满足。
罗浩告诉我们,现在不同的企业需求都在火山引擎底层AI云原生方案的加持推进。“一类是企业自己想做一些尝试,比如企业自己简单搭个应用试试水;另一种是想摘取‘低垂果实’,也就是企业决定了要做AI,并且锚定了具体的方向;最后一种就是企业有很强的AI战略需求,比如自己搭建大模型,或者自身有卡资源等等。”
更准确的理解是,不论是对AI应用的初步探索,还是对某些环节基于AI的进化,抑或是企业层面的AI升级迭代,在火山引擎AI云原生的支撑下,在上层的应用产品之外,企业都获得的是一个当下最适配AI推理落地的IT土壤。
这个土壤是可以看作是目前国内最新、最适配AI推理生长的IT架构体系。这其中有大规模GPU集群弹性调度管理,也更有国内最适配AI推理场景的存储计算产品,以及基于AI训练推理需求的网络加持、对特殊推理场景数据需求满足环境,进而帮助企业以更快、更稳、更具性价比的方式进行AI落地。
三、由内向外:
一个AI推理落地的土壤新范式
实际上,打造这样一个最适宜AI推理表达的土壤并不是一件容易的事情。对罗浩和火山引擎团队而言,这也更是一条漫漫“求真”路。
如果把时间线往回看,在2021年12月的云产品发布会上,火山引擎就发布了一系列AI产品,这些产品覆盖从上层的应用到AI开发平台,以及面向不同场景的AI落地方案等等。而从场景丰富度和AI开发效率来看,即使放到现在也是诸多产业场景的先进AI实践模型。
这种技术上的先发性也一定程度上反应着火山引擎,乃至整个字节在AI上长期积累的技术和产业深度,伴随着OpenAI的出现,这些在字节内部的AI底层积累也瞬间引爆整个国内大模型市场。
于是,在2023年,一个口号在市场被广泛扩散,即“国内70%的大模型都跑在火山引擎上”。但在罗浩和火山引擎团队的观察里,在这个口号之后的不久,一个更明显的趋势开始增加:它就是上文提到的强劲推理侧需求。
与此同时,关于推理场景更明显的趋势和挑战也来自内部。即伴随着字节跳动AI动作的推进,不论是豆包大模型,还是一系列上层如豆包助手、剪映、开发平台扣子等AI应用,以及诸多在国内、海外市场不同场景布局的产品,对AI infra都提出了强劲的推理需求。
如果从全球视角来看,这几乎算是全球范围内最大规模的AI推理落地需求之一。
对罗浩和火山引擎而言,他们的首要任务恰是服务这些从字节内部生长起来的的原生AI应用,这其中不论是GPU底层资源的弹性调度,还是更高效率、更低时延的计算存储产品,以及对不同网络环境的优化等等,都是必须解决的问题。
可以说,这种即使从世界范围来看也为数不多的服务大规模AI推理场景落地的实战和“踩坑”经历,也恰构成着如今火山引擎AI云原生方案在国内AI infra服务上的独特优势――极度适配大规模推理需求的稳定IT架构,最新的以GPU为中心的资源调度和数据处理能力,以及对网络环境等核心要素的服务保障。
“整体来看,我们不单纯可以帮助企业在单张卡的利用上达到好的效果,也更能在一些细分的场景和落地细节上,帮助企业做到更好。”罗浩表示。
一个被给出的综合数据是,基于火山引擎AI云原生的方案,企业在训练场景的有效训练时长可以超过99%,推理场景可以帮助企业节省20% 的GPU资源,性能提升 100%。
“其实 相较于IDC预测的‘2028年推理算超过训练算’的这个时间点,在我们火山引擎上或许会早两年出现。”罗浩告诉我们。
能真实感受到的是,对火山引擎而言,伴随着推理需求的强劲爆发,火山引擎AI云原生对企业推理场景需求的强满足能力一定程度上会转化为企业对火山引擎的更优先选择。
其中的良性传导线路不难理解,即更好的AI infra底层支撑,可以帮助企业更快的完成大范围推理落地,进而构建更好用、更可用、更具性价比的产业AI应用,让企业可以先人一步构建自身的新质竞争力。
实际上,把视角拉大,也更可以说,AI云原生方案也恰对应的是一众产业乃至中国在AI时代进化的最新的底层新基建,即只有把底层的IT土壤构建好,才能保证AI技术的真实落地,实现产业场景中无数个推理需求的被满足,进而驱动产业从数字化向数智化升级。
在这个企业乃至产业的新AI土壤上,火山引擎已经率先迈出第一步。
原文标题 : 2025年,大模型落地的最佳AI infra土壤在哪里?