Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
Io.net 基准测试揭示 RTX 4090 集群的性价比“最佳点”
一篇已通过同行评审并被第六届国际人工智能与区块链大会(AIBC 2025)录用的论文指出,闲置的消费级GPU(以Nvidia的RTX 4090为例),在与传统数据中心硬件配合使用时,可以显著降低大语言模型推理的运行成本。
这项题为《将闲置消费级GPU作为企业级硬件在LLM推理中的补充》的研究来自io.net,是首个在该项目去中心化云上公开发布异构GPU集群基准测试的研究。分析将消费级显卡集群与数据中心级H100加速器进行了对比,发现两者存在明显的成本-性能权衡,这可能会重塑组织设计推理集群的方式。
论文指出,由RTX 4090 GPU构建的集群能够以大约一半的成本实现H100 62%至78%的吞吐量。对于批处理工作负载或对延迟容忍的应用,单个token成本最多可降低75%。研究人员强调,当开发者能够容忍更高的尾部延迟,或将消费级硬件用于溢出与后台任务(如开发、批处理、嵌入生成和大规模评估)时,这些节省最具吸引力。
IOG基金会研究主管、该研究首席作者Aline Almeida表示:“我们的研究结果表明,企业级与消费级GPU的混合路由在性能、成本和可持续性之间提供了务实的平衡。与其做二选一,异构基础设施让组织能够根据自身的延迟与预算需求进行优化,同时减少碳排放。”
混合GPU集群
论文并未回避H100的优势:Nvidia的数据中心显卡即便在高负载下,也能维持低于55毫秒的P99首次token响应时间,这使其在实时、对延迟高度敏感的应用(如生产级聊天机器人和交互式代理)中不可或缺。相比之下,消费级GPU集群更适合可以容忍较高尾部延迟的流量;作者指出,对于许多科研和开发/测试任务,现实的P99延迟窗口为200–500毫秒。
能源与可持续性也是考量因素。虽然H100的每token能效大约高出3.1倍,研究指出,利用闲置的消费级GPU可以通过延长硬件寿命、利用可再生电力丰富的电网,从而降低计算的整体碳足迹。简而言之,战略性部署的混合集群既便宜又环保。
io.net CEO Gaurav Sharma表示:“这项同行评审分析验证了io.net的核心理念:计算的未来将是分布式、异构并且可访问的。通过同时利用数据中心级和消费级硬件,我们能够让先进AI基础设施的获取更加民主化,同时提升可持续性。”
论文的实际指导意见主要面向MLOps团队和AI开发者。作者建议,实时、低延迟路由使用企业级GPU,而开发、实验和批量任务则路由到消费级集群。他们报告称,四卡RTX 4090配置在每百万token成本方面达到最优($0.111至$0.149),同时提供了H100性能的相当比例。
除了基准测试外,该研究还强化了io.net的使命:通过将分布式GPU整合为可编程、按需的资源池来扩展计算能力。公司将其技术栈定位为全方位解决方案,结合io.cloud的可编程基础设施和io.intelligence的API工具包,服务于需要训练、代理执行和大规模推理但又无法负担全数据中心硬件投入的初创企业。
完整的基准测试和方法论已在io.net的GitHub仓库公开,供有兴趣深入数据和复现实验的人员查阅。这项研究为未来如何以可负担和可持续的方式扩展LLM部署的讨论,增添了重要且有实证基础的声音。