OpenAI собственный протокол суперкомпьютерной сети MRC с открытым исходным кодом: 100 000 GPU — всего два уровня коммутаторов, восстановление после сбоев сокращено с секунд до микросекунд

币界网消息,OpenAI联合AMD、Broadcom、Intel、微软和英伟达开发的MRC(Multipath Reliable Connection)网络协议已开源,支持10万GPU仅需两层交换机,故障恢复时间从秒级降至微秒级。
该协议已内置于最新的800GB/s网卡,并通过OCP(Open Compute Project)发布,现已部署在OpenAI所有最大规模的英伟达GB200超算上,包括与Oracle合建的得克萨斯州Abilene集群和微软的Fairwater超算。
MRC的核心改变是将单次传输拆分到数百条路径上同时发送,避免了传统超算网络中因传输延迟导致GPU空转的问题。

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить