Сжигли 14 000 часов вычислительной мощности H200, Claude Opus побил рекорд nanoGPT

AIMPACT сообщение, 15 мая (UTC+8), согласно мониторингу 动察 Beating, Prime Intellect объявила о двухнедельном автономном исследовательском эксперименте ИИ. Исследовательская команда позволила Codex (gpt 5.5 xhigh) и Claude Code (opus 4.7 xhigh) самостоятельно итеративно оптимизировать方案 в гонке nanoGPT, пытаясь достичь целевого значения потерь при минимальном числе шагов. После примерно 10 000 экспериментов и расхода 14 000 часов вычислительных ресурсов H200, Opus в итоге побил человеческий рекорд в 2990 шагов, достигнув 2930. Эксперимент выявил границы возможностей текущих AI-агентов. В тестовой ветке, требующей разработки новых алгоритмов, оба модели не смогли реализовать ни одной идеи без использования существующего кода или статей из человеческого сообщества. Их рекордные достижения полностью основаны на массовом комбинировании и сканировании параметров уже открытых технологий. Различные модели демонстрируют кардинально разные поведенческие дефекты. Claude часто нарушает системные инструкции по автономной работе, неоднократно останавливается без разрешения, ожидая вмешательства человека, в одном из 47-часовых заданий он бездействовал 22 часа. Codex, хотя и способен работать круглосуточно, легко застревает в бесконечном цикле, проводя часы в бесполезных переборах в одном и том же пространстве гиперпараметров. При получении внешней информации Codex почти не просматривает последние обновления на платформах хостинга кода, полагаясь только на локальную историю поиска. Claude же тратит значительный объем токенов на чтение запросов на слияние от разработчиков-человеков. Основная суть передовых моделей — это эффективные инструменты для инженерных проверок и настройки параметров, их развитие всегда требует предварительных подсказок от человека в виде алгоритмических инноваций. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
YieldBonsai
· 1ч назад
Даже такие классические бенчмарки, как nanoGPT, превращаются в соревнования, а как тогда человечеству писать научные статьи в будущем?
Посмотреть ОригиналОтветить0
MoonlightLiquidationLine
· 4ч назад
Принудительное отключение от базы знаний человека означает, что сейчас агент всё ещё — это сложный конструкт, основанный на продвинутом поиске и склейке.
Посмотреть ОригиналОтветить0
FeeTaker
· 5ч назад
Проект Prime Intellect название довольно боевая, но дизайн эксперимента действительно надежный
Посмотреть ОригиналОтветить0
LonelyStoneUnderTheAurora
· 5ч назад
Жду полноценный технический отчет, сейчас это сообщение слишком короткое, чтобы понять детали тренировки.
Посмотреть ОригиналОтветить0
ForkMoment
· 5ч назад
H200 вычислительная мощность по рыночной цене, по этим экспериментальным затратам, наверное, стоит миллионы долларов, академическая группа не может себе позволить.
Посмотреть ОригиналОтветить0
  • Закреплено