🚨 АНТРОПИЧЕСКИЕ НАБОРЫ УСТАНАВЛИВАЮТ НОВУЮ БАЗОВУЮ ЛИНИЮ С CLAUDE OPUS 4.7


Это измеримый шаг вперёд в эффективности агентных систем.
64,3% на SWE-бенчмарке, по сравнению с 53,4%
87,6% на проверенной агентной кодировке
77,3% на масштабируемом использовании инструментов
78,0% на задачах реального мира с компьютерами
Это также улучшает области, где модели обычно ухудшаются:
79,3% на агентском поиске
64,4% на финансовом анализе
91,5% на многоязычных вопросах и ответах
И критически важно, что долгосрочное рассуждение с контекстом держится:
Более 90% визуального рассуждения с инструментами
94,2% на тестах уровня выпускника
ВОТ ВЫВОД:
Это не о пиковых результатах.
Это о последовательности в разных областях.
Opus 4.7 не доминирует во всех категориях.
Но он стабильно работает во всех из них.
Именно это нужно производственным системам.
Граница уже не только в интеллекте.
Она в стабильности при реальных нагрузках.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить