Автоматичний фреймворк оптимізації AI забезпечив перше місце у результатах Haiku 4.5: Лінь Цзюньянь зазначив, що саме це є його передбаченням повороту у «дизайні середовища»

robot
Генерація анотацій у процесі

Повідомлення від CoinExJieNet: за моніторингом 1M AI News дослідники зі Стенфорда, MIT та корейської ігрової компанії KRAFTON опублікували Meta-Harness — набір методів для автоматичної оптимізації виконання ШІ, фреймворк (harness, тобто пакувальна модель, виконувальні риштування, що керують діями Agent, які включають дизайн промптів, виклики інструментів і керування контекстом). На відміну від вручну написаних виконувальних фреймворків, Meta-Harness дає кодовому Agent зчитувати код попередніх кандидатних фреймворків, журнали виконання та бали, а потім автоматично ітеративно оптимізувати їх. У термінальному операційному бенчмарку TerminalBench-2 Meta-Harness підвищує прохідність Claude Haiku 4.5 до 37,6%, що вище за Goose (35,5%) та Claude Code (27,5%); у всіх оприлюднених виконувальних фреймворках для Haiku 4.5 він посідає перше місце. Для Claude Opus 4.6 прохідність становить 76,4%, і це друге місце. Технічний керівник «Qianwen» Lin Junyang передав допис авторів роботи та прокоментував: «“Модель + виконувальний фреймворк” уже перевершила “лише модель”; поведінка Agent суттєво залежить від дизайну та якості фреймворка. Я справді вважаю, що це правильний напрям». У довгому дописі, опублікованому Lin Junyang 27 березня (зараз його вже видалено), він наперед спрогнозував, що дизайн середовищ перетвориться з допоміжного проєкту на справжню підприємницьку категорію. Meta-Harness підтвердив це експериментальними даними: та сама модель, але з іншою виконувальною рамкою, оптимізованою ШІ, дає розрив у результатах до 10 відсоткових пунктів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити