Платформа Workers AI от Cloudflare тихо реализовала важное нововведение: в соответствии с официальным блогом Cloudflare, модель Kimi K2.5 из Moonshot AI стала моделью по умолчанию для стартового набора SDK Agents. Сами инженеры Cloudflare используют её для выполнения реальных задач по безопасной проверке, при этом значительно экономя средства.
Kimi K2.5 — одна из немногих моделей в открытом сообществе, соответствующих передовым стандартам, поддерживающих окно контекста в 256K, мульти-тур вызовов инструментов, визуальный ввод и структурированный вывод. Для задач агентской логики, требующих длинных рассуждений, эти показатели уже весьма практичны.
Инженеры Cloudflare прямо в среде OpenCode используют Kimi K2.5 в качестве основного инструмента для программных агентов, а также развернули публичного агента для автоматической проверки кода под названием «Bonk», интегрированного в автоматизированные пайплайны.
Еще более впечатляющим является сценарий внутренней безопасной проверки. Этот агент ежедневно обрабатывает более 7 миллиардов токенов. Если бы использовать стандартную коммерческую модель для такого объема, годовая стоимость составила бы примерно 2,4 миллиона долларов. После перехода на Kimi K2.5 расходы снизились на 77%, что позволило сэкономить почти 1,85 миллиона долларов.
Эти цифры не рекламный трюк — их прямо опубликовали инженеры Cloudflare в официальном блоге.
Просто смены модели недостаточно, поэтому Cloudflare одновременно внедрила три улучшения на уровне платформы, специально ориентированные на снижение затрат и повышение эффективности при длительных диалогах агентов:
Cloudflare не использовала готовые решения для инференса, а создала собственный движок Infire, который был доработан под их нужды. Он использует параллельную обработку данных, тензорную параллельность и экспертную параллелизацию, а также разделённую архитектуру обработки префиксов.
На данный момент Kimi K2.5 — первый крупномасштабный пример инференса моделей на платформе Workers AI, что демонстрирует амбиции Cloudflare в области инфраструктуры ИИ. Она может интегрироваться с сетевыми платформами и при этом оставаться очень недорогой.