Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Какой отчет заставил Маска испытать недоверие?
Moonshot AI (команда Kimi) недавно выпустила взрывную технический отчет: «Attention Residuals», который прямо модернизировал остаточные соединения (Residual Connections), используемые в Transformer почти 10 лет. В результате даже Elon Musk не смог удержаться от комментария, выражая недоверие (уровень震окования "unbelievable").
Суть этого отчета в одной фразе:
"Перестаньте позволять каждому слою глупо складывать информацию со всех предыдущих слоев с равными весами, позвольте модели самостоятельно научиться использовать внимание для выбора того, какие сигналы из ранних слоев действительно полезны!"
В традиционной Transformer (структура PreNorm) выход каждого слоя:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Просто и грубо: независимо от того, полезна ли информация из 100 предыдущих слоев, она все вмешивается. По мере увеличения глубины ранние важные сигналы разбавляются бесчисленными последующими слоями (они называют это явление PreNorm dilution или representational dilution).
Команда Kimi просто заменила этот знак "+" на легковесное кросс-слойное внимание (depth-wise attention):
Новая формула примерно выглядит так (упрощенная версия):
x_l = Attention( Q=x_l^{pre}, K=сводка всех предыдущих слоев, V=соответствующее значение) + другие элементы
Более практичная реализация, которую они называют Block AttnRes: каждые несколько слоев (например, 8-16) создается сводка ключей/значений, затем внимание выбирает эти сводки вместо того, чтобы вычислять внимание на каждом слое. При этом увеличение памяти и вычислений минимально (задержка вывода <2%), но результаты очень впечатляющи.
Их экспериментальные результаты (используя собственные модели серии Kimi Linear, 48B total / 3B active):
• При одинаковом FLOPs производительность улучшается эквивалентно 1,25-кратному преимуществу в вычислительной мощности
• Значительное улучшение на продолжительных последовательностях, сложных многошаговых задачах рассуждения
• Амплитуда скрытого состояния (норма) более стабильна, в отличие от традиционных остатков, которые либо взрываются, либо затухают с глубиной
• Более равномерное распространение градиентов, глубокие слои легче тренировать
⚠️⚠️
Тогда возникает вопрос, почему Маск так острореагировал?
"Остаточные соединения лежали восемь лет, и наконец кто-то осмелился их изменить, и при этом так элегантно, с такими хорошими результатами?!"
Почему это так важно? Потому что остаточные соединения практически единственная спасательная соломинка, благодаря которой Transformer может обучаться с 100+ слоями, даже тысячами слоев, все считали это уже оптимальным и неизменяемым. В результате Kimi, используя самый знакомый механизм внимания, обратил его на решение проблем самых остатков, что практически означает взять фразу "внимание - это все, что вам нужно" на еще новый уровень.
Уже есть реализация на Rust (на основе框架 burn), различные диаграммы визуализации объяснений распространяются в X, и некоторые говорят, что это, после DeepSeek mHC, еще одно действительно инновационное архитектурное решение, которое войдет в следующее поколение открытых/закрытых больших моделей.
Если вы работаете с большими моделями, обучаете собственную LLM, этот отчет стоит того, чтобы прочитать оригинальную версию ночью + код (уже открыт на GitHub).
Отчет:
Готовьтесь к потрясению 🚀