Борясь с трудностями, Microsoft недавно открыла исходный код семейств модели Phi-Ground, предназначенных для решения проблемы того, где именно ИИ должен кликать по экрану компьютера. Версия на 4 миллиарда параметров в паре с более крупными языковыми моделями для планирования инструкций превзошла по точности кликов OpenAI Operator и Claude Computer Use в бенчмарке Showdown и заняла первое место среди всех моделей с менее чем 100 миллиардами параметров по пяти оценкам, включая ScreenSpot-Pro.

Команда обучалась на более чем 40 миллионов наборах данных и выяснила, что три распространённые техники обучения из научных работ перестали работать эффективно при масштабировании. Ключевой подход оказался простым: выводить координаты как обычные числа, например «523, 417». Ранее исследования предлагали специализированные словари позиций для координат, но они не масштабировались. Также команда обнаружила, что размещение текстовых инструкций перед изображениями повышает качество, поскольку модели могли распознавать цели, обрабатывая пиксели. Кроме того, методы обучения с подкреплением, такие как DPO, улучшали точность даже после дообучения.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Google запускает набор на вакансии с помощью экзаменов, на которых инженерам разрешают использовать инструменты ИИ

Новости индустрии ИИ

По данным The Chosun Daily, Google проводит пилотный набор экзаменов при приёме на работу, которые позволяют кандидатам на должности в США для разработки ПО использовать инструменты ИИ в отобранных позициях начального и среднего уровня. В рамках эксперимента предусмотрены задания на понимание кода: соискатели рассматривают существующий код, исправляют ошибки и улучшают производительность. Интервьюеры будут оценивать, как кандидаты формулируют запросы к ИИ, проверяют его вывод, вносят правки и от

GateNews16м назад

OpenAI прекращает API для тонкой настройки с немедленным вступлением в силу; существующие пользователи могут продолжать пользоваться им до 6 января 2027 года

Новости индустрии ИИ

Согласно официальному объявлению OpenAI, которое отслеживает Beating, компания прекращает для разработчиков свой самообслуживаемый API для fine-tuning (тонкой настройки) с немедленным вступлением в силу. Новые пользователи больше не могут создавать задачи fine-tuning, тогда как существующие активные пользователи могут пользоваться сервисом до 6 января 2027 года. Развернутые модели после fine-tuning будут привязаны к жизненному циклу своих базовых моделей и прекратят работу, когда базовая модель

GateNews52м назад

Sakana AI и Nvidia добиваются на 30% более быстрого вывода на H100, пропуская 80% недействительных вычислений

Новости индустрии ИИ

Sakana AI и Nvidia открыли исходный код TwELL — разреженного формата данных, который позволяет GPU H100 пропускать 80% недопустимых вычислений в больших языковых моделях без потери точности. Решение обеспечивает до 30% более быстрый инференс и 24% более быстрое обучение на H100, одновременно снижая пиковое потребление памяти. В тестах на модели с 1,5 миллиарда параметров подход сократил число активных нейронов до менее 2% за счёт лёгкой регуляризации во время обучения, при этом не наблюдалось ух

GateNews1ч назад

Tilde Research обнаруживает, что оптимизатор Muon убивает 25% нейронов; Aurora Alternative обеспечивает прирост эффективности работы с данными в 100 раз

Новости индустрии ИИ

По данным Tilde Research, оптимизатор Muon, который используют ведущие AI-модели, включая DeepSeek V4 и Kimi K2.5, имеет скрытый недостаток: он приводит к тому, что более 25% нейронов в слоях MLP необратимо умирают в ходе раннего обучения. Команда разработала Aurora — альтернативный оптимизатор — и открыла его исходный код. Модель с 1,1 млрд параметров, обученная всего на 100 млрд токенов, показала сопоставимую производительность с Qwen3-1,7B, обученной на 36 трлн токенов, на бенчмарках понимани

GateNews2ч назад

Nvidia вкладывает более $40 млрд в ИИ-инвестиции в начале 2026 года, включая $30 млрд на OpenAI

Новости индустрии ИИ

По данным TechCrunch, Nvidia в первые месяцы 2026 года направила более 40 миллиардов долларов на долевые инвестиции в компании, работающие в сфере ИИ, при этом 30 миллиардов долларов — крупнейшее единовременное обязательство — она вложила в OpenAI. Производитель чипов также обязался инвестировать до 3,2 миллиарда долларов в Corning, производителя стекла, и до 2,1 миллиарда долларов в оператора центров обработки данных IREN, что включает пятилетний варрант и отдельный контракт на 3,4 миллиарда до

GateNews6ч назад

NVIDIA открывает долгосрочного партнёра по ИИ Deepinfra — 107 млн долларов серии B для создания «фабрики токенов»

Новости индустрии ИИ

AI компания DeepInfra объявила о завершении раунда B на 1,07 млрд долларов США, который возглавили 500 Global и ранний инженер Google Georges Harik; также в раунде приняли участие стратегические инвесторы, включая NVIDIA (Нвидиа), Samsung Next и Supermicro. Как сообщается в официальной информации, полученные средства будут направлены на расширение мощностей глобальных дата-центров, чтобы решить текущие вычислительные затраты и узкие места по эффективности, возникающие при переходе ИИ-приложений

ChainNewsAbmedia6ч назад

комментарий

0/400

Нет комментариев