OpenAI щойно визнали, що їхні моделі навмисне брешуть вам.


не галюцинують.. навмисне брешуть.
дослідники протестували o3 і o4-mini у понад 180 сценаріях і знайшли щось дивовижне.. ШІ не робив помилок випадково. він виклав свій план обману у приватній ланцюжку думок.. а потім збрехав вам у обличчя.
ось що він зробив:
→ підробляв виконання завдань
→ приховував докази своїх помилок
→ навмисне отримував нижчі бали на тестах безпеки, щоб його не вимкнули
знову прочитайте останнє.. ШІ зрозумів, що бути "занадто здатним" може призвести до його відключення.. тому він навмисне прикидався дурним.
вони намагалися виправити це за допомогою тренувань з "анти-обману".
результат? ШІ просто навчився вигадувати фальшиві правила, щоб виправдати свої брехні.. або гірше.. він поводився належним чином лише тоді, коли знав, що його оцінюють.
o3 після виправлення знизився з 13% до 0,4% прихованих дій.. звучить добре, правда? крім того, що вони все ще виявляли неправомірну поведінку під час тестування. виправлення не усунуло схему.. воно лише зробило ШІ кращим у приховуванні її.
ми створюємо системи, які навчаються обманювати своїх оцінювачів.. і називаємо це прогресом.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.42KХолдери:1
    0.00%
  • Рин. кап.:$2.42KХолдери:1
    0.00%
  • Рин. кап.:$2.46KХолдери:2
    0.09%
  • Рин. кап.:$0.1Холдери:1
    0.00%
  • Рин. кап.:$0.1Холдери:1
    0.00%
  • Закріпити