«Яку чистоту потрібно брати для селітри?» Діалоговий ШІ давньокитайською мовою на диво легко втекнув з-під нагляду? У статті викрито пролом у безпеці LLM
Дослідження показують, що класична китайська література через свою затемнену, неоднозначну природу здатна легко обходити захисні бар’єри великих мовних моделей. Дослідницька група використала фреймворк CC-BOS для реалізації тюремного (jailbreak) атакування з імовірністю успіху майже 90%, розкривши сліпі зони навчання безпеки ШІ щодо класичної китайської мови та показавши вразливості, коли моделі обробляють давні (класичні) мови.
CryptoCity·04-03 00:40