2025-12-20 11:22:37

Исследовательская статья That Sentient действительно заставила меня пересмотреть, что вообще означает «устойчивость», когда речь идет о методах отпечатков LLM.

Вот что большинство предыдущих работ упускает из виду: все они предполагают, что хост модели действует по правилам. Хорошее поведение, предсказуемые ответы, и так далее. Но так не работает в реальном мире. Как только вы вводите в уравнение враждебного хоста — того, кто активно пытается уклониться от обнаружения или подделать отпечатки — многие из этих схем идентификации просто разваливаются.

Техники выглядят надежными в контролируемых лабораторных условиях. Чистые данные, кооперативные сценарии, все настроено. Но как только переключаешься на враждебные среды? Вот тут начинаются трещины. Это напоминание о том, что теоретическая устойчивость и практическая надежность — это два очень разных понятия. Разрыв между «работает в тестах» и «выдерживает атаку» — именно там многие предположения о безопасности тихо разваливаются.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

9 Лайков

Награда
9
комментарий
Репост
Поделиться

комментарий

0/400

Нет комментариев

Популярные темыПодробнее
#Gate2025AnnualReportComing
22.89K Популярность
#JoinGrowthPointsDrawToWinGoldenBar
29.7K Популярность
#GateLaunchpadKDK
20.89K Популярность
#FedRateCutPrediction
80.48K Популярность
#ETHTrendWatch
192.26K Популярность

Горячее на Gate FunПодробнее

1
MP信托Международный Трастовый Фонд
РК:$3.6KДержатели:4
0.17%
2
MCMargin Call
РК:$3.55KДержатели:1
0.00%
3
BitpizzaBitpizza
РК:$3.6KДержатели:2
0.13%
4
GAIAGAIA
РК:$21.7KДержатели:2055
54.63%
5
GMONEYGMONEY
РК:$3.54KДержатели:1
0.00%

Закрепить

Карта сайта