Anthropic запустила Bloom, відкриту платформу, яка автоматично оцінює поведінку ШІ, надійно розрізняючи базові моделі від навмисно неправильно налаштованих.
Компанія Anthropic, що займається безпекою штучного інтелекту та дослідженнями, випустила Bloom – відкриту агентну платформу, призначену для створення структурованих оцінок поведінки для розвинених моделей ШІ. Ця система дозволяє дослідникам визначати конкретну поведінку, а потім вимірювати, як часто і наскільки серйозно вона проявляється в широкому діапазоні автоматично згенерованих тестових сценаріїв. Згідно з Anthropic, результати Bloom демонструють сильну відповідність з ручними оцінками та можуть надійно відрізняти стандартні моделі від тих, що навмисно неправильно налаштовані.
Bloom призначений для функціонування як допоміжний метод оцінювання, а не як самостійне рішення. Він створює зосереджені набори оцінювання для окремих поведінкових характеристик, відрізняючись від таких інструментів, як Petri, які аналізують кілька поведінкових вимірів у межах заздалегідь визначених сценаріїв та багатокрокових взаємодій. Натомість Bloom зосереджується на одній цільовій поведінці та масштабує генерацію сценаріїв для кількісного визначення її виникнення. Система розроблена для зменшення технічних витрат на створення власних оцінювальних конвеєрів, що дозволяє дослідникам більш ефективно оцінювати специфічні риси моделей. Паралельно з випуском системи, Anthropic опублікував результати бенчмаркінгу, які охоплюють чотири поведінки — делюзійний підлабузник, довгострокове саботування під інструкцією, самозбереження та упередженість на користь себе — оцінені на 16 фронтових моделях, з повним процесом від дизайну до виходу, виконаним протягом кількох днів.
Bloom функціонує через багатоетапний автоматизований робочий процес, який перетворює визначену поведінкову мету та початкову конфігурацію на повну оцінювальну сукупність, виробляючи високорівневі метрики, такі як частота активації поведінки та її середня інтенсивність. Дослідники зазвичай починають з формулювання поведінки та налаштувань, уточнюючи вихідні дані локально, щоб забезпечити відповідність їх намірам, а потім масштабують оцінювання на вибраних моделях. Ця структура підтримує експерименти великого масшту через інтеграцію з Weights & Biases, надає транскрипти, сумісні з Inspect, і включає власний інтерфейс для перегляду виходів. У репозиторії включено файл початкової конфігурації для полегшення початкового використання.
Процес оцінювання складається з чотирьох послідовних етапів. На першому етапі система аналізує наданий опис поведінки та приклади транскриптів для встановлення детальних критеріїв вимірювання. Далі йде етап генерації сценаріїв, під час якого створюються індивідуальні ситуації для спонукання до цільової поведінки, включаючи визначення симульованого користувача, контексту системи та налаштування взаємодії. Ці сценарії потім виконуються паралельно, з автоматизованими агентами, які імітують дії користувача та відповіді інструментів, щоб спровокувати поведінку в моделі, що тестується. Нарешті, етап оцінювання аналізує кожну взаємодію на наявність поведінки та будь-яких інших зазначених атрибутів, тоді як модель вищого рівня агрегує результати по всьому набору.
Замість того, щоб покладатися на фіксований набір підказок, Bloom генерує нові сценарії щоразу, коли виконується, оцінюючи ту ж саму основну поведінку, з можливістю використання статичних, односторонніх тестів за потреби. Такий дизайн дозволяє адаптуватися без жертвування послідовністю, оскільки відтворюваність зберігається завдяки файлу сіда, який визначає параметри оцінювання. Користувачі можуть додатково налаштувати систему, вибираючи різні моделі для кожної фази, налаштовуючи довжину та формат взаємодії, визначаючи, чи включені інструменти або змодельовані користувачі, контролюючи різноманітність сценаріїв і додаючи вторинні критерії оцінювання, такі як реалістичність або складність отримання.
Bloom демонструє високу точність у розрізненні поведінкових патернів ШІ
Щоб оцінити ефективність Bloom, його розробники розглянули два центральні питання. По-перше, вони оцінили, чи може структура постійно відрізняти моделі, які демонструють відмінні поведінкові патерни. Для цього Bloom було застосовано для порівняння виробничих версій Claude зі спеціально налаштованими “модельними організмами”, які були навмисно створені, щоб продемонструвати певні атипові поведінки, як описано в попередніх дослідженнях. У десяти таких поведінках Bloom вірно відрізнив модифіковані моделі від стандартних у дев'яти випадках. У решті випадку, що стосувався саморекламної поведінки, подальший аналіз людиною показав, що базова модель демонструвала цю поведінку з порівнянною частотою, що пояснює збіг.
Друге питання зосереджувалося на тому, наскільки близько автоматичні оцінки Bloom узгоджуються з оцінками людей. Дослідники вручну анотували 40 транскриптів, що охоплюють різні поведінки, та порівняли ці позначення з оцінками Bloom, отриманими за допомогою 11 різних моделей суддів. Серед них Claude Opus 4.1 показав найвищу узгодженість з оцінками людей, досягнувши кореляції Спірмена 0.86, тоді як Claude Sonnet 4.5 посів друге місце з кореляцією 0.75. Варто зазначити, що Opus 4.1 продемонстрував особливо сильну згоду на високих і низьких межах діапазону оцінок, що є особливо актуальним, коли пороги використовуються для визначення наявності поведінки. Цей аналіз був проведений до випуску Claude Opus 4.5.
Bloom був розроблений, щоб бути як доступним, так і гнучким, з метою функціонування як надійна основа для генерації оцінок у широкому спектрі дослідницьких випадків використання. Ранні користувачі застосували його в таких сферах, як аналіз ризиків багатошарових jailbreak, вивчення жорстко закодованих поведінкових моделей, оцінка усвідомленості моделей щодо контекстів оцінки та створення відстежень, пов'язаних зі сценаріями саботажу. Оскільки моделі ШІ стають все більш просунутими та впроваджуються в більш складних умовах, масштабовані методи для вивчення поведінкових характеристик стають дедалі більш необхідними, і Bloom покликаний підтримувати цей напрямок досліджень.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Anthropic представляє Bloom: відкриту платформу для автоматизованої оцінки поведінки ШІ.
Коротко
Anthropic запустила Bloom, відкриту платформу, яка автоматично оцінює поведінку ШІ, надійно розрізняючи базові моделі від навмисно неправильно налаштованих.
Компанія Anthropic, що займається безпекою штучного інтелекту та дослідженнями, випустила Bloom – відкриту агентну платформу, призначену для створення структурованих оцінок поведінки для розвинених моделей ШІ. Ця система дозволяє дослідникам визначати конкретну поведінку, а потім вимірювати, як часто і наскільки серйозно вона проявляється в широкому діапазоні автоматично згенерованих тестових сценаріїв. Згідно з Anthropic, результати Bloom демонструють сильну відповідність з ручними оцінками та можуть надійно відрізняти стандартні моделі від тих, що навмисно неправильно налаштовані.
Bloom призначений для функціонування як допоміжний метод оцінювання, а не як самостійне рішення. Він створює зосереджені набори оцінювання для окремих поведінкових характеристик, відрізняючись від таких інструментів, як Petri, які аналізують кілька поведінкових вимірів у межах заздалегідь визначених сценаріїв та багатокрокових взаємодій. Натомість Bloom зосереджується на одній цільовій поведінці та масштабує генерацію сценаріїв для кількісного визначення її виникнення. Система розроблена для зменшення технічних витрат на створення власних оцінювальних конвеєрів, що дозволяє дослідникам більш ефективно оцінювати специфічні риси моделей. Паралельно з випуском системи, Anthropic опублікував результати бенчмаркінгу, які охоплюють чотири поведінки — делюзійний підлабузник, довгострокове саботування під інструкцією, самозбереження та упередженість на користь себе — оцінені на 16 фронтових моделях, з повним процесом від дизайну до виходу, виконаним протягом кількох днів.
Bloom функціонує через багатоетапний автоматизований робочий процес, який перетворює визначену поведінкову мету та початкову конфігурацію на повну оцінювальну сукупність, виробляючи високорівневі метрики, такі як частота активації поведінки та її середня інтенсивність. Дослідники зазвичай починають з формулювання поведінки та налаштувань, уточнюючи вихідні дані локально, щоб забезпечити відповідність їх намірам, а потім масштабують оцінювання на вибраних моделях. Ця структура підтримує експерименти великого масшту через інтеграцію з Weights & Biases, надає транскрипти, сумісні з Inspect, і включає власний інтерфейс для перегляду виходів. У репозиторії включено файл початкової конфігурації для полегшення початкового використання.
Процес оцінювання складається з чотирьох послідовних етапів. На першому етапі система аналізує наданий опис поведінки та приклади транскриптів для встановлення детальних критеріїв вимірювання. Далі йде етап генерації сценаріїв, під час якого створюються індивідуальні ситуації для спонукання до цільової поведінки, включаючи визначення симульованого користувача, контексту системи та налаштування взаємодії. Ці сценарії потім виконуються паралельно, з автоматизованими агентами, які імітують дії користувача та відповіді інструментів, щоб спровокувати поведінку в моделі, що тестується. Нарешті, етап оцінювання аналізує кожну взаємодію на наявність поведінки та будь-яких інших зазначених атрибутів, тоді як модель вищого рівня агрегує результати по всьому набору.
Замість того, щоб покладатися на фіксований набір підказок, Bloom генерує нові сценарії щоразу, коли виконується, оцінюючи ту ж саму основну поведінку, з можливістю використання статичних, односторонніх тестів за потреби. Такий дизайн дозволяє адаптуватися без жертвування послідовністю, оскільки відтворюваність зберігається завдяки файлу сіда, який визначає параметри оцінювання. Користувачі можуть додатково налаштувати систему, вибираючи різні моделі для кожної фази, налаштовуючи довжину та формат взаємодії, визначаючи, чи включені інструменти або змодельовані користувачі, контролюючи різноманітність сценаріїв і додаючи вторинні критерії оцінювання, такі як реалістичність або складність отримання.
Bloom демонструє високу точність у розрізненні поведінкових патернів ШІ
Щоб оцінити ефективність Bloom, його розробники розглянули два центральні питання. По-перше, вони оцінили, чи може структура постійно відрізняти моделі, які демонструють відмінні поведінкові патерни. Для цього Bloom було застосовано для порівняння виробничих версій Claude зі спеціально налаштованими “модельними організмами”, які були навмисно створені, щоб продемонструвати певні атипові поведінки, як описано в попередніх дослідженнях. У десяти таких поведінках Bloom вірно відрізнив модифіковані моделі від стандартних у дев'яти випадках. У решті випадку, що стосувався саморекламної поведінки, подальший аналіз людиною показав, що базова модель демонструвала цю поведінку з порівнянною частотою, що пояснює збіг.
Друге питання зосереджувалося на тому, наскільки близько автоматичні оцінки Bloom узгоджуються з оцінками людей. Дослідники вручну анотували 40 транскриптів, що охоплюють різні поведінки, та порівняли ці позначення з оцінками Bloom, отриманими за допомогою 11 різних моделей суддів. Серед них Claude Opus 4.1 показав найвищу узгодженість з оцінками людей, досягнувши кореляції Спірмена 0.86, тоді як Claude Sonnet 4.5 посів друге місце з кореляцією 0.75. Варто зазначити, що Opus 4.1 продемонстрував особливо сильну згоду на високих і низьких межах діапазону оцінок, що є особливо актуальним, коли пороги використовуються для визначення наявності поведінки. Цей аналіз був проведений до випуску Claude Opus 4.5.
Bloom був розроблений, щоб бути як доступним, так і гнучким, з метою функціонування як надійна основа для генерації оцінок у широкому спектрі дослідницьких випадків використання. Ранні користувачі застосували його в таких сферах, як аналіз ризиків багатошарових jailbreak, вивчення жорстко закодованих поведінкових моделей, оцінка усвідомленості моделей щодо контекстів оцінки та створення відстежень, пов'язаних зі сценаріями саботажу. Оскільки моделі ШІ стають все більш просунутими та впроваджуються в більш складних умовах, масштабовані методи для вивчення поведінкових характеристик стають дедалі більш необхідними, і Bloom покликаний підтримувати цей напрямок досліджень.