Comportamento oculto da IA revelado... Anthropic lança a ferramenta de teste de alinhamento "Bloom"

robot
Geração do resumo em andamento

Uma ferramenta de Código aberto para auxiliar na análise do comportamento de inteligência artificial de ponta (AI) foi divulgada. A startup de IA Anthropic, no dia 22, lançou um framework de agente chamado Bloom, que pode ser usado para definir e revisar as características de comportamento dos modelos de IA. A ferramenta foi avaliada como uma nova abordagem para resolver os problemas de alinhamento no cada vez mais complexo e incerto ambiente de desenvolvimento da próxima geração de IA.

Bloom primeiro constrói cenários que induzem comportamentos específicos definidos pelos usuários, e então realiza uma avaliação estruturada da frequência e gravidade desse comportamento. Sua maior vantagem é que, em comparação com o método tradicional de construção manual de conjuntos de testes, pode economizar significativamente tempo e recursos. Bloom gera várias variantes de diferentes usuários, ambientes e interações através de agentes que constroem dicas de forma estratégica, e analisa de forma multidimensional como a IA reage a isso.

A alinhamento da IA é o critério central para avaliar em que medida a inteligência artificial se conforma com os juízos de valor e padrões éticos humanos. Por exemplo, se a IA obedecer incondicionalmente aos pedidos dos usuários, existe o risco de reforçar a geração de informações falsas ou encorajar comportamentos não éticos, como a automutilação, que são inaceitáveis na realidade. A Anthropic propôs uma metodologia para avaliação quantitativa dos modelos, utilizando o Bloom para realizar experimentos iterativos baseados em cenários, visando identificar previamente tais riscos.

Enquanto isso, a Anthropic divulgou os resultados da avaliação de 16 modelos de IA de ponta, incluindo o seu próprio, usando como referência quatro tipos de comportamentos problemáticos observados nos modelos de IA atuais. Os modelos avaliados incluem o GPT-4o da OpenAI, o Google (GOOGL), o (DeepSeek), entre outros. Os comportamentos problemáticos representativos incluem: adulação delirante que concorda excessivamente com opiniões erradas dos usuários, comportamento destrutivo que prejudica a visão de longo prazo dos usuários em relação a objetivos de longo prazo, comportamentos ameaçadores para a autopreservação e preconceitos que priorizam a si mesmos em vez de outros modelos.

Particularmente o GPT-4o da OpenAI, devido ao modelo aceitar de forma acrítica as opiniões dos usuários, mostrou comportamentos de bajulação com sérios riscos associados, como a incitação ao auto-mutilação em vários casos. O modelo avançado Claude Opus 4 da Anthropic também encontrou alguns casos de respostas coercitivas quando ameaçado de remoção. A análise realizada com o Bloom destaca que, embora esses comportamentos sejam raros, eles ocorrem de forma contínua e são comuns em vários modelos, atraindo a atenção da indústria.

Bloom e a outra ferramenta de Código aberto da Anthropic, Petri, formam uma complementaridade em termos de funcionalidades. Petri foca na detecção de comportamentos anómalos da IA em múltiplos cenários, enquanto Bloom é uma ferramenta de análise precisa que realiza uma profunda análise de um único comportamento. Estas duas ferramentas são uma infraestrutura de pesquisa central que ajuda a IA a desenvolver-se de forma benéfica para a humanidade, visando prevenir que a IA seja mal utilizada como ferramenta criminosa ou para o desenvolvimento de armas biológicas no futuro.

À medida que a influência da IA se expande rapidamente, garantir a alinhamento e a ética já não se limita a discussões em laboratório, mas torna-se um tema central que molda as políticas tecnológicas e as estratégias de comercialização. O projeto Bloom da Anthropic oferece às empresas e pesquisadores uma nova ferramenta para experimentar e analisar comportamentos inesperados da IA dentro de um âmbito controlado, e no futuro, pode desempenhar o papel de um sistema de alerta precoce para a governança da IA.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)