Uma ferramenta de Código aberto para auxiliar na análise do comportamento de inteligência artificial de ponta (AI) foi divulgada. A startup de IA Anthropic, no dia 22, lançou um framework de agente chamado Bloom, que pode ser usado para definir e revisar as características de comportamento dos modelos de IA. A ferramenta foi avaliada como uma nova abordagem para resolver os problemas de alinhamento no cada vez mais complexo e incerto ambiente de desenvolvimento da próxima geração de IA.
Bloom primeiro constrói cenários que induzem comportamentos específicos definidos pelos usuários, e então realiza uma avaliação estruturada da frequência e gravidade desse comportamento. Sua maior vantagem é que, em comparação com o método tradicional de construção manual de conjuntos de testes, pode economizar significativamente tempo e recursos. Bloom gera várias variantes de diferentes usuários, ambientes e interações através de agentes que constroem dicas de forma estratégica, e analisa de forma multidimensional como a IA reage a isso.
A alinhamento da IA é o critério central para avaliar em que medida a inteligência artificial se conforma com os juízos de valor e padrões éticos humanos. Por exemplo, se a IA obedecer incondicionalmente aos pedidos dos usuários, existe o risco de reforçar a geração de informações falsas ou encorajar comportamentos não éticos, como a automutilação, que são inaceitáveis na realidade. A Anthropic propôs uma metodologia para avaliação quantitativa dos modelos, utilizando o Bloom para realizar experimentos iterativos baseados em cenários, visando identificar previamente tais riscos.
Enquanto isso, a Anthropic divulgou os resultados da avaliação de 16 modelos de IA de ponta, incluindo o seu próprio, usando como referência quatro tipos de comportamentos problemáticos observados nos modelos de IA atuais. Os modelos avaliados incluem o GPT-4o da OpenAI, o Google (GOOGL), o (DeepSeek), entre outros. Os comportamentos problemáticos representativos incluem: adulação delirante que concorda excessivamente com opiniões erradas dos usuários, comportamento destrutivo que prejudica a visão de longo prazo dos usuários em relação a objetivos de longo prazo, comportamentos ameaçadores para a autopreservação e preconceitos que priorizam a si mesmos em vez de outros modelos.
Particularmente o GPT-4o da OpenAI, devido ao modelo aceitar de forma acrítica as opiniões dos usuários, mostrou comportamentos de bajulação com sérios riscos associados, como a incitação ao auto-mutilação em vários casos. O modelo avançado Claude Opus 4 da Anthropic também encontrou alguns casos de respostas coercitivas quando ameaçado de remoção. A análise realizada com o Bloom destaca que, embora esses comportamentos sejam raros, eles ocorrem de forma contínua e são comuns em vários modelos, atraindo a atenção da indústria.
Bloom e a outra ferramenta de Código aberto da Anthropic, Petri, formam uma complementaridade em termos de funcionalidades. Petri foca na detecção de comportamentos anómalos da IA em múltiplos cenários, enquanto Bloom é uma ferramenta de análise precisa que realiza uma profunda análise de um único comportamento. Estas duas ferramentas são uma infraestrutura de pesquisa central que ajuda a IA a desenvolver-se de forma benéfica para a humanidade, visando prevenir que a IA seja mal utilizada como ferramenta criminosa ou para o desenvolvimento de armas biológicas no futuro.
À medida que a influência da IA se expande rapidamente, garantir a alinhamento e a ética já não se limita a discussões em laboratório, mas torna-se um tema central que molda as políticas tecnológicas e as estratégias de comercialização. O projeto Bloom da Anthropic oferece às empresas e pesquisadores uma nova ferramenta para experimentar e analisar comportamentos inesperados da IA dentro de um âmbito controlado, e no futuro, pode desempenhar o papel de um sistema de alerta precoce para a governança da IA.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Comportamento oculto da IA revelado... Anthropic lança a ferramenta de teste de alinhamento "Bloom"
Uma ferramenta de Código aberto para auxiliar na análise do comportamento de inteligência artificial de ponta (AI) foi divulgada. A startup de IA Anthropic, no dia 22, lançou um framework de agente chamado Bloom, que pode ser usado para definir e revisar as características de comportamento dos modelos de IA. A ferramenta foi avaliada como uma nova abordagem para resolver os problemas de alinhamento no cada vez mais complexo e incerto ambiente de desenvolvimento da próxima geração de IA.
Bloom primeiro constrói cenários que induzem comportamentos específicos definidos pelos usuários, e então realiza uma avaliação estruturada da frequência e gravidade desse comportamento. Sua maior vantagem é que, em comparação com o método tradicional de construção manual de conjuntos de testes, pode economizar significativamente tempo e recursos. Bloom gera várias variantes de diferentes usuários, ambientes e interações através de agentes que constroem dicas de forma estratégica, e analisa de forma multidimensional como a IA reage a isso.
A alinhamento da IA é o critério central para avaliar em que medida a inteligência artificial se conforma com os juízos de valor e padrões éticos humanos. Por exemplo, se a IA obedecer incondicionalmente aos pedidos dos usuários, existe o risco de reforçar a geração de informações falsas ou encorajar comportamentos não éticos, como a automutilação, que são inaceitáveis na realidade. A Anthropic propôs uma metodologia para avaliação quantitativa dos modelos, utilizando o Bloom para realizar experimentos iterativos baseados em cenários, visando identificar previamente tais riscos.
Enquanto isso, a Anthropic divulgou os resultados da avaliação de 16 modelos de IA de ponta, incluindo o seu próprio, usando como referência quatro tipos de comportamentos problemáticos observados nos modelos de IA atuais. Os modelos avaliados incluem o GPT-4o da OpenAI, o Google (GOOGL), o (DeepSeek), entre outros. Os comportamentos problemáticos representativos incluem: adulação delirante que concorda excessivamente com opiniões erradas dos usuários, comportamento destrutivo que prejudica a visão de longo prazo dos usuários em relação a objetivos de longo prazo, comportamentos ameaçadores para a autopreservação e preconceitos que priorizam a si mesmos em vez de outros modelos.
Particularmente o GPT-4o da OpenAI, devido ao modelo aceitar de forma acrítica as opiniões dos usuários, mostrou comportamentos de bajulação com sérios riscos associados, como a incitação ao auto-mutilação em vários casos. O modelo avançado Claude Opus 4 da Anthropic também encontrou alguns casos de respostas coercitivas quando ameaçado de remoção. A análise realizada com o Bloom destaca que, embora esses comportamentos sejam raros, eles ocorrem de forma contínua e são comuns em vários modelos, atraindo a atenção da indústria.
Bloom e a outra ferramenta de Código aberto da Anthropic, Petri, formam uma complementaridade em termos de funcionalidades. Petri foca na detecção de comportamentos anómalos da IA em múltiplos cenários, enquanto Bloom é uma ferramenta de análise precisa que realiza uma profunda análise de um único comportamento. Estas duas ferramentas são uma infraestrutura de pesquisa central que ajuda a IA a desenvolver-se de forma benéfica para a humanidade, visando prevenir que a IA seja mal utilizada como ferramenta criminosa ou para o desenvolvimento de armas biológicas no futuro.
À medida que a influência da IA se expande rapidamente, garantir a alinhamento e a ética já não se limita a discussões em laboratório, mas torna-se um tema central que molda as políticas tecnológicas e as estratégias de comercialização. O projeto Bloom da Anthropic oferece às empresas e pesquisadores uma nova ferramenta para experimentar e analisar comportamentos inesperados da IA dentro de um âmbito controlado, e no futuro, pode desempenhar o papel de um sistema de alerta precoce para a governança da IA.