OpenAI apresenta FrontierScience, um novo padrão de referência para avaliar o raciocínio de nível especialista em IA na física, química e biologia, com o objetivo de acelerar a investigação científica.
A OpenAI lançou o FrontierScience, um padrão de referência inovador concebido para avaliar a capacidade da inteligência artificial (IA) de realizar raciocínios científicos de nível especialista em várias áreas, como física, química e biologia. Esta iniciativa visa aumentar o ritmo da investigação científica, conforme relatado pela OpenAI.
Acelerar a Investigação Científica
O desenvolvimento do FrontierScience surge na sequência de avanços significativos nos modelos de IA, como o GPT-5, que demonstraram potencial para acelerar processos de investigação que normalmente levam dias ou semanas, reduzindo-os a horas. Os recentes experimentos da OpenAI, documentados num artigo de novembro de 2025, destacam a capacidade do GPT-5 de acelerar significativamente os esforços de investigação.
Os esforços da OpenAI para aprimorar os modelos de IA para tarefas científicas complexas refletem um compromisso mais amplo de aproveitar a IA para benefício humano. Ao melhorar o desempenho dos modelos em tarefas matemáticas e científicas desafiantes, a OpenAI pretende fornecer aos investigadores ferramentas para maximizar o potencial da IA na exploração científica.
Apresentando o FrontierScience
O FrontierScience serve como um novo padrão para avaliar capacidades científicas de nível especialista. Ele compreende dois componentes principais: Olimpíada, que avalia o raciocínio científico semelhante a competições internacionais, e Pesquisa, que avalia capacidades de investigação no mundo real. O padrão inclui centenas de perguntas elaboradas e revisadas por especialistas em física, química e biologia, com foco na originalidade, dificuldade e relevância científica.
Nas avaliações iniciais, o GPT-5.2 obteve as melhores pontuações nas categorias (77%) Olimpíada e (25%) Pesquisa, superando outros modelos avançados. Este progresso destaca a crescente proficiência da IA em enfrentar desafios de nível especialista, embora ainda haja espaço para melhorias, especialmente em tarefas abertas e orientadas à pesquisa.
Construção do FrontierScience
O FrontierScience consiste em mais de 700 perguntas baseadas em texto, com contribuições de medalhistas de Olimpíadas e investigadores de doutoramento. A seção Olimpíada apresenta 100 perguntas criadas por vencedores de competições internacionais, enquanto a seção Pesquisa inclui 60 tarefas únicas que simulam cenários de investigação do mundo real. Estas tarefas visam reproduzir o raciocínio complexo e em múltiplas etapas necessário na pesquisa científica avançada.
Para garantir uma avaliação rigorosa, cada tarefa é elaborada e revisada por especialistas, e o design do padrão incorpora contribuições dos modelos internos da OpenAI para manter um elevado padrão de dificuldade.
Avaliação do Desempenho da IA
O FrontierScience utiliza uma combinação de pontuação de respostas curtas e avaliações baseadas em rubricas para avaliar as respostas da IA. Esta abordagem permite uma análise detalhada do desempenho do modelo, focando não apenas nas respostas finais, mas também no processo de raciocínio. Os modelos de IA são avaliados por um avaliador baseado em modelo, garantindo escalabilidade e consistência nas avaliações.
Direções Futuras
Apesar dos avanços, o FrontierScience reconhece suas limitações em capturar totalmente as complexidades da investigação científica do mundo real. A OpenAI planeja continuar a evolução do padrão, expandindo-o para mais áreas e integrando aplicações do mundo real para avaliar melhor o potencial da IA na descoberta científica.
Por fim, o sucesso da IA na investigação científica será medido pela sua capacidade de facilitar novas descobertas científicas, tornando o FrontierScience uma ferramenta essencial para acompanhar o progresso da IA nesta área.
Fonte da imagem: Shutterstock
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
OpenAI Lança FrontierScience para Avaliar o Raciocínio Científico da IA
Jessie A Ellis
20 de Dezembro de 2025 04:04
OpenAI apresenta FrontierScience, um novo padrão de referência para avaliar o raciocínio de nível especialista em IA na física, química e biologia, com o objetivo de acelerar a investigação científica.
A OpenAI lançou o FrontierScience, um padrão de referência inovador concebido para avaliar a capacidade da inteligência artificial (IA) de realizar raciocínios científicos de nível especialista em várias áreas, como física, química e biologia. Esta iniciativa visa aumentar o ritmo da investigação científica, conforme relatado pela OpenAI.
Acelerar a Investigação Científica
O desenvolvimento do FrontierScience surge na sequência de avanços significativos nos modelos de IA, como o GPT-5, que demonstraram potencial para acelerar processos de investigação que normalmente levam dias ou semanas, reduzindo-os a horas. Os recentes experimentos da OpenAI, documentados num artigo de novembro de 2025, destacam a capacidade do GPT-5 de acelerar significativamente os esforços de investigação.
Os esforços da OpenAI para aprimorar os modelos de IA para tarefas científicas complexas refletem um compromisso mais amplo de aproveitar a IA para benefício humano. Ao melhorar o desempenho dos modelos em tarefas matemáticas e científicas desafiantes, a OpenAI pretende fornecer aos investigadores ferramentas para maximizar o potencial da IA na exploração científica.
Apresentando o FrontierScience
O FrontierScience serve como um novo padrão para avaliar capacidades científicas de nível especialista. Ele compreende dois componentes principais: Olimpíada, que avalia o raciocínio científico semelhante a competições internacionais, e Pesquisa, que avalia capacidades de investigação no mundo real. O padrão inclui centenas de perguntas elaboradas e revisadas por especialistas em física, química e biologia, com foco na originalidade, dificuldade e relevância científica.
Nas avaliações iniciais, o GPT-5.2 obteve as melhores pontuações nas categorias (77%) Olimpíada e (25%) Pesquisa, superando outros modelos avançados. Este progresso destaca a crescente proficiência da IA em enfrentar desafios de nível especialista, embora ainda haja espaço para melhorias, especialmente em tarefas abertas e orientadas à pesquisa.
Construção do FrontierScience
O FrontierScience consiste em mais de 700 perguntas baseadas em texto, com contribuições de medalhistas de Olimpíadas e investigadores de doutoramento. A seção Olimpíada apresenta 100 perguntas criadas por vencedores de competições internacionais, enquanto a seção Pesquisa inclui 60 tarefas únicas que simulam cenários de investigação do mundo real. Estas tarefas visam reproduzir o raciocínio complexo e em múltiplas etapas necessário na pesquisa científica avançada.
Para garantir uma avaliação rigorosa, cada tarefa é elaborada e revisada por especialistas, e o design do padrão incorpora contribuições dos modelos internos da OpenAI para manter um elevado padrão de dificuldade.
Avaliação do Desempenho da IA
O FrontierScience utiliza uma combinação de pontuação de respostas curtas e avaliações baseadas em rubricas para avaliar as respostas da IA. Esta abordagem permite uma análise detalhada do desempenho do modelo, focando não apenas nas respostas finais, mas também no processo de raciocínio. Os modelos de IA são avaliados por um avaliador baseado em modelo, garantindo escalabilidade e consistência nas avaliações.
Direções Futuras
Apesar dos avanços, o FrontierScience reconhece suas limitações em capturar totalmente as complexidades da investigação científica do mundo real. A OpenAI planeja continuar a evolução do padrão, expandindo-o para mais áreas e integrando aplicações do mundo real para avaliar melhor o potencial da IA na descoberta científica.
Por fim, o sucesso da IA na investigação científica será medido pela sua capacidade de facilitar novas descobertas científicas, tornando o FrontierScience uma ferramenta essencial para acompanhar o progresso da IA nesta área.
Fonte da imagem: Shutterstock