De acordo com a Beating, a Prime Intellect disponibilizou em open-source um agente geral, um ambiente de treino de agentes autoevolutivo que utiliza mecânicas de geração de tarefas com dois jogadores. O sistema gerou automaticamente 4.504 tarefas e mais de 8.000 ferramentas únicas, alternando entre um sintetizador e um solucionador de tarefas, categorizando os desafios em cinco níveis de dificuldade através de nove estratégias, incluindo condições de restrição, instruções ruidosas e acoplamento entre entidades.
Nos testes, o ajuste fino de um modelo com 30 mil milhões de parâmetros em mais de 4.400 trajectórias do ambiente melhorou a precisão na chamada de ferramentas de 18,9% para 52,3% no benchmark BFCL, demonstrando a capacidade da framework para gerar dados de treino semanticamente verificados sem depender de conjuntos de dados estáticos anotados manualmente.