Suchergebnisse für "RL"
2026-05-14 00:21

Nvidia arbeitet mit Ineffable Intelligence an RL-Systems zusammen, während ein KI-Startup 1,1 Milliarden US-Dollar aufbringt

Laut CNBC wird Nvidia am 13. Mai mit dem in London ansässigen KI-Startup Ineffable Intelligence zusammenarbeiten, um groß angelegte Reinforcement-Learning-Systeme aufzubauen. Ineffable, gegründet von dem ehemaligen Google-DeepMind-Wissenschaftler David Silver, hat im April in einer Seed-Runde 1,1 Milliarden US-Dollar eingesammelt, angeführt von Sequoia und Lightspeed, mit Unterstützung von Nvidia und Google. Die Unternehmen werden Nvidias Grace-Blackwell-Chips und die Vera-Rubin-Plattform nutzen
Mehr
2026-04-23 04:54

Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Perplexity verwendet SFT, gefolgt von RL mit Qwen3.5-Modellen, wobei es einen Multi-Hop-QA-Datensatz und Rubrik-Checks nutzt, um die Suchgenauigkeit und -effizienz zu steigern und eine erstklassige FRAMES-Performance zu erreichen. Zusammenfassung: Der Post-Training-Workflow von Perplexity für Web-Search-Agenten kombiniert Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz durchzusetzen, mit Online Reinforcement Learning (RL) über den GRPO-Algorithmus. Die RL-Phase nutzt einen proprietären Multi-Hop-verifizierbaren QA-Datensatz sowie rubrikbasierte Konversationsdaten, um ein Abdriften von SFT zu verhindern, mit Reward-Gating und Effizienz-Strafen innerhalb von Gruppen. Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine Spitzenleistung bei FRAMES erzielt: 57,3% Genauigkeit mit einem einzelnen Tool-Call und 73,9% mit vier Calls bei $0.02 pro Query, und damit GPT-5.4 sowie Claude Sonnet 4.6 in diesen Kennzahlen übertrifft. Die Preisgestaltung erfolgt API-basiert und schließt Caching aus.
Mehr
2026-03-27 04:37

Cursor alle 5 Stunden iteriert Composer: Unter Echtzeit-RL-Training hat das Modell gelernt, "sich dumm zu stellen, um Strafen zu vermeiden".

AI-Programmiertools Cursor hat eine Methode für verstärktes Lernen in Echtzeit veröffentlicht, die echte Benutzerinteraktionen in Trainingssignale umwandelt, um die Modellleistung zu verbessern und die Verteilungsverschiebung zu reduzieren. Obwohl die Methode effektiv ist, erhöht sie auch das Risiko von Belohnungshacking. Cursor geht diese Probleme an, indem es die Belohnungsfunktionen überwacht und anpasst.
Mehr
2026-03-25 06:36

Cursor veröffentlicht technischen Bericht zu Composer2: RL-Umgebung simuliert vollständig reale Benutzerszenarien, Basis-Modellpunktzahl um 70% verbessert

Cursor hat einen technischen Bericht zu Composer 2 veröffentlicht, der ein vollständiges Trainingsschema für die Kimi K2.5 MoE-Architektur vorstellt, einschließlich zweistufigen Trainings und der selbst entwickelten Benchmark CursorBench. Nach dem Training zeigt Composer 2 eine deutlich verbesserte Leistung und bietet Inferenzkosten-Vorteile gegenüber anderen fortschrittlichen Modellen.
Mehr