الموديلات الصينية احتلت أربع مراكز في العشرة الأوائل في اختبار SWE-rebench هذه المرة، بعد أن تعرضت للسخرية في المرة السابقة بسبب "التلاعب بالنتائج".

BlockBeatNews

وفقًا لمراقبة 1M AI News، فإن SWE-rebench هو اختبار مرجعي حي يُستخلص شهريًا من GitHub لمهام هندسة البرمجيات الجديدة (issues + PRs)، ولا يمكن للنموذج تحسين أدائه مسبقًا بناءً على الموضوع. قام المشرف إبراغيم بنشر تحديث التصنيف في 23 مارس، حيث ألغى العروض التوضيحية السابقة وقيود العمليات التي تتطلب 80 خطوة، وأضاف مهام تقييم مساعدة جديدة.

أعلى العشرة تصنيفات حديثًا:

  1. Claude Opus 4.6: 65.3%
  2. GPT-5.2 medium: 64.4%
  3. GLM-5: 62.8%
  4. GPT-5.4 medium: 62.8%
  5. Gemini 3.1 Pro Preview: 62.3%
  6. DeepSeek-V3.2: 60.9%
  7. Claude Sonnet 4.6: 60.7%
  8. Claude Sonnet 4.5: 60.0%
  9. Qwen3.5-397B-A17B: 59.9%
  10. Step-3.5-Flash: 59.6%

يحتل النموذج المفتوح المصدر من Z.ai، وهو GLM-5 (بترخيص MIT)، المركز الثالث بنسبة 62.8%، وهو أعلى نموذج مفتوح المصدر في التصنيف. تمثل النماذج الصينية أربعة من العشرة الأوائل، بالإضافة إلى GLM-5، هناك DeepSeek-V3.2 (المركز السادس)، Qwen3.5-397B-A17B (المركز التاسع)، وStep-3.5-Flash (المركز العاشر). علق لي زوكسوان، المسؤول العالمي عن Z.ai، قائلاً إن النماذج الصينية كانت جميعها خارج العشرة الأوائل في التحديث السابق لـ SWE-rebench، وتعرضت للانتقاد بـ"benchmaxing" (تحقيق درجات عالية بشكل مصطنع).

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات