The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
تغطية مستخدمي Crypto عبر جميع الروابط - من العمليات الأساسية في CEX إلى التحقيقات المعقدة على السلسلة، كل ذلك مبني على سيناريوهات حقيقية.
طلب السوق الفوري، فتح وإغلاق العقود، استعلام عن إدارة الأموال، استراتيجية الشبكة، تحويل الحسابات وتحليل المجموعات.
تبادل على السلسلة، مقارنة أسعار الجسور عبر السلاسل، التحكم في الانزلاق، تحسين التوجيه متعدد الخطوات وتقييم مخاطر العقود.
تحويل متعدد السلاسل، تقدير احتياطي الغاز، التحقق من تنسيق العنوان، منع التحويلات الخاطئة والتحويلات المشروطة.
سوق المال المباشر، تحليل تقني لمؤشر القوة النسبية / خطوط K، تقييم العلاقة بين الحجم والسعر، مقارنة بين عدة عملات ومقارنة التقلبات.
تحليل اقتصاديات الرموز، تحديد دورات السرد، الكشف عن عمليات الاحتيال، مقارنة المنتجات البحثية والتقارير.
تحليل صورة العنوان والأرباح والخسائر، تتبع الحيتان، إشارات Smart Money، مراقبة أمان البروتوكولات.
أوامر بسيطة، نية واضحة. مثل الاستعلام عن الرصيد، عرض أسعار السوق، وإجراء طلبات بسيطة.
يتضمن فحصًا مسبقًا أو فروع استثنائية. مثل حظر الرصيد غير الكافي، استكمال المعلمات، وتحديد مخاطر السلاسل الخاطئة.
خطوات متعددة، وقيود متعددة، تحتاج إلى استدلال وتوازن. مثل المسار الأمثل عبر السلاسل، والتحويل الكامل مع الاحتفاظ بـ Gas.
تم الحصول على درجة الوزن من خلال دمج 6 أبعاد. جميع التقييمات تستخدم آلية توافق نموذجين، مدعومة بالتحكيم البشري.
| # | وكيل | نوع | إجمالي النقاط | CEX | DEX | محفظة | تحليل السوق | بحث المشروع | تتبع على السلسلة |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | الذكاء الاصطناعي العام | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(مثبت Gate for AI) | الذكاء الاصطناعي العام | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(مثبت Gate for AI) | الذكاء الاصطناعي العام | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | كريبتو AI | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(مثبت Gate for AI) | الذكاء الاصطناعي العام | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | كريبتو AI | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | الذكاء الاصطناعي العام | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | كريبتو AI | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | الذكاء الاصطناعي العام | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
حقق Gate AI Agent المركز الأول في التقييم الشامل لهذا الاختبار. كونه وكيلًا أصليًا متكاملًا في البورصة، فقد احتل المركز الأول في ثلاثة أبعاد رئيسية: تداول CEX، تداول DEX، وتحليل السوق. شمل هذا التقييم 9 وكلاء، حيث تغطي الموضوعات 6 مشاهد رئيسية تشمل تداول CEX، تداول DEX، عمليات المحفظة، تحليل السوق، التحقيقات على السلسلة، وبحوث المشاريع، وتم تقييمها من خلال آلية توافق نموذجين مع مراجعة بشرية. أداء Gate AI Agent وفقًا لهذه المعايير هو تحقق كامل لقدراته الأصلية في Web3.
يتم تقييم كل سؤال بشكل مستقل وفقًا لـ 2-3 أبعاد تقييم، باستخدام تدقيق توافق النموذجين، حيث تكون جميع المعايير والأوزان معلنة بالكامل.
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
انقر على أي عنوان لعرض درجات كل وكيل وأبعاد التقييم.