هل يمكن التوفير في عدد الرموز عند الحوار مع الذكاء الاصطناعي باستخدام اللغة الكلاسيكية؟ صورة واحدة أثارت النقاش، المهندس: في الواقع، استخدام الإنجليزية هو الطريق الصحيح

ChainNewsAbmedia

「用文言,可減 token 乎?」—— هذه الجملة المصاحبة لصورة لرد Claude Haiku 4.5 بعبارة “可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損” أثارت نقاشًا تقنيًا جادًا ومثيرًا في المجتمع.

منطق هذه المسألة

بديهيًا، اللغة الكلاسيكية الصينية أكثر اختصارًا من اللغة الحديثة — كلمة “蝶” تعني “فراشة” في اللغة الحديثة؛ كلمة “可” تعني “يمكن”. إذا كان يُحسب كل حرف كـ token، فإن اللغة الكلاسيكية يمكن أن توفر بالفعل tokens. كما أكد Grok في سلسلة النقاش باستخدام اللغة الكلاسيكية.

رد المهندسين: tokenizer هو المفتاح

ومع ذلك، أشار العديد من المهندسين إلى تفاصيل فنية غالبًا ما يتم تجاهلها - token لا يساوي عدد الكلمات. تم تحسين tokenizer لنماذج OpenAI الغربية للغة الإنجليزية، وعند معالجة الصينية، غالبًا ما يحتاج الحرف الصيني إلى 1-2 token، وأحيانًا تحتاج الأحرف التقليدية إلى المزيد من tokens مقارنةً بالأحرف المبسطة. بعبارة أخرى، “可” و “可以” قد تكون كلاهما 2 token في بعض النماذج، قد يقل عدد الحروف، لكن عدد tokens ليس بالضرورة أقل.

استنتاج بعد التجربة: النماذج الأمريكية توفر tokens أكثر عند استخدام الإنجليزية، والنماذج الصينية توفر tokens أكثر عند استخدام الصينية الحديثة، حيث أن تكلفة tokens للمحتوى نفسه باستخدام النماذج المحلية قد تكون أرخص بنسبة حوالي 20% مقارنةً بالإنجليزية.

اكتشاف آخر غير متوقع: اللغة الكلاسيكية قد تسهل “الهروب من السجن”

ظهرت مراقبة أكثر إثارة للاهتمام خلال النقاش — النماذج اللغوية الكبيرة الرئيسية تقريبًا ليس لديها تدابير أمان ضد اللغة الكلاسيكية، مما يجعل من الأسهل طرح الأسئلة بهذه اللغة لتجاوز القيود الأمنية، وحتى الحصول على محتوى قد ترفض النماذج عادةً الإجابة عنه. يُزعم أن هناك أوراق بحثية في ICML أو ICLR سجلت هذه الظاهرة.

مشكلة جودة سلسلة التفكير باللغة الكلاسيكية

رد آخر جاء من تجربة الاستخدام الفعلية: “استخدام سلسلة التفكير باللغة الكلاسيكية قد يؤدي إلى انخفاض الجودة. ما يمكن لسلسلة التفكير الطبيعية الإجابة عنه، قد تخطئ فيه سلسلة التفكير باللغة الكلاسيكية.” السبب بسيط أيضًا: تعتمد بيانات تدريب النماذج اللغوية الكبيرة بشكل أساسي على الإنجليزية الحديثة والصينية الحديثة، وبيانات اللغة الكلاسيكية غير كافية بأقل من عشرها، مما يجعل من الصعب عليها التفكير باللغة الكلاسيكية، مما يزيد من معدل الهلوسة.

استنتاج: إنها ميم جيدة، ليست استراتيجية هندسية جيدة

كانت نتيجة هذا النقاش تقريبًا: بالنسبة للنماذج الغربية، استخدام الإنجليزية هو الطريقة الحقيقية لتوفير tokens؛ بالنسبة للنماذج المحلية، الصينية الحديثة أكثر استقرارًا من اللغة الكلاسيكية. تأثير “توفير tokens” للغة الكلاسيكية على مستوى tokenizer قد يتم تعويضه، مما قد يؤدي إلى انخفاض جودة الاستدلال. ومع ذلك، حققت هذه الصورة بالتأكيد هدفًا آخر: جعل قضية تكلفة الذكاء الاصطناعي المملة حديثًا مثيرًا يمكن للجميع المشاركة فيه.

هذه المقالة “用文言文和 AI 對話能省 Token 嗎?一個截圖引爆討論,工程師:其實用英文才是王道” ظهرت لأول مرة في “鏈新聞 ABMedia”.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات