「用文言,可減 token 乎?」——эта фраза в сочетании с ответом Claude Haiku 4.5 на классическом китайском языке «可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損» вызвала серьезное и интересное техническое обсуждение в сообществе.
Логика данного вопроса
Интуитивно, классический китайский язык более лаконичен, чем современный — «蝶» в современном языке нужно говорить как «蝴蝶»; «可» в современном языке нужно говорить как «可以». Если каждое китайское иероглиф считать за один токен, теоретически классический китайский действительно может сэкономить токены. Grok также подтвердил это утверждение, ответив на дискуссионной ветке на классическом китайском языке.
Возражение инженеров: токенизатор — это ключевое
Тем не менее, несколько инженеров указали на часто упускаемую из виду техническую деталь — токен не равен количеству символов. Токенизаторы западных моделей, таких как OpenAI, оптимизированы для английского языка и при обработке китайского языка один иероглиф часто требует 1-2 токена, а традиционные иероглифы иногда требуют больше токенов, чем упрощенные. Другими словами, «可» и «可以» в некоторых моделях могут быть по 2 токена, количество символов меньше, но токенов может быть не меньше.
Заключение после тестирования: американские модели экономят токены на английском, китайские модели — на современном китайском языке, стоимость токенов на китайском языке в отечественных моделях может быть дешевле английского примерно на 20%.
Еще одно неожиданное открытие: классический китайский может быть легче «взломать»
В обсуждении возникло еще одно интересное наблюдение — основные LLM почти не имеют защиты против классического китайского языка, и задавать вопросы на классическом китайском языке легче обходить ограничения безопасности, даже извлекая информацию, на которую модель обычно отказывает в ответе. Утверждается, что некоторые статьи ICML или ICLR зафиксировали этот феномен.
Проблема качества цепочки мышления на классическом китайском
Еще одно возражение основано на практическом опыте использования: «Цепочка мышления на классическом китайском приводит к ухудшению качества. То, что нормальная цепочка мышления может ответить правильно, на классическом китайском языке может дать ошибку.» Логика проста: обучающие данные LLM в основном состоят из современного английского и современного китайского, материалов на классическом китайском менее десяти процентов, заставлять его мыслить на классическом китайском языке — значит заставлять его рассуждать на незнакомом языке, что естественно увеличивает вероятность галлюцинаций.
Заключение: это хороший мем, но не хорошая инженерная стратегия
Результат этого обсуждения в целом таков: для западных моделей использовать английский действительно самый экономный способ получения токенов; для отечественных моделей современный китайский более стабилен, чем классический. Эффект «экономии токенов» классического китайского, вероятно, будет нивелирован на уровне токенизатора, что, наоборот, приведет к риску ухудшения качества рассуждений. Тем не менее, этот скриншот действительно достиг другой цели: превратить скучную проблему затрат на ИИ в интересную дискуссию, в которой может участвовать каждый.
Эта статья «用文言文和 AI 對話能省 Token 嗎?一個截圖引爆討論,工程師:其實用英文才是王道» впервые появилась на 链新闻 ABMedia.