Bước đột phá của Deepseek: khi công nghệ thay đổi quy tắc chơi (1 tháng 12)

Phát hành Deepseek v3.2 đã trở thành chủ đề nóng ngày hôm nay, và không phải không có lý do. Công ty đã trình diễn kết quả cạnh tranh trực tiếp với các mô hình hàng đầu mới nhất của ngành, bao gồm gemini3.0. Điều này chắc chắn đưa Deepseek vào danh mục open-source SOTA, với tất cả các chỉ số đo lường xác nhận trạng thái này.

Thực sự dựa vào điều gì cho bước đột phá này?

Về mặt kỹ thuật, đổi mới không nằm ở các kiến trúc đột phá mới. Deepseek vẫn tiếp tục áp dụng DSA và liên tục đầu tư vào giai đoạn post-training, chiếm hơn 10% tổng ngân sách tính toán. Nhưng công ty đã tìm ra cách tối đa hóa hiệu quả của phương pháp này như thế nào đó. Sử dụng toàn bộ tiềm năng của phiên bản thử nghiệm v3.2, nhóm đã đạt được kết quả trực tiếp mâu thuẫn với câu chuyện về “tường sức mạnh tính toán”.

Zibin Gou, một trong những nhà nghiên cứu chính của Deepseek, đã đưa ra giả thuyết thú vị: nếu Gemini3 chứng minh khả năng ở mặt pretraining, thì v3.2 tập trung vào mở rộng huấn luyện bổ sung (RL) và chuỗi quyết định (CoT). Điều này không có nghĩa là giảm tiêu thụ năng lượng tính toán — ngược lại, nó đòi hỏi chi phí lớn hơn trong quá trình inference. Ý tưởng chính: mở rộng quy mô phải tiếp tục ở tất cả các cấp độ, và những dao động về giới hạn của nó chỉ là tiếng ồn.

Bối cảnh thị trường và giá trị thực tế

Tuy nhiên, có một điểm rất quan trọng. Deepseek tự thừa nhận rằng hiệu quả sử dụng token trong phiên bản này là “kém hơn” so với các lựa chọn khác. Hơn nữa, trong phiên bản đặc biệt của mô hình, số token sử dụng để đạt được cùng kết quả là cao hơn đáng kể. Điều này trực tiếp ảnh hưởng đến chi phí thực tế của việc triển khai.

Theo các nhà phân tích, nhu cầu về năng lực tính toán vẫn còn nguyên vẹn. Vấn đề thực sự không phải là lượng tính toán giảm đi, mà là chi phí của chúng vẫn còn quá cao để mở rộng thương mại quy mô lớn. Chỉ có các đột phá cách mạng trong phần cứng và kiến trúc mô hình mới có thể thay đổi căn bản phương trình này.

Điều này có ý nghĩa gì đối với các ông lớn?

Đối với các công ty như OpenAI, xây dựng lợi thế cạnh tranh dựa trên “khả năng của mô hình” như một “moat” chính, thì phát hành Deepseek này như một cảnh báo nghiêm trọng. Một lựa chọn mã nguồn mở, đã gần như tiếp cận các giải pháp đóng, làm giảm đi sự khác biệt về công nghệ độc quyền của các phát triển đóng.

1 tháng 12: cơn bão hoàn hảo trên thị trường?

Thú vị là, bản phát hành này trùng đúng với kỷ niệm 3 năm ra mắt ChatGPT. Thị trường tối nay có thể sẽ trở nên đầy biến động: một số yếu tố vĩ mô không thể dự đoán từ Nhật Bản, biến động của BTC, cùng với tin đồn về Amazon re:Invent như một chất xúc tác thay đổi tiếp theo. Các nhà phân tích đã bắt đầu dự đoán mức độ phản ứng của thị trường trước sự cạnh tranh ngày hôm nay.

Còn tiếp: v3 có bị khai thác hết?

Cuối cùng, một số nhà nghiên cứu đã đặt câu hỏi liệu phiên bản v3 đã bị khai thác hết khả năng chưa, và đã đến lúc nghĩ đến v4 chưa. Nếu Deepseek đã dành một năm chỉ để tối ưu hóa phiên bản 3, điều đó cho thấy độ sâu của công việc và tham vọng nghiêm túc của công ty. Số lần xoay vòng trên bàn cờ AI rõ ràng đang tăng lên.

BTC-1,02%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim