Kết quả tìm kiếm cho "BUG"
Hôm nay
05:17

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.
Xem thêm
18:21
1

Luck.io, Casino Phi Giám sát Của Solana, Đóng Cửa; Người Dùng Được Kêu Gọi Rút Tiền Ngay Lập Tức

Tin từ Gate News, ngày 24 tháng 4 — Luck.io, một nền tảng casino phi giám sát (non-custodial) được xây dựng trên Solana, đã thông báo ngừng hoạt động vào ngày 24 tháng 4 năm 2026, kêu gọi tất cả người dùng rút số dư của họ khỏi Smart Vaults ngay lập tức. Việc rút tiền có thể được bắt đầu thông qua website luck.io hoặc thông qua Công cụ Rút tiền từ Vault tại
Xem thêm
SOL-0,79%
12:48

Anthropic Hoàn Nguyên Thay Đổi Claude Code Sau Khi Chất Lượng Suy Giảm; Tất Cả Các Sửa Chữa Đã Xong

Tin tức Cổng, ngày 24 tháng 4 — Anthropic đã thừa nhận sự sụt giảm gần đây về chất lượng của Claude Code và xác nhận rằng tất cả các vấn đề liên quan đã được khắc phục thông qua các lần hoàn nguyên (rollbacks) và sửa lỗi. Các vấn đề bắt nguồn từ ba điều chỉnh về sản phẩm và lời nhắc (prompt) được thực hiện trong giai đoạn từ đầu đến giữa tháng 4. Vào ngày 4 tháng 3, the
Xem thêm
04:29

V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5

Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm
Xem thêm
23:53

Anthropic Xác Định Ba Thay Đổi Ở Lớp Sản Phẩm Dẫn Tới Suy Giảm Chất Lượng Claude Code, Không Phải Lỗi Từ Mô Hình

Tin Cổng, ngày 23 tháng 4 — Nhóm kỹ thuật của Anthropic đã xác nhận rằng sự suy giảm chất lượng của Claude Code được người dùng báo cáo trong tháng qua bắt nguồn từ ba thay đổi độc lập ở lớp sản phẩm, không phải từ vấn đề API hay từ mô hình nền tảng. Ba vấn đề này đã được khắc phục lần lượt vào ngày 7 tháng 4, ngày 10 tháng 4 và A
Xem thêm
03:49

OpenAI Codex 团队修复 OpenClaw 身份验证漏洞,显著改善智能体行为

OpenClaw 从 Pi 切换到 Codex harness,以修复静默的身份验证回退;通过两项 PR 处理桥接与回退问题;修复后,智能体从浅层心跳轮询转为完整的工作循环,从而实现进展。 摘要:OpenClaw 的 Codex harness 优化解决了一个关键的身份验证缺陷:当使用 OpenAI 模型的 Codex 时,会导致静默回退到 Pi harness。两项拉取请求修复身份验证桥接,并防止静默回退,改变了运行时适配器。因此,智能体的行为从浅层心跳轮询演进为完整的工作循环:读取上下文、分析任务、编辑代码库并验证进展,从而提升跨心跳的连续性与可见性。
Xem thêm
13:29

OpenAI Chuẩn Bị Tính Năng Agents Cho ChatGPT, Được Mã Hóa Là Hermes

Tin tức từ Gate, ngày 21 tháng 4 — Theo Tibor Blaho, người theo dõi các cập nhật sản phẩm AI, OpenAI đang chuẩn bị một tính năng Agents mới cho ChatGPT, được mã hóa là "Hermes." Tính năng này bao gồm một công cụ xây dựng agent mới có tên "studio" cho phép người dùng tạo các agent từ mẫu, lên lịch chạy và
Xem thêm
16:21

Mạng lưới Zcash triển khai các bản vá bảo mật quan trọng khi giá ZEC giảm 5,5%

Giá Zcash đã giảm 5,47% xuống còn $325,95, bất chấp các bản cập nhật bảo mật gần đây từ Zcash Foundation. Các chỉ số on-chain chính vẫn vững mạnh, với khối lượng giao dịch được bảo vệ tăng lên và tỷ lệ băm mạng (hash rate) đạt mức kỷ lục. Giá hiện đang kiểm tra các mức hỗ trợ để có khả năng phục hồi.
Xem thêm
ZEC0,18%
05:51

KAST hợp tác với Immunefi để củng cố hạ tầng bảo mật cho DeFi

KAST.xyz đã hợp tác với Immunefi để tăng cường bảo mật cho nền tảng tài chính dựa trên stablecoin của mình, tích hợp các công cụ giám sát tiên tiến nhằm bảo vệ người dùng trong tài chính phi tập trung. Sự hợp tác này nhấn mạnh tầm quan trọng của an ninh mạng vững chắc trong việc tạo dựng niềm tin trong hệ sinh thái Web3.
Xem thêm
IMU-5,61%