Hàng chục triệu lỗi mỗi giờ, cuộc điều tra tiết lộ " ảo giác chính xác " của tìm kiếm AI của Google

DeepFlowTech · 2026-04-10T12:21:32+00:00

The New York Times and AI startup Oumi's tests show that Google's AI summarization feature has an accuracy rate of 91%, but due to the large volume, it generates tens of millions of incorrect answers every hour. Additionally, more than half of the correct answers lack reliable citation sources, and AI systems are susceptible to manipulation, leading to the spread of false information. Although Google questions the validity of the tests, users still need to remain vigilant about the accuracy of the information.

DeepFlowTech

2026-04-10 12:21:32

Đang tạo bản tóm tắt

Tác giả: Claude, Deep Tide TechFlow

Deep Tide giới thiệu: Theo thử nghiệm mới nhất của The New York Times hợp tác cùng công ty khởi nghiệp AI Oumi, chức năng tóm tắt AI của Google (AI Overviews) có độ chính xác khoảng 91%, nhưng với quy mô xử lý 5 nghìn tỷ tìm kiếm mỗi năm của Google, điều này đồng nghĩa mỗi giờ sẽ có hàng chục triệu câu trả lời sai. Thậm chí, ngay cả khi câu trả lời đúng, hơn một nửa các liên kết trích dẫn cũng không thể hỗ trợ kết luận đó.

Google đang truyền tải thông tin sai lệch đến người dùng với quy mô chưa từng có, trong khi phần lớn người dùng không hề hay biết.

Theo báo cáo của The New York Times, công ty khởi nghiệp AI Oumi đã được ủy quyền sử dụng bài kiểm tra tiêu chuẩn ngành SimpleQA do OpenAI phát triển để đánh giá độ chính xác của chức năng AI Overviews của Google. Thử nghiệm bao gồm 4.326 truy vấn tìm kiếm, thực hiện một vòng vào tháng 10 năm ngoái (dưới điều khiển của Gemini 2) và một vòng vào tháng 2 năm nay (sau khi nâng cấp lên Gemini 3). Kết quả cho thấy, độ chính xác của Gemini 2 khoảng 85%, còn Gemini 3 đã nâng lên 91%.

Nghe có vẻ tốt, nhưng khi đặt vào quy mô của Google thì lại là chuyện khác. Google xử lý khoảng 5 nghìn tỷ truy vấn mỗi năm, với tỷ lệ lỗi 9%, AI Overviews mỗi giờ sẽ tạo ra hơn 57 triệu câu trả lời không chính xác, gần 1 triệu câu mỗi phút.

Câu trả lời đúng, nguồn lại sai

Điều khiến người ta lo ngại hơn cả là vấn đề “mất neo” của các nguồn trích dẫn.

Dữ liệu của Oumi cho thấy, trong thời kỳ Gemini 2, có tới 37% câu trả lời đúng có vấn đề “liên kết không có căn cứ”, nghĩa là liên kết đính kèm trong tóm tắt AI không hỗ trợ thông tin được cung cấp. Sau khi nâng cấp lên Gemini 3, tỷ lệ này không giảm mà còn tăng lên 56%. Nói cách khác, mô hình ngày càng ít “nộp bài đúng” hơn khi đưa ra câu trả lời chính xác.

CEO của Oumi, Manos Koukoumidis, đã đặt câu hỏi trực tiếp: “Ngay cả khi câu trả lời đúng, làm sao bạn biết nó đúng? Làm sao để xác thực?”

Chức năng AI Overviews còn làm trầm trọng thêm vấn đề này khi trích dẫn nguồn chất lượng thấp. Oumi phát hiện ra rằng Facebook và Reddit lần lượt là nguồn trích dẫn thứ hai và thứ tư trong AI Overviews. Trong các câu trả lời không chính xác, Facebook được trích dẫn tới 7%, cao hơn so với 5% trong các câu trả lời chính xác.

Phóng viên BBC viết bài giả, “gây nhiễm độc” trong vòng 24 giờ

Một điểm yếu nghiêm trọng khác của AI Overviews là khả năng bị thao túng dễ dàng.

Một phóng viên BBC đã thử nghiệm bằng cách đăng tải một bài viết giả mạo do chính mình bịa đặt. Chỉ trong vòng chưa đầy 24 giờ, chức năng tóm tắt của Google đã trình bày thông tin sai lệch này như thể đó là sự thật.

Điều này có nghĩa là bất kỳ ai hiểu rõ cơ chế hoạt động của hệ thống đều có thể “gây nhiễm độc” kết quả tìm kiếm của AI bằng cách phát tán nội dung giả mạo và đẩy lượng truy cập của chúng lên cao. Phát ngôn viên của Google, Ned Adriance, phản hồi rằng chức năng AI tìm kiếm dựa trên các cơ chế xếp hạng và an toàn giống như việc chặn các nội dung rác, và nói rằng “hầu hết các ví dụ trong thử nghiệm đều là các truy vấn không thực tế mà người dùng thực sự không tìm kiếm”.

Google phản bác: Thử nghiệm có vấn đề

Google đã đưa ra nhiều phản đối đối với nghiên cứu của Oumi. Người phát ngôn của Google cho biết nghiên cứu này “có nhiều lỗ hổng nghiêm trọng”, lý do bao gồm: tiêu chuẩn SimpleQA chứa thông tin không chính xác; Oumi sử dụng mô hình AI của chính mình, HallOumi, để đánh giá hiệu suất của AI khác, có thể gây ra sai số bổ sung; nội dung thử nghiệm không phản ánh hành vi tìm kiếm thực tế của người dùng.

Các thử nghiệm nội bộ của Google cũng cho thấy, khi Gemini 3 hoạt động độc lập khỏi hệ thống tìm kiếm của Google, tỷ lệ xuất hiện kết quả sai lệch lên tới 28%. Tuy nhiên, Google nhấn mạnh rằng AI Overviews sử dụng hệ thống xếp hạng dựa trên thứ hạng tìm kiếm để nâng cao độ chính xác, và hiệu quả vượt trội hơn so với chính mô hình.

Tuy nhiên, như PCMag đã nhận xét, lập luận nghịch lý: nếu lý do biện hộ của bạn là “báo cáo về độ không chính xác của AI của chúng tôi cũng sử dụng AI có thể không chính xác”, thì điều này có lẽ không giúp tăng niềm tin của người dùng vào độ chính xác của sản phẩm của bạn.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích