Hàng ngàn người trên toàn cầu bán âm thanh, hình ảnh và hồ sơ cuộc gọi để nuôi dưỡng AI đổi lấy thu nhập, nhưng phải chịu rủi ro về giả mạo sâu và quyền cấp phép không thể thu hồi.
Đọc dẫn: Báo cáo điều tra của The Guardian ở Anh đã tiết lộ một ngành công nghiệp xám đang phát triển nhanh chóng: hàng ngàn người trên toàn cầu kiếm tiền từ việc bán âm thanh, khuôn mặt, hồ sơ cuộc gọi và video hàng ngày của họ để trang trải chi phí đào tạo AI. Đây không phải là một cuộc thảo luận chung chung về tranh chấp quyền riêng tư, mà là một cuộc điều tra có những nhân vật thực, số tiền thực, và hậu quả thực - một diễn viên đã bán khuôn mặt của mình, sau đó thấy “bản thân” trên Instagram đang quảng cáo cho một sản phẩm y tế không rõ nguồn gốc, với nhiều người trong phần bình luận đang đánh giá về “ngoại hình” của anh ta. Khi cơn khát dữ liệu của các công ty AI kết hợp với sự chênh lệch kinh tế toàn cầu, một giao dịch không công bằng đang diễn ra.
Toàn bộ bài viết như sau:
Vào một buổi sáng năm ngoái, Jacobus Louw sống ở Cape Town, Nam Phi, như thường lệ ra ngoài đi dạo, trên đường cho chim hải âu ăn. Nhưng lần này anh đã ghi lại một vài video - ghi lại bước chân và tầm nhìn của anh khi đi bộ trên vỉa hè. Video này giúp anh kiếm được 14 đô la, khoảng 10 lần mức lương tối thiểu của quốc gia, cũng tương đương với chi phí thực phẩm trong nửa tuần của chàng trai 27 tuổi này.
Đây là một nhiệm vụ “định vị đô thị” mà Louw hoàn thành trên Kled AI. Kled AI là một ứng dụng trả tiền cho người dùng để tải lên ảnh, video và dữ liệu khác nhằm đào tạo mô hình AI. Trong chỉ vài tuần, Louw đã kiếm được 50 đô la từ việc tải lên ảnh và video về cuộc sống hàng ngày của mình.
Cách đó hàng ngàn dặm, ở Ranchi, Ấn Độ, sinh viên 22 tuổi Sahil Tigga thường xuyên kiếm tiền từ Silencio - một ứng dụng crowdsourcing dữ liệu âm thanh cho đào tạo AI, sẽ truy cập microphone của điện thoại anh, thu thập tiếng ồn môi trường từ bên trong nhà hàng hoặc giao lộ nhộn nhịp. Anh cũng tải lên bản ghi âm giọng nói của mình. Sahil sẽ đặc biệt đến những cảnh độc đáo, chẳng hạn như sảnh khách sạn chưa được ghi lại trên bản đồ Silencio. Anh kiếm được hơn 100 đô la mỗi tháng, đủ để chi trả cho toàn bộ chi phí ăn uống.
Tại Chicago, Ramelio Hill, một học viên hàn 18 tuổi, đã bán các cuộc trò chuyện điện thoại riêng tư của mình với bạn bè và gia đình cho Neon Mobile - một nền tảng đào tạo AI đối thoại, trả 0,50 đô la mỗi phút - đã kiếm được hàng trăm đô la. Đối với Hill, việc này rất đơn giản: anh cho rằng các công ty công nghệ đã nắm giữ một lượng lớn dữ liệu cá nhân của mình, nên tốt hơn là anh cũng kiếm được một phần từ đó.
Những “công việc đào tạo AI” này - tải lên cảnh vật xung quanh, ảnh của bản thân, video và âm thanh - đang đứng ở tuyến đầu của một cơn sốt dữ liệu mới toàn cầu. Khi Silicon Valley khao khát dữ liệu con người chất lượng cao vượt quá những gì có thể thu thập từ mạng mở, một ngành công nghiệp thị trường dữ liệu đang bùng nổ đã xuất hiện để làm cầu nối lấp đầy khoảng trống này. Từ Cape Town đến Chicago, hàng ngàn người đang cấp phép cho danh tính sinh trắc học và dữ liệu riêng tư của họ cho thế hệ AI tiếp theo.
Nhưng nền kinh tế việc làm mới này đi kèm với cái giá phải trả. Với vài đô la đổi lấy điều đó, những người đào tạo này đang cung cấp nhiên liệu cho một ngành công nghiệp có thể cuối cùng khiến kỹ năng của họ trở nên lỗi thời, đồng thời đặt bản thân họ vào rủi ro trong tương lai về giả mạo sâu, đánh cắp danh tính và khai thác số liệu - trong khi họ chỉ mới bắt đầu nhận thức về điều đó.
Các mô hình ngôn ngữ AI như ChatGPT và Gemini cần một khối lượng lớn tài liệu học tập để cải thiện liên tục, nhưng chúng đang đối mặt với tình trạng thiếu dữ liệu. Các nguồn dữ liệu đào tạo phổ biến nhất - C4, RefinedWeb và Dolma - chiếm một phần tư các tập dữ liệu chất lượng cao nhất trên mạng, hiện đang hạn chế các công ty AI tạo sinh sử dụng dữ liệu của họ để đào tạo mô hình. Các nhà nghiên cứu ước tính rằng các công ty AI có thể sẽ cạn kiệt văn bản chất lượng cao mới có sẵn vào năm 2026. Mặc dù một số phòng thí nghiệm đã bắt đầu sử dụng dữ liệu tổng hợp do chính AI tạo ra để hồi phục đào tạo, nhưng quá trình lặp đi lặp lại này có thể dẫn đến việc mô hình sản xuất ra những “rác” chứa đầy lỗi, từ đó gây ra sự sụp đổ.
Nguồn: The Guardian
Các ứng dụng như Kled AI và Silencio chính là ở đây xuất hiện. Trong những thị trường dữ liệu này, hàng triệu người đang nuôi dưỡng và đào tạo AI bằng cách bán dữ liệu danh tính của mình. Ngoài Kled AI, Silencio và Neon Mobile, những người đào tạo AI còn nhiều lựa chọn: Luel AI, được hỗ trợ bởi vườn ươm nổi tiếng Y-Combinator, lấy tài liệu hội thoại đa ngôn ngữ với giá khoảng 0,15 đô la mỗi phút; ElevenLabs cho phép bạn sao chép giọng nói của mình số hóa và cung cấp cho người khác sử dụng với mức phí cơ bản 0,02 đô la mỗi phút.
Giáo sư kinh tế Bouke Klein Teeselink tại King’s College London cho biết, công việc đào tạo AI là một loại hình công việc mới nổi, sẽ phát triển mạnh mẽ.
Các công ty AI biết rằng việc trả tiền cho người dân để cấp phép dữ liệu giúp họ tránh được những tranh chấp bản quyền có thể phát sinh từ việc hoàn toàn phụ thuộc vào việc thu thập nội dung từ mạng, Teeselink nói. Nhà nghiên cứu AI Veniamin Veselovsky cho biết, những công ty này cũng cần dữ liệu chất lượng cao để mô hình hóa hành vi mới và cải tiến hệ thống. “Vào thời điểm này, dữ liệu con người là tiêu chuẩn vàng cho việc lấy mẫu từ bên ngoài phân phối mô hình,” Veselovsky bổ sung.
Những người điều khiển những cỗ máy này - đặc biệt là những người đến từ các nước đang phát triển - thường cần số tiền này và hầu như không có sự lựa chọn nào khác. Đối với nhiều công việc đào tạo AI, việc làm này là một phản ứng thực tế đối với sự chênh lệch kinh tế. Ở những quốc gia có tỷ lệ thất nghiệp cao và đồng tiền nội địa mất giá, việc kiếm tiền bằng đô la thường ổn định và có lợi hơn so với công việc địa phương. Một số người khó tìm được việc làm ở cấp độ đầu vào, buộc phải làm việc trong lĩnh vực đào tạo AI để sinh sống. Ngay cả ở những quốc gia giàu có hơn, sự gia tăng chi phí sinh hoạt cũng đã khiến việc bán bản thân trở thành một lựa chọn tài chính hợp lý.
Người đào tạo AI Louw ở Cape Town rõ ràng biết đến cái giá của quyền riêng tư. Mặc dù thu nhập không ổn định và không đủ để trang trải tất cả chi phí hàng tháng của anh, nhưng anh sẵn sàng chấp nhận các điều kiện này để kiếm tiền. Anh đã phải chịu đựng căn bệnh hệ thần kinh trong nhiều năm và không thể tìm được việc làm, nhưng số tiền kiếm được từ thị trường dữ liệu AI (bao gồm cả Kled AI) đã giúp anh tiết kiệm được 500 đô la, đăng ký tham gia một khóa học đào tạo về spa, trở thành một nhân viên massage.
“Đối với người Nam Phi, nhận được đô la có giá trị hơn những gì người khác tưởng tượng,” Louw nói.
Giáo sư địa lý mạng tại Đại học Oxford và tác giả của cuốn sách “Feeding Machines,” Mark Graham thừa nhận rằng đối với các cá nhân từ các nước đang phát triển, số tiền này có thể có ý nghĩa thực tế trong ngắn hạn, nhưng ông cảnh báo, “Về mặt cấu trúc, công việc này không ổn định, không có cơ hội thăng tiến, thực chất là một con đường bế tắc.”
Graham bổ sung rằng, thị trường dữ liệu AI phụ thuộc vào “cuộc cạnh tranh giảm lương”, cũng như “nhu cầu tạm thời về dữ liệu con người.” Một khi nhu cầu này chuyển dịch, “công nhân sẽ không có bất kỳ sự bảo đảm nào, không có kỹ năng có thể chuyển nhượng và không có mạng lưới an toàn.”
Graham nói rằng, người chiến thắng duy nhất là “các nền tảng ở Bắc Bán cầu, chúng thu được tất cả giá trị lâu dài.”
Nguồn: The Guardian
Người đào tạo AI Hill từ Chicago có tâm trạng phức tạp về việc bán các cuộc gọi điện thoại cá nhân cho Neon Mobile. Khoảng 11 giờ nội dung cuộc gọi đã giúp anh kiếm được 200 đô la, nhưng anh nói rằng ứng dụng này thường xuyên ngừng hoạt động và chậm thanh toán. “Neon luôn khiến tôi nghi ngờ, nhưng tôi vẫn tiếp tục sử dụng, chỉ để kiếm thêm chút tiền để trả hóa đơn,” Hill nói.
Bây giờ anh bắt đầu xem xét lại liệu số tiền này có thực sự dễ kiếm như vậy. Vào tháng 9 năm ngoái, Neon Mobile đã ngừng hoạt động chỉ vài tuần sau khi ra mắt, sau khi TechCrunch phát hiện một lỗ hổng bảo mật cho phép bất kỳ ai truy cập vào số điện thoại, bản ghi cuộc gọi và tin nhắn của người dùng. Hill nói rằng Neon Mobile chưa bao giờ thông báo cho anh về tình huống này, và giờ anh rất lo lắng rằng giọng nói của mình có thể bị lạm dụng trên mạng.
Jennifer King, nhà nghiên cứu về quyền riêng tư dữ liệu tại Viện Nghiên cứu Trí tuệ Nhân tạo của Đại học Stanford, cho rằng điều đáng lo ngại là thị trường dữ liệu AI không rõ ràng dữ liệu của người dùng sẽ được sử dụng như thế nào và ở đâu. Bà bổ sung rằng, trong điều kiện không hiểu biết về quyền lợi của bản thân và không thể thương thảo về vấn đề này, “người tiêu dùng đang đối mặt với nguy cơ dữ liệu của họ bị tái sử dụng theo cách mà họ không thích, không hiểu hoặc không lường trước được, và khi đó gần như không có phương tiện khắc phục nào.”
Khi các người đào tạo AI chia sẻ dữ liệu trên Neon Mobile và Kled AI, họ cấp quyền cho một giấy phép hoàn toàn (toàn cầu, độc quyền, không thể thu hồi, có thể chuyển nhượng và miễn phí bản quyền), cho phép nền tảng bán, sử dụng, công khai và lưu trữ hình ảnh của họ, thậm chí sáng tạo các tác phẩm phát sinh từ đó.
Người sáng lập Kled AI, Avi Patel, cho biết thỏa thuận dữ liệu của công ty ông sẽ chỉ sử dụng cho mục đích đào tạo và nghiên cứu AI. “Toàn bộ mô hình kinh doanh phụ thuộc vào sự tin tưởng của người dùng. Nếu những người đóng góp nghĩ rằng dữ liệu của họ có thể bị lạm dụng, nền tảng sẽ không thể hoạt động.” Ông cho biết công ty sẽ kiểm tra người mua trước khi bán tập dữ liệu, để tránh hợp tác với “các tổ chức có ý định nghi ngờ,” như ngành công nghiệp khiêu dâm, cùng với các “cơ quan chính phủ” mà họ cho rằng có thể sử dụng dữ liệu theo cách vi phạm sự tin tưởng đó.
Neon Mobile đã không phản hồi yêu cầu bình luận.
Giáo sư luật Enrico Bonadio tại Đại học St George ở London chỉ ra rằng các điều khoản của những thỏa thuận này cho phép nền tảng và khách hàng của họ “hầu như có thể làm bất cứ điều gì với tài liệu đó, có hiệu lực vĩnh viễn, mà không cần phải trả thêm tiền, và những người đóng góp cũng không có cách nào thực tế để rút lại sự đồng ý hoặc thương lượng lại.”
Những rủi ro đáng lo ngại hơn bao gồm việc dữ liệu của những người đào tạo bị sử dụng để sản xuất giả mạo sâu và mạo danh danh tính. Mặc dù thị trường dữ liệu tuyên bố sẽ tách biệt thông tin nhận diện cá nhân (như tên và vị trí) khỏi dữ liệu trước khi bán, nhưng quy luật sinh trắc học vốn đã khó có thể thực hiện việc ẩn danh có ý nghĩa, Bonadio bổ sung.
Ngay cả khi những người đào tạo AI có thể thương thảo được các điều khoản bảo vệ chi tiết hơn về cách sử dụng dữ liệu, họ vẫn có thể hối hận. Vào năm 2024, diễn viên Adam Coy từ New York đã bán hình ảnh của mình cho Captions - một phần mềm chỉnh sửa video AI, hiện đã đổi tên thành Mirage với giá 1000 đô la. Thỏa thuận của anh quy định rằng danh tính của anh sẽ không được sử dụng cho bất kỳ mục đích chính trị nào, không được sử dụng để quảng bá rượu, thuốc lá hoặc nội dung khiêu dâm, và thời gian cấp phép là một năm.
Captions đã không phản hồi yêu cầu bình luận.
Không lâu sau đó, bạn bè của Adam bắt đầu chia sẻ những video mà họ tìm thấy trực tuyến, trong đó có khuôn mặt và giọng nói của anh, với hàng triệu lượt xem. Trong một video Instagram, bản sao AI của Adam tự xưng là “bác sĩ âm đạo,” quảng bá cho các bổ sung y tế chưa được chứng minh cho phụ nữ mang thai và sau sinh.
“Giải thích điều này cho người khác khiến tôi cảm thấy xấu hổ,” Coy nói.
“Phần bình luận thật kỳ lạ, vì họ đang đánh giá ngoại hình của tôi, nhưng đó không phải là tôi,” Coy bổ sung. “Khi tôi đưa ra quyết định (bán hình ảnh), suy nghĩ của tôi là phần lớn các mô hình sẽ thu thập dữ liệu và hình ảnh trên mạng, nên tốt hơn là được trả tiền.”
Coy nói rằng sau đó anh không nhận thêm bất kỳ công việc nào liên quan đến dữ liệu AI. Anh nói rằng chỉ trong trường hợp một công ty cung cấp phần thưởng lớn, anh mới xem xét làm lại.