Тисячі людей по всьому світу продають свою особистість для тренування штучного інтелекту, але якою є ціна?

Автор: The Guardian

Переклад: Deep潮 TechFlow

Deep潮 Вступ: Це розслідування розкриває швидко зростаючу сіру економіку: тисячі людей по всьому світу заробляють на продажі свого голосу, обличчя, записів дзвінків і щоденних відео для тренування штучного інтелекту.

Це не просто обговорення питань приватності, а реальне розслідування з реальними людьми, реальними сумами та наслідками — актор, який продав своє обличчя, пізніше побачив у Instagram, що “його” рекламують невідомі медичні продукти, а в коментарях оцінюють його “зовнішність”.

Коли жадоба даних від AI-компаній поєднується з глобальним економічним розривом, виникає нерівна угода.

Повний текст нижче:

Минулого ранку минулого року, мешканець Кейптауна, Jacobus Louw, як зазвичай, вийшов на прогулянку, годував чайок. Але цього разу він записав кілька відео — як він іде по тротуару та бачить навколо. Це відео принесло йому 14 доларів, що у 10 разів більше мінімальної зарплати в країні, і приблизно половину його тижневих витрат на їжу.

Це була завдання “міський навігатор” на платформі Kled AI. Kled AI — додаток, що платить користувачам за завантаження фотографій, відео та інших даних для тренування AI-моделей. За кілька тижнів Louw заробив 50 доларів, завантажуючи щоденні фото та відео.

За кілька тисяч миль відтоді, у Ланчі, Індія, 22-річний студент Sahil Tigga регулярно заробляє на Silencio — додатку, що краде аудіодані для тренування AI, отримуючи доступ до мікрофона його телефону для запису шумів у ресторанах або на переповнених перехрестях. Він також завантажує свої голосові записи. Sahil спеціально йде у унікальні сцени, наприклад, у готельні холі, які ще не зафіксовані на карті Silencio. Це приносить йому понад 100 доларів на місяць, достатньо для покриття всіх витрат на харчування.

У Чикаго 18-річний учень зварювальника Ramelio Hill продає приватні повідомлення з телефону друзям і родичам Neon Mobile — платформі для тренування діалогового AI, яка платить 0,50 долара за хвилину — і заробляє кілька сотень доларів. Для Hill це просто: він вважає, що технологічні компанії вже мають багато його приватних даних, тож чому б і йому не отримати свою частку.

Ці “фрілансери для тренування AI” — завантажують сцени навколишнього середовища, свої фото, відео та аудіо — стоять на передовій глобальної нової золотої лихоманки даних. Зі зростанням попиту Кремнієвої долини на високоякісні людські дані, що виходять за межі відкритого інтернету, з’являється швидкозростаючий ринок даних, що заповнює цю прогалину. Від Кейптауна до Чикаго тисячі людей передають свої біометричні дані та приватну інформацію у мікро-авторизацію для наступного покоління AI.

Але цей новий фріланс-економіка має свою ціну. За кілька доларів ці тренувальники підтримують галузь, яка може зрештою зробити їх навички застарілими, а також ставлять себе під ризик глибоких підробок, крадіжки особистих даних і цифрового експлуатації — і вони лише починають це усвідомлювати.

Щоб тримати AI у роботі

Моделі мов AI, такі як ChatGPT і Gemini, потребують величезних обсягів навчальних матеріалів для постійного вдосконалення, але вони стикаються з дефіцитом даних. Найпопулярніші джерела навчальних даних — C4, RefinedWeb і Dolma — складають чверть найкращих високоякісних наборів даних у мережі, і тепер обмежують використання їхніх даних для тренування генеративного AI. Дослідники оцінюють, що до 2026 року компанії AI швидко вичерпають новий високоякісний текст. Хоча деякі лабораторії вже почали використовувати синтетичні дані, згенеровані AI, для зворотного навчання, цей рекурсивний процес може призвести до виробництва моделей, наповнених помилками та “сміттям”, що може спричинити їх крах.

У цій ситуації з’являються платформи, як Kled AI і Silencio. У цих ринках даних мільйони людей продають свої біометричні дані для годування та тренування AI. Окрім Kled AI, Silencio і Neon Mobile, існує багато інших: Luel AI, підтримуваний відомим інкубатором Y-Combinator, пропонує багатомовні діалогові дані за ціною близько 0,15 долара за хвилину; ElevenLabs дозволяє цифрово клонувати голос і надає його для використання за базовою ставкою 0,02 долара за хвилину.

Професор економіки Лондонського університету Короля, Bouke Klein Teeselink, каже, що фріланс для тренування AI — це новий тип роботи, який швидко зростатиме.

AI-компанії знають, що платити людям за ліцензування даних допомагає уникнути потенційних правових конфліктів через автоматичне сканування інтернету, каже Teeselink. Дослідник AI Veniamin Veselovsky додає, що компанії також потребують високоякісних даних для моделювання нових і покращених поведінкових сценаріїв. “На даний момент людські дані — це золота стандарт для вибірки з позамодельних розподілів,” — додає Veselovsky.

Люди, які керують цими машинами, особливо в країнах, що розвиваються, часто потребують цих грошей і майже не мають іншого вибору. Для багатьох фрілансерів тренування AI — це реалістична відповідь на економічний розрив. У країнах з високим рівнем безробіття і девальвацією валюти заробіток у доларах часто стабільніший і вигідніший за місцеву роботу. Деякі не можуть знайти початкову роботу і змушені займатися AI-тренуваннями заради засобів до існування. Навіть у більш заможних країнах зростання вартості життя робить продаж власних даних логічним фінансовим рішенням.

Louw з Кейптауна чітко усвідомлює ціну приватності. Хоча його доходи нестабільні і не покривають усі місячні витрати, він готовий це прийняти, щоб заробити. Він багато років страждав від нервових захворювань і не міг знайти роботу, але з грошей, зароблених на AI-даних (включно з Kled AI), зібрав 500 доларів і записався на курси масажу.

“Як южноафриканець, отримувати долари — це цінніше, ніж уявляють,” — каже Louw.

Професор інтернет-географії Оксфордського університету, автор книги “Feed the Machines” Марк Грем, визнає, що для людей у країнах, що розвиваються, ця сума може мати короткострокове значення, але попереджає: “З структурної точки зору, ця робота нестабільна, без перспективи зростання і фактично — глухий кут.”

Грем додає, що ринок даних для AI залежить від “гонки цін на зарплату” і “тимчасової потреби у людських даних”. Коли ця потреба зникне, “робітники залишаться без гарантій, без навичок для перенавчання і без соціального захисту.”

Він стверджує, що єдині вигодонабувачі — це “платформи Північної півкулі, які отримують усю тривалу цінність.”

Повна делегованість

З чикагського AI-тренувальника Hill виникає складне почуття щодо продажу приватних телефонних розмов Neon Mobile. 11 годин розмов принесли йому 200 доларів, але він каже, що ця платформа часто зникає і затримує виплати. “Neon у мене викликає підозру, але я все одно користуюся, щоб заробити трохи грошей і платити рахунки,” — каже Hill.

Зараз він починає сумніватися, чи справді це так просто. У вересні минулого року Neon Mobile зник через кілька тижнів після запуску, після того, як TechCrunch виявив уразливість, що дозволяла будь-кому отримати доступ до телефонних номерів, записів дзвінків і текстових повідомлень користувачів. Hill каже, що Neon Mobile ніколи не повідомляв його про це, і тепер він боїться, що його голос може бути зловживаний у мережі.

Дослідниця з приватності даних у Центрі людського центру AI Стенфордського університету Jennifer King занепокоєна тим, що ринок даних для AI не має чіткої уяви, як і де використовуються дані користувачів. Вона додає, що без розуміння своїх прав і можливості вести переговори, “споживачі ризикують тим, що їхні дані будуть повторно використані у спосіб, який їм не подобається, не зрозумілий або несподіваний, і майже без можливості виправити ситуацію.”

Коли тренувальники діляться даними на Neon Mobile і Kled AI, вони надають платформам повну делеговану ліцензію (глобальну, ексклюзивну, безвідкличну, передавану і без роялті), що дозволяє платформам продавати, використовувати, публічно демонструвати і зберігати їхні портрети, а також створювати похідні роботи.

Засновник Kled AI Avi Patel каже, що їхній договір про дані обмежується використанням для тренування і досліджень AI. “Ця бізнес-модель базується на довірі користувачів. Якщо учасники вважають, що їхні дані можуть бути зловживані, платформа не зможе функціонувати,” — додає він. Компанія перевіряє покупців перед продажем наборів даних, щоб уникнути співпраці з “сумнівними” структурами, наприклад, з порнографічною індустрією, або з “урядами”, які можуть використовувати дані у спосіб, що порушує цю довіру.

Neon Mobile не відповів на запит про коментар.

Лондонський професор права з міста Сент-Джордж, Enrico Bonadio, зазначає, що ці умови дозволяють платформам і їхнім клієнтам “майже робити з цим матеріалом що завгодно, назавжди, без додаткової оплати, а учасники не мають реальних способів відкликати згоду або вести повторні переговори.”

Більш тривожні ризики включають використання даних тренувальників для створення глибоких підробок і підробки особистості. Хоча ринок даних заявляє, що перед продажем видаляє ідентифікаційні дані (ім’я, місце), Bonadio додає, що біометричні дані за своєю природою важко анонімізувати.

Жаль продавців

Навіть якщо тренувальники AI зможуть укласти більш детальні угоди щодо використання своїх даних, вони все одно можуть пошкодувати. У 2024 році актор з Нью-Йорка Adam Coy продав своє обличчя за 1000 доларів компанії Captions — платформі для AI-відеомонтажу, тепер перейменованій у Mirage. Угода передбачає, що його особистість не буде використана для політичних цілей, реклами алкоголю, тютюну або порнографії, і діє протягом року.

Captions не відповів на запит про коментар.

Згодом його друзі почали поширювати відео, знайдені в інтернеті, з його обличчям і голосом, що набрали мільйони переглядів. Одне з відео в Instagram, де його AI-реплікація називає себе “гінекологом”, просуває неперевірені медичні добавки для вагітних і породіль.

“Мені було соромно пояснювати це іншим,” — каже Coy.

“Коментарі були дивними, бо люди оцінювали моє зовнішність, але це зовсім не я,” — додає він. “Коли я приймав рішення продавати своє обличчя, я думав, що більшість моделей все одно будуть скануватися в інтернеті, тож краще отримати за це гроші.”

Coy каже, що більше не бере участі в AI-даних роботах. Він готовий розглянути ще раз, якщо компанія запропонує йому хорошу винагороду.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити