
Глибоке розслідування британської газети «Гардіан» виявило швидко зростаючу глобальну сірий індустрію: тисячі звичайних людей з Південної Африки, Індії та США обмінюють свої голоси, обличчя, відеозаписи ходи та приватні телефонні розмови на витрати на навчання AI. Оскільки попит AI-компаній на якісні людські дані перевищив доступний обсяг у відкритій мережі, з’явилися платформи для платного збору, такі як Kled AI, Silencio, Neon Mobile.
Ця глобальна золота лихоманка даних AI особливо безпосередньо впливає на країни, що розвиваються.
27-річний молодий чоловік з Кейптауна, Якопус Лу, виконав завдання «міського навігації» на Kled AI, за відео прогулянки отримав 14 доларів, що в 10 разів більше за місцеву мінімальну заробітну плату. Він зізнається, що знає ціну приватності, але через багаторічні хвороби нервової системи не може знайти роботу, заробивши 500 доларів на продажу відео повсякденного життя, він записався на курс масажиста. «Як південноафриканець, отримувати долари для мене цінніше, ніж для інших», — сказав Лу.
22-річний студент Сахіл Тігга з Індії щомісяця продає записи навколишнього шуму через Silencio, заробляючи понад 100 доларів на місяць; 18-річний учень з Чикаго Рамеліо Хіл продає приблизно 11 годин приватних телефонних розмов Neon Mobile за 0,50 долара за хвилину, заробляючи близько 200 доларів. Його логіка проста і пряма: технологічні компанії вже мають велику кількість його особистих даних, чому б і не отримати частку від цього.
Покращення генеративних AI, таких як ChatGPT та Gemini, базується на величезних обсягах якісних людських текстів, але основні відкриті набори даних, такі як C4, RefinedWeb, Dolma, вже почали обмежувати комерційне використання. Дослідники оцінюють, що AI-компанії можуть вичерпати нові якісні тексти вже у 2026 році. Використання синтетичних даних, згенерованих AI, для навчання вже довелося до помилок у моделях, що призвело до їхнього краху, що ще більше підвищує дефіцит реальних людських даних.
Тому виникли платформи для платного збору, що створили нову глобальну екосистему цифрових підробітків:
Kled AI: закупівля повсякденних фотографій та відео за завданням
Silencio: краудсорсинг збору навколишніх звуків з розрахунком у криптовалюті
Neon Mobile: закупівля розмов та записів телефонних дзвінків за 0,50 долара за хвилину
Luel AI (підтримується Y Combinator): збір багатомовних розмов за приблизно 0,15 долара за хвилину
ElevenLabs: дозволяє користувачам цифрово клонувати свій голос, базова ставка — 0,02 долара за хвилину
Професор економіки Лондонського королівського коледжу Боуке Клейн Тіселінк зазначає, що праця в навчанні AI є новою робочою категорією, яка швидко зростатиме, а AI-компанії активно платять за збір даних, щоб уникнути повної залежності від веб-сканування, яке може призвести до авторських спорів.
Юридичні ризики цих платформ майже не відомі користувачам. Професор права університету Сент-Джордж у Лондоні Енріко Бонадіо зазначає, що ліцензійні угоди зазвичай надають платформам «глобальне, ексклюзивне, незворотне, передаване та безкоштовне» право, що дозволяє їм продавати, демонструвати, зберігати та створювати похідні твори, і постачальники майже не мають реальних шляхів для відкликання згоди чи повторних переговорів.
Досвід актора з Нью-Йорка Адама Коя є найяскравішим прикладом. Він продав ліцензію на своє зображення програмному забезпеченню для редагування AI Captions за 1 000 доларів, угода чітко забороняла використання для політичної пропаганди або порнографії, термін дії ліцензії — один рік. Але незабаром його друг на Instagram виявив відео з кількома мільйонами переглядів, у якому «він» називав себе «лікарем піхви», просуваючи несертифіковані медичні добавки для жінок у період вагітності. «Коментарі були дивними, бо вони оцінювали мою зовнішність, але це зовсім не я», — сказав Кой. Після цього він більше не брав жодних підробітків з даними AI.
Професор Оксфордського університету Марк Грехем підсумував, що ця робота структурно є «нестабільною, без можливостей для зростання, фактично безвихідною», єдиними довгостроковими виграшами є «платформи північної півкулі, які отримують всю постійну цінність».
Сіра індустрія навчання AI означає низку платформи для платного збору, які платять звичайним користувачам за голоси, обличчя, відео та телефонні розмови для навчання моделей AI. Її називають «сірим», оскільки угоди виглядають легальними, але кінцеве використання даних є непрозорим, умови ліцензії є вкрай асиметричними, і існує ризик їх використання для глибокого підроблення та інших можливих зловживань, що межує між відповідністю та експлуатацією.
Постачальники зазвичай надають платформам незворотні права на використання біометричних даних, не повністю розуміючи умови. Дослідниця Стенфордського університету Дженніфер Кінг зазначає, що споживачі стикаються з ризиком, що дані можуть бути повторно використані «способами, які їм не подобаються, які вони не розуміють або які не могли передбачити, і в той час практично немає шляхів для відшкодування». Інцидент з проривом безпеки Neon Mobile підтвердив, що після витоку даних платформа може навіть не сповістити постраждалих користувачів.
Деякі платформи навчання AI (такі як Silencio) розраховують винагороду у формі криптовалюти, використовуючи децентралізовані платежі, щоб знизити бар’єри для міжнародних платежів, що дозволяє користувачам з країн, що розвиваються, отримувати доходи безпосередньо у вигляді стейблкоїнів або рідних токенів. Це робить ринок даних AI важливою гілкою реального застосування криптовалюти, одночасно ставлячи питання про оцінку токенів, ліквідність та етику даних.