Вы обучаете искусственный интеллект бесплатно - и он даже не говорит спасибо

У Вас когда-нибудь возникало ощущение, что Ваши поздние ночные прогулки по ChatGPT приносят больше пользы Кремниевой долине, чем Ваша собственная продуктивность, вызванная бессонницей? Это потому, что так оно и есть. Если Вы используете бесплатные инструменты искусственного интеллекта, поздравляю, Вас призвали в глобальную неоплачиваемую рабочую силу, и никто даже не потрудился подать Вам кружку вежливости.
Как это работает на самом деле (да, Вы в этом участвуете)
Давайте приоткроем занавес. Большинство бесплатных чат-ботов с искусственным интеллектом, таких как ChatGPT, Claude и Gemini, работают на моделях, которые совершенствуются с помощью так называемого Reinforcement Learning from Human Feedback (RLHF). Звучит сложно, но вот простая версия:
Вы задаете вопрос. ИИ отвечает. Вы оцениваете его, ставя большой палец вверх или вниз. Возможно, Вы предпочитаете один ответ другому. Поздравляю... Вы только что обучили модель. Ваши предпочтения записываются и обрабатываются, и в конце концов модель настраивается, чтобы стать более "полезной"
Эти инструменты не просто живут в облаке для развлечения. Они учатся у Вас. На самом деле, Вы не просто общаетесь; Вы - очень доступный (читай: неоплачиваемый) аннотатор данных.
Да, даже платные пользователи помогают обучать ботов
Думаете, Вы избежали мельницы данных, заплатив за GPT-4? Подумайте еще раз. Если Вы явно не отказались от этого в настройках ChatGPT, Ваше взаимодействие все равно используется для тонкой настройки поведения ИИ. Именно так. Вы платите 20 долларов в месяц за то, что участвуете в разработке продукта. В масштабе. Без роялти. Отличный трюк, правда?
OpenAI, например, использует разговоры как бесплатных, так и платных пользователей для улучшения своих моделей, если только Вы не отключите "историю чатов" Gemini от Google? То же самое. Claude от Anthropic? Также собирает данные о предпочтениях, чтобы улучшить свои модели выравнивания.
RLHF - это не просто техническая магия... Это человеческий конвейер
За каждой причудливо звучащей аббревиатурой вроде RLHF стоит вполне реальный и очень человеческий процесс. Подрядчики нанимаются для того, чтобы ранжировать ответы, отмечать галлюцинации и классифицировать подсказки.
Такие компании, как Sama (когда-то связанная с OpenAI), Surge AI и Scale AI, предоставляют эту рабочую силу, часто через низкооплачиваемых подрядчиков, работающих долгие часы, многие из которых находятся в развивающихся странах. В 2023 году, согласно отчетам, маркировщики RLHF зарабатывали от $2 до $15 в час, в зависимости от региона и роли. Так что да, реальные люди снова и снова нажимают "этот ответ лучше". И именно этот цикл обратной связи приводит в действие ботов.
Если Вы даете такой же отклик с помощью "больших пальцев вверх", Вы, по сути, выполняете мини-версию их работы... бесплатно.
Как используется эта обратная связь
А вот здесь становится интересно. Ваша обратная связь не обучает основную модель напрямую. Она поступает в модели вознаграждения - небольшие системы, которые подсказывают основному ИИ, как себя вести. Поэтому, когда Вы говорите: "Этот ответ мне нравится больше", Вы помогаете создать внутренний компас, по которому работает большая модель. Когда так делает достаточное количество людей, ИИ начинает чувствовать себя более человечным, более вежливым, более полезным... или более похожим на колумниста с пограничными проблемами.
А как насчет Вашего стиля письма?
ИИ запоминает тон. Когда Вы постоянно общаетесь с ним в определенном стиле - саркастическом, академическом или грубовато-прямом, - система учится отвечать ему тем же. Она не крадет Ваш голос и не продает его другим (пока), но Ваши шаблоны помогают сформировать часть коллективного опыта обучения, особенно если бот видит, что другим нравятся Ваши фразы или тон.
Речь идет не столько о клонировании Вас, сколько о копировании того, что работает. А то, что работает, часто исходит от кого-то, кто никогда не давал согласия на копирование стиля.
CAPTCHA теперь не только для ботов
О, а те головоломки CAPTCHA, которые Вы решаете, чтобы доказать, что Вы человек? Вы не просто нажимаете на светофоры и переходите дорогу, чтобы попасть в свою электронную почту. Вы маркируете данные для моделей машинного обучения. Google's reCAPTCHA, hCaptcha и Cloudflare's Turnstile - все они подают визуальные данные в обучающие конвейеры, помогая ИИ видеть мир по одному размытому уличному знаку за раз.
Так что да, даже Ваша проверка безопасности теперь является частью экономики обратной связи.
Миллиарды в стоимости... Ноль признания
Это не какой-то заговор. Рынок обучающих данных процветает. По прогнозам MarketsandMarkets, объем мирового рынка обучающих данных вырастет с $1,5 млрд. в 2023 году до более чем $4,6 млрд. к 2030 году. И хотя сюда входят синтетические данные и наборы курируемых данных, ценность помеченных человеком реальных данных, а именно тех, которые Вы предоставляете каждый день, постоянно растет.
Тем не менее, большинство пользователей все еще думают, что их беседа с чатботом исчезает в эфире. Спойлер: это не так. Только если Вы явно не отключили ведение журнала (и даже тогда... доверяй, но проверяй).
Последняя мысль: Вы не параноик... Вы просто вовлечены
Вот в чем загвоздка. Вы участвуете в создании той самой вещи, которая в конечном итоге может заменить Вашу работу, превзойти Ваши творческие способности или превратить Ваши твиты в образцы продукции. Это не значит, что Вы должны прекратить использовать ИИ, но Вы должны знать, в чем заключается Ваш вклад. И может быть, просто может быть, попросите немного прозрачности взамен.
В конце концов, если Ваш бесплатный труд достаточно хорош, чтобы сформировать следующее поколение моделей ИИ стоимостью в миллиард долларов, самое меньшее, что они могут сделать, это сказать спасибо.
Источник(и)
Собственные исследования и опыт
Доля рынка обучающих данных ИИ, прогноз | Анализ роста и отчет о тенденциях [2032]
Источник изображения: Vjulien Tromeur - Unsplash