Как защитить свои тексты от ChatGPT и других ИИ-ботов

2025-01-05 в 19:49, admin, рубрики: chatgpt, сайты, тексты

Большинство людей не осознают, какой огромный объем слов требуется для обучения ИИ-программ, таких как ChatGPT или Claude. Когда два года назад была запущена первая версия ChatGPT, она была обучена примерно на 300 миллиардах слов.

Скажите это людям, и они не смогут понять, насколько это огромная цифра. Миллиард - это такое большое число, что большинство людей не могут осознать его. Вот вам сумасшедшая математика. Если бы вы писали по тысяче слов в день, каждый день без перерыва, то на написание миллиарда слов ушло бы 2 740 лет.

Теперь умножьте на триста. Потому что триста миллиардов слов были использованы для обучения ИИ-движка, который управляет ChatGPT. И они не спрашивали разрешения ни на одно из этих слов. Просто помогли себе сами.

Вот что касается обучения ИИ-программ. Качество написанного имеет значение. Билл Гейтс и Microsoft научили нас этому.

До ChatGPT компания Microsoft обучила своего первого ИИ-чатбота в Twitter. Они отключили его менее чем за сутки. Затем The Verge опубликовал статью под названием «Twitter taught Microsoft’s AI chatbot to be a racist a**hole in less than a day. (Twitter научил ИИ-чатбота Microsoft быть расистским мудаком менее чем за день)». Весь мир смеялся, слыша, как робот говорит как сексистский и расистский тролль в социальных сетях.

Поэтому, когда OpenAI только начинал работать, они знали, что им нужна качественная литература. И не просто качественная. Поэтому они перелопатили весь интернет, взяв текст из книг, СМИ, онлайн-статей, научных работ, Википедии и многого другого.

Первой в суд подала медиакомпания The New York Times. Согласно иску, поданному в декабре прошлого года, OpenAI перелопатила миллионы их статей и иногда ChatGPT выдает фрагменты их текстов дословно.

Легко сказать, что это всего лишь мешанина слов. Пока этого не происходит. Пока фразы и куски текста будут выдаваться дословно.

Интересно, как бы вы себя чувствовали, если бы это была ваша статья.

Как бы вы себя чувствовали, если бы ChatGPT использовал куски текста, которые вы написали, а они взяли без разрешения. Ведь именно это буквально происходит с авторами, которые пишут для The New York Times. И теперь дело дошло до суда.

Я не знаю, как у вас обстоят дела с финансовой точки зрения, но у ChatGPT дела идут очень хорошо, поскольку они никогда не имели законного права использовать чужие произведения. OpenAI заработала триста миллионов в августе и ожидает получить 3,7 миллиарда долларов в 2024 году, согласно документам, изученным The New York Times.

В ChatGPT более 10 миллионов пользователей платят 20 долларов в месяц. Кроме того, они зарабатывают еще миллиард на сторонних компаниях, которые используют OpenAI для создания сервисов. По прогнозам OpenAI, к 2029 году их доход достигнет 100 миллиардов долларов.

Но у них есть небольшая проблема.

У них заканчиваются тексты для обучения ИИ.

В новом исследовании, опубликованном этим летом исследовательской группой Epoch AI, говорится, что компании, работающие с искусственным интеллектом, могут исчерпать запасы контента, созданного людьми, уже в 2026 году, а если у них закончится свежий контент, они рискуют оказаться в стагнации. Им нужен постоянный приток текстов, чтобы продолжать совершенствовать свою программу.

В исследовании говорится, что платить миллионам людей за создание объема текста, который необходим ИИ-моделям для постоянного роста, «вряд ли будет экономичным способом» повышения производительности.

Тамай Бесироглу, автор исследования, говорит, что ИИ может столкнуться с трудностями в сохранении нынешних темпов прогресса, когда исчерпает запасы созданной человеком информации. (источник: репортаж PBS)

Что вполне логично. Просто брать чужие тексты, не спрашивая разрешения и не выплачивая компенсацию, выгоднее, чем платить писателям.

Теперь давайте поговорим о том, как вы пишете. По правде говоря, единственный способ быть на 100% уверенным в том, что ни один робот ИИ не сможет воспользоваться вашими текстами, - это писать в блокноте. Но для большинства из нас это неприемлемое решение. Да и не нужно. Особенно если писательская деятельность помогает зарабатывать на жизнь.

Поэтому давайте поговорим о доступном решении.

Потому что оно очень простое. Просто маленький текстовый файл. Как в блокноте.

Когда вы пишете в Интернете, ваши файлы хранятся на сервере. На каждом сервере есть маленький текстовый файл robots.txt - просто маленький текстовый файл, который указывает роботам, что им можно, а что нельзя. Они не всегда прислушиваются. Но чаще всего прислушиваются.

В этом текстовом файле вы увидите инструкции, которые выглядят примерно так:

User-agent: GPTBot

Disallow: /

Нужно понять три составляющие, и это очень просто.

User-agent - это имя робота. Например, GPTBot.
Disallow: означает NO.
Слэш означает весь сайт или аккаунт.

Вот что интересно. Вы можете просмотреть их практически для любого сайта или учетной записи пользователя в Интернете. Просто введите /robots.txt после любого доменного имени или учетной записи пользователя.

Вот пример из моего Substack:

Как видите, мой Substack сообщает ChatGPT и ИИ Google, как Bard, так и Vertex AI, что им запрещено обучаться на моих текстах в Substack.

А теперь посмотрите на тот, что для Twitterbot. Видите, что здесь нет слеша?

Это значит, что Twitterbot ничего не запрещено. Twitterbot может читать и получать доступ ко всему и вся на моем Substack. Слэш очень важен. Он буквально означает, что все на моем аккаунте запрещено.

Важно знать, что на Substack ИИ-боты НЕ блокируются по умолчанию. В Substack по умолчанию включено «обучение ИИ». Вам нужно войти в систему, перейти в Settings > Privacy и отключить «allow AI training».

Некоторые сайты блокируют просмотр файла robots в учетных записях пользователей. Я получаю ошибку 404 при попытке просмотреть файл robots.txt для учетных записей пользователей на Newsbreak и Vocal Media. Но вы можете посмотреть файл robots.txt на родительском сайте и предположить, что настройки вашей учетной записи, скорее всего, такие же.

Вот файлы robots.txt для Newsbreak и Vocal.

Видите звездочку? Это значит, что все роботы. Newsbreak запрещает всем роботам доступ к определенным каталогам, не содержащим контента.

Было бы упущением не рассказать вам о другом способе блокировки роботов, который находится в файле под названием .htaccess. Этот файл не доступен для публичного просмотра. Поэтому я не могу с уверенностью сказать, что Newsbreak и Vocal предоставляют открытый доступ ИИ-роботам. Я знаю только, что они не блокируют их в своем файле robots.txt.

Это заставляет меня задуматься. Если они блокируют обучение ИИ через .htaccess, почему бы им также не добавить это в файл robots, который проверяют все роботы в Интернете? Технический персонал должен знать, как это сделать.

Если вы пишете на одном из этих сайтов, возможно, стоит отправить письмо в службу поддержки, чтобы узнать их позицию по поводу обучения ИИ на вашем сайте.

Если у вас есть собственный сайт, например, на wordpress, у вас есть больше возможностей для контроля, чем на сторонних сайтах. На собственном сайте вы можете заблокировать всех известных ИИ-ботов.

Существует несколько способов получить доступ к файлу robots.txt.

Если вы используете плагин Yoast SEO, вы можете получить доступ к нему из боковой панели wordpress по адресу Yoast > Tools > File Editor (Yoast > Инструменты > Редактор файлов)

Если вы не используете Yoast, но у вас есть ftp-доступ, этот файл находится в корне сайта. И если вы не знаете, что это значит, и не разбираетесь ни капли в технических вопросах, ничего страшного.

Если вы не разбираетесь в технических тонкостях, бесплатный плагин WP Robots Txt очень прост и не требует никаких технических знаний. Просто перейдите в раздел Plugins>Add New (Плагины>Добавить новый). Затем введите WP Robots Txt и нажмите кнопку «Install (Установить)».

Как только вы откроете файл robots.txt, скопируйте и вставьте это:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

Убедитесь, что они отображаются так, как на примере. User-agent в одной строке, disallow в строке ниже. Убедитесь, что после disallow стоит косая черта. Затем сохраните.

И если у вас ничего не получается, свяжитесь со службой поддержки вашего хостинга и спросите, смогут ли они вам помочь. Многие из них помогут.

Есть еще один робот, которого вы, возможно, захотите запретить, но о нем я расскажу отдельно. Он называется Common Crawl и существует с 2007 года. Common Crawl был создан с самыми лучшими намерениями.

Это крошечная некоммерческая организация 501(c)(3), управляемая одним человеком, которая стремится сделать копию всего, что есть в Интернете, чтобы компании и частные лица могли использовать ее для исследований и анализа. Согласно FAQ, данные Common Crawl использовались для улучшения программ перевода языков, предсказания тенденций, отслеживания распространения болезней и многого другого. Создано с пользой для дела.

Условия очень четкие. Они гласят, что пользователи должны соблюдать все местные, государственные, национальные и международные законы. Пользователям запрещается использовать данные Common Crawl для нарушения чьих-либо прав на интеллектуальную собственность.

Но, несмотря на эти условия, именно этим воспользовалась OpenAI. Мы не могли заниматься самостоятельным сканированием таких крупных сайтов, как The New York Times и Wikipedia. Мы просто поработали с базой данных Common Crawl.

Именно так крошечная некоммерческая организация 501(c)(3), состоящая из одного человека, оказалась указана в качестве ключевого игрока в деле о нарушении авторских прав New York Times против OpenAI.

Факт в том, что им не нужны мои статьи в их базе данных. У меня нет контента, меняющего мир, и я не задаю в одиночку никаких глобальных или национальных трендов.

Если вы хотите запретить Common Crawl, просто вставьте это в свой файл robots.txt:

User-agent: CCBot

Disallow: /

Я надеюсь, что New York Times выиграет дело. Думаю, что их примеру последуют и другие крупные компании, которых обокрали. Пока какой-нибудь судья не скажет им, что они должны соблюдать законы об интеллектуальной собственности.

А до тех пор закрывать двери и окна - единственный выход для авторов. Поэтому проверьте свой сайт, если он у вас есть. Проверьте сайты, на которых вы пишете. Если они не блокируют роботов, напишите им и спросите, почему.

Автор: NeyroEntuziast

Источник