Автор Тема: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам (Прочитано 194 раз)

Сергей Горбачевский · « : 26, Апреля 2024, Пятница, 21:39:35 pm »

Об этом рассказывается в Просмотр ссылок доступен только зарегистрированным пользователям компании OpenAI.

Чтобы запретить GPTBot доступ к вашему сайту, вы можете добавить GPTBot в файл robots.txt вашего сайта:

Код: [Выделить]

User-agent: GPTBot
Disallow: /

Чтобы разрешить GPTBot доступ только к частям вашего сайта, вы можете добавить токен GPTBot в файл robots.txt вашего сайта следующим образом:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Можно также заблокировать IP-адреса, с которых ходит GPTBot:

Код: [Выделить]

{
  "creationTime": "2023-11-30T11:51:00.000000",
  "prefixes": [
    {
      "ipv4Prefix": "52.230.152.0/24"
    },
    {
      "ipv4Prefix": "52.233.106.0/24"
    }
  ]
}

Сергей Горбачевский · « **Ответ #1 :** 26, Апреля 2024, Пятница, 22:08:09 pm »

Осталось забанить Gemini от Google, конкурента OpenAI. К сожалению, пока не смог найти user-agent Gemini, а вот диапазон ip вроде бы 142.250.0.0 - 142.251.255.255

Можно предположить, User-agent: GeminiBot.

Дальше в очереди на бан Microsoft Copilot

Берём пример с Reddit, там для таких парней вход платный.

Сергей Горбачевский · « **Ответ #2 :** 27, Апреля 2024, Суббота, 14:16:48 pm »

Цитата: Сергей Горбачевский от 26, Апреля 2024, Пятница, 22:08:09 pm

Можно предположить, User-agent: GeminiBot.

Таки нашёл я как управлять пауком Google для его обучения Bard и Vertex, включая будущие поколения AI-моделей.

Вот пример инструкций для robots.txt вашего сайта:

Код: [Выделить]

User-agent: Google-Extended
Disallow: /paywall-content/
Allow: /

Важное примечание: В Google-Extended нет отдельной строки агента пользователя HTTP-запроса. Сканирование выполняется с помощью имеющихся строк агента пользователя Google. При этом токен агента пользователя из файла robots.txt применяется в целях проверки.

Перевожу его на русский язык. В случае с Google вы даже не заметите, что он использует ваш контент для обучения своего ИИ, за пользование которым он возьмёт с вас деньги. Поскольку у нет выделенного паука для ИИ. Вы можете только попросить его с помощью директив robots.txt не использовать ваш контент для обучения. Забанить по ip естественно не получится. Вернее получится, но вместе с индексированием для поиска.

Сергей Горбачевский

Интересно, что 242 из 1000 самых популярных веб-сайтов уже решили Просмотр ссылок доступен только зарегистрированным пользователям GPTBot , веб-сканер OpenAI с момента его запуска 08 августа 2023 года (пожаловался сам OpenAI 27 августа 2023 года).

Почему это волнует издателей, блокировать или не блокировать ChatGPT? Это был большой вопрос для них, поскольку ChatGPT не цитирует и не ссылается на свои источники. Издатели разрешили поисковым системам сканировать свой контент, потому что в этом есть для них очевидная потенциальная выгода — они получают поисковый трафик в виде прямых ссылок(цитат). Можно предположить, что еще больше самых популярных веб-сайтов будут блокировать GPTBot потому, что они не хотят, чтобы OpenAI собирал их данные для обучения своих моделей, по крайней мере, без какой-либо компенсации.

Помимо GPTBot, есть ещё CCbot, это веб-сканер Common Crawl, который предоставляет часть обучающих данных для OpenAI, Google и другим AI. Его блокируют пока реже - 109 из 1000 крупнейших веб-сайтов блокируют как GPTBot, так и CCbot.

Кроме Open AI, претензии и даже судебные иски были к Stability AI. Stability AI — это компания, специализирующаяся на разработке и исследовании в области искусственного интеллекта. Она известна созданием одного из самых популярных инструментов генеративного ИИ — Stable Diffusion, который позволяет пользователям создавать высококачественные изображения на основе текстовых описаний. Это конкурент DALL·E 2 от OpenAI.

Любопытно, что французские издатели не стесняются в выражениях, называя ситуацию воровством, грабежом и так далее.

Американцам попроще договариваться с калифорнийским стартапом OpenAI. Информационное агентство Associated Press подписало в июле 2023 года соглашение с OpenAI, который разрешил ей доступ к его файлам с 1985 года в обмен на доступ к его технологиям и опыту в области искусственного интеллекта.

Не понятно, в чём заключается этот доступ к технологиям. Возможно, что это просто бесплатный безлимит, который можно использовать для создания контента.

Самое простое решение, как обычно, нашли в России. Там в декабре 2023 года хостинг-провайдеры получили письмо от подведомственного Роскомнадзору Главного радиочастотного центра (ГРЧЦ), в котором ведомство рекомендует выявлять и блокировать поискового бота GPTBot от компании OpenAI в случае рисков. Эксперты по кибербезопасности компании Qrator Labs ранее говорили «Коммерсанту», что в ноябре GPTBot стал одним из самых частых «посетителей» сайтов крупных российских компаний.

Сергей Горбачевский

Microsoft Bing не стал использовать инструменты robots.txt для блокировки ботов для обучения генеративного ИИ, а пошли своим путём.

Фабрис Канель из Microsoft Bing сказал: «Хотя мы активно сотрудничаем с отраслью в разработке будущих стандартов искусственного интеллекта, мы также хотели обеспечить более непосредственную поддержку издателям». Мы рады сообщить, что мы создали существующие стандартные элементы управления для веб-мастеров, чтобы дать издателям возможность контролировать использование своего контента в Bing Chat и для обучения генеративным моделям искусственного интеллекта Microsoft. Веб-мастера могут реализовать эти элементы управления следующим образом:"

Чтобы оставаться в Bing Chat, никаких действий не требуется. Содержимое без тега NOCACHE и без тега NOARCHIVE может быть включено в ответы чата Bing и получит выгоду от способности ИИ генерировать более полезные ответы и увеличивать ваши возможности ранжирования в чате Bing; Содержимое сайта может быть использовано при обучении наших базовых моделей генеративного ИИ.

- Содержимое с тегом NOCACHE может быть включено в ответы чата Bing. Bing будет отображать в ответе только URL/фрагмент/заголовок; В будущем для контента в нашем индексе Bing, который помечен как NOCACHE, при обучении базовых моделей генеративного искусственного интеллекта Microsoft можно будет использовать только URL-адреса, заголовки и фрагменты.

- Контент с тегом NOARCHIVE не будет включаться в ответы Bing Chat и не будет содержать ссылок на него. В дальнейшем Bing не будет использовать контент в нашем индексе Bing с пометкой NOARCHIVE для обучения базовых моделей генеративного искусственного интеллекта Microsoft.

- Если контент имеет теги NOCACHE и NOARCHIVE, мы будем рассматривать его как NOCACHE.

«Мы можем заверить издателей, что контент с тегами NOCACHE или NOARCHIVE по-прежнему будет появляться в наших результатах поиска», — добавил Фабрис.

Кроме того, владельцы сайтов или издатели, которые хотят строго контролировать свой контент, могут использовать опцию NOCACHE, чтобы разрешить Bing Chat ссылаться на их веб-сайты, пояснил Bing. «Чтобы помочь пользователям чата Bing находить статьи с платным доступом, мы рекомендуем добавить значение NOCACHE к значению NOARCHIVE, поскольку многие сайты с платным доступом используют только тег NOARCHIVE», — добавили в Bing.

Более подробная информация Просмотр ссылок доступен только зарегистрированным пользователям.

Сергей Горбачевский

А вот рассуждения одного из украинских хостеров:

В каких случаях все же стоит заблокировать GPTBot

- если вы зарабатываете на информации – например, представляете информационное агентство или издаете художественную литературу;
- если люди используют искусственный интеллект как замену вашему основному продукту. Например, у вас есть SEO-агентство, а люди консультируются с ChatGPT для исследования ключевых слов. Такой сценарий касается практически всей сферы консультативных услуг, когда ИИ фактически действует как прямой конкурент;
- если вы обеспокоены тем, что информация, защищенная авторским правом, размещается несоответствующей, без указания автора и вне контекста может быть воспринята неправильно. Это касается больше личных блогов;
- если ваша организация имеет этические возражения относительно использования ИИ – актуально, например, для сайта союза писателей, актеров или других художников;
- если вы монополист в своей сфере / очевидно опережаете конкурентов и спокойно господствуете на вершине рейтинга Google, то для вас, возможно, нет смысла отдавать свой трафик ChatGPT.

Сергей Горбачевский

У ChatGPT есть ещё один паук ChatGPT-Use. Этот user-agent используется только для выполнения прямых действий от имени пользователей ChatGPT и не используется для автоматического сканирования Интернета.

Ему тоже можно запрещать доступ к сайту

Код: [Выделить]

User-agent: ChatGPT-User
Disallow:

или отдельным разделам

Код: [Выделить]

User-agent: ChatGPT-User
Disallow:
Allow: /directory-1/
Allow: /directory-2/

Сергей Горбачевский · « **Ответ #7 :** 30, Апреля 2024, Вторник, 08:05:57 am »

Financial Times и OpenAI заключили соглашение о лицензировании контента

Соглашение было достигнуто, поскольку стартап, поддерживаемый Microsoft, ищет данные из надежных источников для обучения новейшим моделям искусственного интеллекта.

   Please use the sharing tools found via the share button at the top or side of articles. Copying articles to share with others is a breach of FT.com T&Cs and Copyright Policy. Email licensing@ft.com to buy additional rights. Subscribers may share up to 10 or 20 articles per month using the gift article service. More information can be found at Просмотр ссылок доступен только зарегистрированным пользователям.
   Просмотр ссылок доступен только зарегистрированным пользователям

   Financial Times заключила соглашение с OpenAI о обучении моделей искусственного интеллекта на основе архивного контента издателя в рамках последнего соглашения между стартапом, поддерживаемым Microsoft, и глобальным издателем новостей.

По условиям сделки FT предоставит лицензию на свои материалы производителю ChatGPT, чтобы помочь в разработке технологии генеративного искусственного интеллекта , которая может создавать текст, изображения и код, неотличимые от творений человека.

Соглашение также позволяет ChatGPT отвечать на вопросы краткими изложениями статей FT со ссылками на FT.com. Это означает, что 100 миллионов пользователей чат-бота по всему миру могут получить доступ к отчетам FT через ChatGPT, обеспечивая при этом обратный путь к исходному исходному материалу.

«Помимо выгод для FT, существуют и более широкие последствия для отрасли. Конечно, это правильно, что платформы искусственного интеллекта платят издателям за использование их материалов. OpenAI понимает важность прозрачности, атрибуции и вознаграждения — всего этого важно для нас», — заявил исполнительный директор FT Джон Риддинг.

«В то же время очевидно, что в интересах пользователей, чтобы эти продукты содержали надежные источники».

Брэд Лайткэп, главный операционный директор OpenAI, сказал: «Наше партнерство и постоянный диалог с Financial Times направлены на поиск творческих и продуктивных способов использования ИИ для расширения возможностей новостных организаций и журналистов, а также для обогащения опыта ChatGPT журналистикой мирового класса в реальном времени. для миллионов людей по всему миру».

Это пятая подобная сделка, заключенная OpenAI за последний год, после аналогичных соглашений с американским Associated Press, немецкой Axel Springer, французской Le Monde и испанской Prisa Media. Финансовые условия сделки не разглашаются.

Ожидается, что Аксель Спрингер будет зарабатывать десятки миллионов евро в год, предоставляя OpenAI доступ к контенту своих изданий, таких как Bild, Politico и Business Insider. Эта сделка включала единовременный платеж за исторический контент издателя и более крупную плату, выплачиваемую в соответствии с годовым лицензионным соглашением, позволяющим OpenAI получать доступ к более актуальной информации.

Газета New York Times в декабре стала первой крупной медиагруппой США, которая подала в суд на OpenAI и Microsoft , утверждая, что технологические компании получили «бесплатный проезд» на миллионах статей для создания моделей, лежащих в основе ChatGPT.

В иске говорится, что компания вела переговоры о лицензировании с Microsoft и OpenAI «в течение нескольких месяцев», но они «не привели к решению».

   Please use the sharing tools found via the share button at the top or side of articles. Copying articles to share with others is a breach of FT.com T&Cs and Copyright Policy. Email licensing@ft.com to buy additional rights. Subscribers may share up to 10 or 20 articles per month using the gift article service. More information can be found at Просмотр ссылок доступен только зарегистрированным пользователям.
   Просмотр ссылок доступен только зарегистрированным пользователям

   По словам нескольких человек, знакомых с ходом переговоров, в прошлом году OpenAI, Google, Microsoft и Adobe провели встречи с руководителями новостных издателей, включая News Corp, Axel Springer, The New York Times, The Guardian и FT, чтобы обсудить проблемы, связанные с их продуктами искусственного интеллекта. .

Исполнительный директор News Corp Роберт Томсон заявил, что ведет переговоры с ИИ-компаниями о лицензионном контракте, а глава Thomson Reuters Стив Хаскер заявил в этом году, что компания заключила ряд соглашений с ИИ-группами.

Google, который также создал своего чат-бота Gemini, используя контент из Интернета, еще не заключил сделок с издателями новостей.

Enders Analysis заявила, что переговорная позиция новостных медиагрупп была самой сильной, когда они могли предоставить «актуальные материалы, которые могли бы иметь важное значение для создания некоторых потребительских продуктов с искусственным интеллектом».

Сергей Горбачевский · « **Ответ #8 :** 30, Апреля 2024, Вторник, 08:41:02 am »

У меня очевидный вопрос - а почему у издателей нет претензий к Google с его Gemini? Google с его набором пауков давно просканировал всех этих издателей. Или "это другое"(с)? Можно не попасть в поисковую выдачу.

Сергей Горбачевский · « **Ответ #9 :** 01, Мая 2024, Среда, 14:46:15 pm »

Американские газеты подают в суд на OpenAI из-за нарушения авторских прав

Восемь газет, принадлежащих инвестиционной компании Alden Global, таких как New York Daily News и Chicago Tribune, подали иск, в котором говорится, что технологические компании скопировали миллионы их статей для обучения ИИ.

Ранее на Microsoft и OpenAI уже подали в суд несколько медиа: New York Times, The Intercept, Raw Story и AlterNet. Представитель OpenAI заявил, что компания "очень внимательно относится к нашим продуктам и процессу разработки для поддержки новостных организаций". Представитель Microsoft отказался комментировать жалобу.

"Газетные дела" являются одними из нескольких знаковых судебных исков, поданных различными авторами против технологических компаний и их генеративных систем ИИ.

Сергей Горбачевский · « **Ответ #10 :** 02, Мая 2024, Четверг, 10:19:28 am »

Copilot начали шугать даже на ПК. Компания Microsoft выпустила патч для браузера Edge, который решает проблему с автоматической установкой Copilot на ПК с Windows 11. До недавнего времени ИИ-помощник «внедрялся» на некоторые компьютеры, не спрашивая разрешения у их владельцев — но после ряда жалоб ситуация изменилась к лучшему.

Сергей Горбачевский · « **Ответ #11 :** 09, Мая 2024, Четверг, 13:36:59 pm »

В начале недели StackOverflow, популярный сайт вопросов и ответов, и OpenAI объявили о партнерстве — OpenAI получит возможность тренировать свои модели на контенте StackOverflow, а те, соответственно, смогут использовать модели для разработки своего продукта и использования в ответах на вопросы.

Разумеется, нашлись недовольные пользователи (не для того они ягодку постили, видимо), которые решили протестовать. Правда, SO не позволяет удалять популярные вопросы, к которым есть правильные (принятые) ответы, поэтому протестующим пришлось подойти креативно и испортить свои лучшие из правильных ответов.

В ответ модераторы за час откатили у одного товарища эти деструктивные изменения и забанили на неделю.

Сергей Горбачевский · « **Ответ #12 :** 10, Мая 2024, Пятница, 06:55:06 am »

Reddit меняет политику: Компании больше не смогут использовать данные пользователей

Reddit заявила о новой политике, которая запрещает компаниям с искусственным интеллектом бесплатно использовать данные пользователей для обучения своих моделей.

Платформа теперь требует от компаний подписывать лицензионные соглашения на доступ к своим данным.

Reddit, которая ранее зарабатывала на лицензировании своих данных, сейчас вынуждена изменить свою стратегию из-за новых требований безопасности и конфиденциальности. Хотя соцсеть стремится сохранить доступ к своим данным для исследователей и некоммерческих организаций, она создает больше ограничений для коммерческих целей, таких как обучение чат-ботов и больших языковых моделей.

Новая политика также подчеркивает права пользователей по контролю за своей личной информацией. Reddit закрепляет право пользователей отказаться от обмена своими данными с компаниями искусственного интеллекта и предотвращает злоупотребление этой информацией с целью спама или преследования.

Сергей Горбачевский · « **Ответ #13 :** 12, Мая 2024, Воскресенье, 09:52:11 am »

А вот и незваный гость - GPTbot.

Сергей Горбачевский · « **Ответ #14 :** 16, Мая 2024, Четверг, 10:09:03 am »

OpenAI обвиняют в использовании миллионов часов контента из YouTube для обучения Sora: документы уже переданы в суд. Сундар Пичаи обещает разобраться

Согласно данным New York Times, OpenAI использовала более миллиона часов контента из YouTube только для обучения Sora. The New York Times уже подала в суд на OpenAI за использование их контента, защищенного авторским правом, при обучении ИИ.

Новая нейросеть Sora от OpenAI позволяет создавать реалистичные видеоклипы на основе простых текстовых запросов. Однако с момента запуска этого нового инструмента возник вопрос: какие данные OpenAI использовала для обучения модели.

В интервью у технического директора OpenAI спросили, используют ли они видео на YouTube для обучения модели. Мира Мурати ответила: «Я не уверена в этом». Позже операционный директор также отказался ответить, проходила ли модель обучение, используя контента из YouTube, как утверждают источники.

Генеральный директор Google Сундар Пичаи ответил на этот вопрос, заявив, что он разберется во всем, если обвинения окажутся правдой.

«Послушайте, я думаю, что это вопрос, на который они должны ответить. Мне нечего добавить. У нас есть четкие условия обслуживания, — отметил Сундар Пичаи, отвечая на вопрос, является ли этот вопрос нарушением условий Google. — Обычно мы взаимодействуем с компаниями и следим за тем, чтобы они понимали наши условия обслуживания. И мы во всем разберемся».

Автор Тема: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам (Прочитано 194 раз)

Сергей Горбачевский

OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам

Сергей Горбачевский

Re: OpenAI рассказала как запретить чат-боту GPTBot доступ к сайтам