Автор Тема: О неполезных ботах или пауках  (Прочитано 11596 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 85789
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
О неполезных ботах или пауках
« : 12, Октября 2020, Понедельник, 07:06:14 am »
Сейчас развелась куча всяких стартапов, которые занимаются поиском в интернете специфической информации. В основном их интересует раннее обнаружение всякой нехорошей информации.

Казалось бы пусть себе ищут, но, на самом деле, они нагружают сервер, а иногда их количество и активность могут вызвать эффект DDOS-атаки.

Буквально вчера пришло письмо от хостера о том, что Semrushbot сделал 174 запроса к форуму в промежуток времени с 10-00 до 10-23.

Конкретно эти ребята зарабатывают на платных услугах по SEO-анализу сайтов. Кто их попросил анализировать наш сайт, не знаю. Хотя могут и просто собирать аналитику по сайтам.

Есть два способа ограничить активность подобных ботов - "рекомендательный", это прописать директиву Disalow в robots.txt (см. ниже)

И есть "запретительный" способ, через .htaccess. Я пошёл по нему. В этом случае ботам будет запрет доступа по ошибке 403.

# Bots
RewriteCond %{HTTP_USER_AGENT} SemrushBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} MJ12bot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} Riddler
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} aiHitBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} trovitBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} Detectify
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} BLEXBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} LinkpadBot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} dotbot
RewriteRule (.*) - [F,L]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy
RewriteRule (.*) - [F,L]

А список ушлых ботов нашёл на Гитхабе.

# www.robotstxt.org/
# www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449

# Slow down bots
User-agent: *
Crawl-delay: 10

# Disallow: Sistrix
User-agent: sistrix
Disallow: /

# Disallow: Sistrix
User-agent: SISTRIX Crawler
Disallow: /

# Disallow: Sistrix
User-agent: SISTRIX
Disallow: /

# Disallow: SEOkicks-Robot
User-agent: SEOkicks-Robot
Disallow: /

# Disallow: jobs.de-Robot
User-agent: jobs.de-Robot
Disallow: /

# Backlink Analysis
user-agent: AhrefsBot
disallow: /

# Bot der Leipziger Unister Holding GmbH
user-agent: UnisterBot
disallow: /

# http://www.opensiteexplorer.org/dotbot
User-agent: DotBot
Disallow: /
User-agent: dotbot
Disallow: /

# http://www.searchmetrics.com
User-agent: SearchmetricsBot
Disallow: /

# http://www.majestic12.co.uk/projects/dsearch/mj12bot.php
User-agent: MJ12bot
Disallow: /

# http://www.domaintools.com/webmasters/surveybot.php
User-agent: SurveyBot
Disallow: /

# http://www.seodiver.com/bot
user-agent: SEOdiver
disallow: /

# http://openlinkprofiler.org/bot
User-agent: spbot
Disallow: /

# http://www.wotbox.com/bot/
User-agent: wotbox
Disallow: /

# http://www.meanpath.com/meanpathbot.html
User-agent: meanpathbot
Disallow: /

# http://www.backlinktest.com/crawler.html
User-agent: BacklinkCrawler
Disallow: /

# http://www.brandwatch.com/magpie-crawler/
User-agent: magpie-crawler
Disallow: /

# http://filterdb.iss.net/crawler/
User-agent: oBot
Disallow: /

User-agent: fr-crawler
Disallow: /

# http://webmeup-crawler.com
User-agent: BLEXBot
Disallow: /

# https://megaindex.com/crawler
User-agent: MegaIndex.ru
Disallow: /

User-agent: megaindex.com
Disallow: /

# http://www.cloudservermarket.com
User-Agent: CloudServerMarketSpider
Disallow: /

# http://www.trendiction.de/de/publisher/bot
User-Agent: trendictionbot
Disallow: /

# http://www.exalead.com
User-agent: Exabot
Disallow: /

# http://www.career-x.de/bot.html
User-agent: careerbot
Disallow: /

# https://www.lipperhey.com/en/about/
User-agent: Lipperhey-Kaus-Australis
Disallow: /

User-agent: seoscanners.net
Disallow: /

User-agent: MetaJobBot
Disallow: /

User-agent: Spiderbot
Disallow: /

User-agent: LinkStats
Disallow: /

User-agent: JobboerseBot
Disallow: /

User-agent: ICCrawler
Disallow: /

User-agent: Plista
Disallow: /

User-agent: Domain Re-Animator Bot
Disallow: /

# https://www.lipperhey.com/en/about/
User-agent: Lipperhey-Kaus-Australis
Disallow: /

# https://turnitin.com/robot/crawlerinfo.html
User-agent: turnitinbot
Disallow: /

# http://help.coccoc.com/
User-agent: coccoc
Disallow: /

# ubermetrics-technologies.com
User-agent: um-IC
Disallow: /

# datenbutler.de
User-agent: mindUpBot
Disallow: /

# http://searchgears.de/uber-uns/crawling-faq.html
User-agent: sg-Orbiter
Disallow: /

# http://commoncrawl.org/faq/
User-agent: CCBot
Disallow: /

# https://www.qwant.com/
User-agent: Qwantify
Disallow: /

# http://linkfluence.net/
User-agent: Kraken
Disallow: /

# http://www.botje.com/plukkie.htm
User-agent: plukkie
Disallow: /

# https://www.safedns.com/searchbot
User-agent: SafeDNSBot
Disallow: /

# http://www.haosou.com/help/help_3_2.html
User-agent: 360Spider
Disallow: /

# http://www.haosou.com/help/help_3_2.html
User-agent: HaosouSpider
Disallow: /

# http://www.moz.com/dp/rogerbot
User-agent: rogerbot
Disallow: /

# http://www.openhose.org/bot.html
User-agent: OpenHoseBot
Disallow: /

# http://www.screamingfrog.co.uk/seo-spider/
User-agent: Screaming Frog SEO Spider
Disallow: /

# http://thumbsniper.com
User-agent: ThumbSniper
Disallow: /

# http://www.radian6.com/crawler
User-agent: R6_CommentReader
Disallow: /

User-agent: ImplisenseBot
Disallow: /

# http://cliqz.com/company/cliqzbot
User-agent: Cliqzbot
Disallow: /

# https://www.aihitdata.com/about
User-agent: aiHitBot
Disallow: /

# http://www.trendiction.com/en/publisher/bot
User-Agent: trendictionbot
Disallow: /

# http://seocompany.store
User-Agent: adscanner
Disallow: /

# https://github.com/yasserg/crawler4j/
User-Agent: crawler4j
Disallow: /

# http://warebay.com/bot.html
User-agent: WBSearchBot
Disallow: /

User-agent: Python/3.5 aiohttp
Disallow: /

User-agent: Toweya.com
Disallow: /

# http://www.website-datenbank.de/
User-agent: netEstate
Disallow: /

# http://law.di.unimi.it/BUbiNG.html
User-agent: BUbiNG
Disallow: /

# http://www.linguee.com/bot; bot@linguee.com
User-agent: Linguee
Disallow: /

# https://www.semrush.com/bot/
User-agent: SemrushBot
Disallow: /

User-agent: SemrushBot-SA
Disallow: /

# www.sentibot.eu
User-agent: sentibot
Disallow: /
User-agent: SentiBot
Disallow: /

# http://velen.io
User-agent: VelenPublicWebCrawler
Disallow: /

User-agent: DomainCrawler
Disallow: /

# https://moz.com/help/guides/moz-procedures/what-is-rogerbot
User-agent: rogerbot
Disallow: /

User-agent: IndeedBot
Disallow: /

# http://www.garlik.com
User-agent: GarlikCrawler
Disallow: /

# https://www.gosign.de/typo3-extension/typo3-sicherheitsmonitor/
User-agent: Gosign-Security-Crawler
Disallow: /

# http://www.siteliner.com/bot
User-agent: Siteliner
Disallow: /

# https://sabsim.com
User-agent: SabsimBot
Disallow: /

# http://ltx71.com/
User-agent: ltx71
Disallow: /

# END
#Приватбанк фашисты. В нём ненавидят людей старшего возраста


cema

  • Гость
Re: О неполезных ботах или пауках
« Ответ #1 : 12, Октября 2020, Понедельник, 10:40:42 am »
Можно ещё сделать так, что все запросы вернутся к хозяину бота, только я не помню скрипта. Да и нужно ли это?


Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 85789
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О неполезных ботах или пауках
« Ответ #2 : 12, Октября 2020, Понедельник, 13:32:56 pm »
Можно ещё сделать так, что все запросы вернутся к хозяину бота, только я не помню скрипта. Да и нужно ли это?
Не нужно. Для кого-то они могут быть полезны. Например, для брендов или политиков, которым нужно отслеживать появление чернухи на них. Или ещё чего-то. Некоторые неплохо продвинулись в семантическом анализе и определении тональности информации или отзыва.
#Приватбанк фашисты. В нём ненавидят людей старшего возраста

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 85789
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О неполезных ботах или пауках
« Ответ #3 : 15, Апреля 2021, Четверг, 07:55:26 am »
Huawei прислал своего PetalBot. PetalBot - это робот поисковой системы «Petal Search» от компании Huawei (первый выпуск которой был объявлен 19 июня 2020 года). Подробнее о поисковой системы "Petal Search" можно узнать из официального источника - Просмотр ссылок доступен только зарегистрированным пользователям

PetalBot является также "вежливым ботом" и периодически запрашивает файл "/robots.txt" для того, чтобы следовать указаниям вебмастера сайта. Это бот, как и многие другие индексирующие роботы поисковых систем, запрашивает страницы сайта и изображения. Не замечено, чтобы бот запрашивал JS и CSS файлы, следовательно визуальная составляющая его не интересует, только контент.
#Приватбанк фашисты. В нём ненавидят людей старшего возраста

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 85789
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О неполезных ботах или пауках
« Ответ #4 : 15, Апреля 2021, Четверг, 10:01:48 am »
Потестировал веб-версию Petal Search, такое себе. Я так понимаю, что основное назначение всё-таки мобильное и это поиск приложений в условиях недоступности Google Play.
#Приватбанк фашисты. В нём ненавидят людей старшего возраста

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 85789
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О неполезных ботах или пауках
« Ответ #5 : 18, Апреля 2021, Воскресенье, 09:10:26 am »
В бан отправились Tesonet (Просмотр ссылок доступен только зарегистрированным пользователям Литва) и Крибрум. Вроде бы этого хватает, чтобы не выбивало ошибку 503. Литовцы вообще классные ребята - дидосят по полной и заодно у себя на сайте предлагают бизнес-хостинг. Это как одновременно писать зловреды и заниматься кибербезопасностью.  :D

Хостинг для бизнеса

Tesonet знает, что создание веб-сайта и создание сильного онлайн-присутствия очень важно. Быстрая загрузка, стабильность во время пиков трафика, несколько уровней безопасности на уровне сервера - все что угодно. Мы можем позаботиться обо всех технических вопросах, чтобы наши партнеры могли без проблем пользоваться преимуществами сверхмощного хостинга.
#Приватбанк фашисты. В нём ненавидят людей старшего возраста

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 85789
  • Пол: Мужской
  • Есть вопросы? Пишите в личку
    • Награды
Re: О неполезных ботах или пауках
« Ответ #6 : 08, Июня 2021, Вторник, 08:13:15 am »
Huawei прислал своего PetalBot. PetalBot - это робот поисковой системы «Petal Search» от компании Huawei (первый выпуск которой был объявлен 19 июня 2020 года)
Неимоверно активизировался этот самый Петалбот. По времени совпало с активным продвижением их ОС Гармонь 2.0
#Приватбанк фашисты. В нём ненавидят людей старшего возраста

Оффлайн sashaupsk

  • Много вижу, много слышу, много знаю, но молчу - я типа СКРОМНЫЙ!
  • Маститый писатель
  • **
  • Сообщений: 332
  • Пол: Мужской
  • Когда жизнь экзаменует, первыми сдают нервы.
    • Награды
Re: О неполезных ботах или пауках
« Ответ #7 : 08, Июня 2021, Вторник, 09:04:47 am »
Huawei прислал своего PetalBot. PetalBot - это робот поисковой системы «Petal Search» от компании Huawei (первый выпуск которой был объявлен 19 июня 2020 года)
Неимоверно активизировался этот самый Петалбот. По времени совпало с активным продвижением их ОС Гармонь 2.0
а не з Кличком там часом є зв'язки?))) ПЕДАЛбот