Посещения сайтов ботами

Ровно неделю назад на нескольких сайтах настроил сбор статистики посещения. Требовалось оценить нагрузку сайтов от поисковых ботов и прочих роботов. Поэтому, собирались только строки из USER_AGENT, которые заносились в общую таблицу БД.

Честно говоря, результаты меня удивили. Приведу их:

HTTP_USER_AGENT Кол-во запросов
Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)  15187
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)  12193
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)  7589
Mozilla/5.0 (compatible; MJ12bot/v1.4.7; http://mj12bot.com/)  7110
BitrixCloud Monitoring/1.0  2734
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)  2466
Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36  2168
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 YaBrowser/17.3.1.840 Yowser/2.5 Safari/537.36  2051
Mozilla/5.0 (compatible; SemrushBot/1.2~bl; +http://www.semrush.com/bot.html)  1881
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36  1737

При этом, общее количество запросов - 127865.

Расчеты в данном случае несложные. Например, только из первой десятки поисковые и другие роботы (не включая BitrixCloud Monitoring/1.0) создают более 30% нагрузки. Думаю, если подсчитать всех роботов, то нагрузка будет около 50%, может быть и выше. Также, некоторых ботов просто невозможно учесть, т.к.они маскируются под обычные браузеры.

Вывод однозначный: нагрузка на сайт от ботов не такая уж и маленькая, чтобы на это не обращать внимания. Поэтому, в целях снижения нагрузки советую поставить блокировку сайта для ботов. Это можно сделать разными способами - через .htaccess, nginx, либо на крайний случай php. Есть еще один интересный способ - создать отдельный php-файл для блокировки (можно реализовать любые типы блокировок [по User-Agent, Referer, IP и др], сделать интиспам, и выполнять любые другие действия без привязки к CMS) и подключать его в .htaccess через php_value auto_prepend_file, где необходимо указать полный путь к данному файлу.

Спасибо за внимание! При появлении вопросов - обращайтесь.


Автор: Денис Сон
Дата публикации: 05.04.2017
Просмотров: 189


Статья Вам помогла? Вы можете поблагодарить нас!

Комментарии

Евген
06.06.2017 11:55:50
Здравствуйте!
Подскажите, пожалуйста, что за роботы такие:
Riddler
Spider/Bot
Stratagems Kumo
Go-http-client/1.1
ia_archiver
Needle/1.6.0 (Node.js v6.5.0; linux x64)

Для чего они нужны и можно ли их заблокировать? Они создают значительную нагрузку, а толку от них пока не вижу.
Ответ администрации:
ia_archiver - насколько я знаю, это робот, собирающий историю сайтов для «машины времени»: web.archive.org.
По остальным подсказать не могу, т.к. не знаю точно.





По всем вопросам обращайтесь по нашим контактным данным:

Отзывы Все отзывы Написать отзыв

27.09.2017
Хочу сказать огромнейшее спасибо Денису. Мало того, что откликнулся минут за 10, так еще помог разобраться в проблеме с выводом текста в категориях буквально за пару писем :) А я два дня мучался в поисках решения...
Ребят, вы молодцы, доброе дело делаете :)
06.09.2017
Безмерно благодарна Денису!
Он смог выручить меня в трудную минуту.
Я являюсь котент-менеджером сайта, и по неосторожности что-то нажала, что публичная часть сайта исчезла. Денис отозвался на помощь, оперативно решил проблему и даже не взял за это денег!
После этого убедилась в высоком профессионализме Дениса.
Планируем заключить договор на обслуживание сайта и  надеюсь на дальнейшее долгосрочное сотрудничество!

04.04.2017
Денис - специалист своего дела!. Нет задачи, которую он бы не мог выполнить. Работаю с ним уже давно. Требовалось исправить и мелкие ошибки на сайте, и создать скрипты, реализовать на сайте некоторые пожелания, а также перенести сайт на новый шаблон. Ни разу меня не подводил. Работу делает быстро и качественно. Всегда на связи, всегда готов помочь. Огромное Вам спасибо!
27.02.2017
Денис безумно сильно нам помог. Обратился к нему так как очень давно он нам помог советом. Все началось с того что отказала вкладка маркетплейс , невозможно было обновить битрикс и установить нужные решения. Мы потратили неделю с другими программистами и толку ноль. Я написал Денису, он согласился помочь. Через 10 минут отписал что все готово проверьте.
Реально был в шоке. Вы помогли сохранить нервы и время . Если кто подумает что отзыв фэик то вот сайт akn-real.ru и телефоны на нем указаны можете позвонить я подтвержу без проблем.
27.12.2016
Сергей
Наверх