Я уже писал о любопытном роботе Google, но вот за последнюю пару дней за неблаговидным занятием индексации страниц, запрещенных в robots.txt замечен бот яндекса:

С первого взгляда может показаться, что это бот, который выкачивает RSS ленту для перепоста на другой ресурс, т.е. это «качалка» для говносайта, но это не так.
Смотрим whois:
по данным RIPE:
% This is the RIPE Database query service.
% The objects are in RPSL format.
%
% The RIPE Database is subject to Terms and Conditions.
% See http://www.ripe.net/db/support/db-terms-conditions.pdf
% Note: this output has been filtered.
% To receive output for a database update, use the «-B» flag.
% Information related to ’95.108.147.0 – 95.108.147.255′
inetnum: 95.108.147.0 – 95.108.147.255
netname: YANDEX-95-108-147
descr: Yandex enterprise network
country: RU
admin-c: YNDX1-RIPE
tech-c: YNDX1-RIPE
remarks: INFRA-AW
status: ASSIGNED PA
mnt-by: YANDEX-MNT
source: RIPE # Filtered
% Information related to ’95.108.128.0/17AS13238′
route: 95.108.128.0/17
descr: Yandex enterprise network
origin: AS13238
mnt-by: YANDEX-MNT
source: RIPE # Filtered
То есть это бот Яндекса на все сто.
Теперь заглянем в наш robots.txt, привожу фрагмент:
User-Agent: Yandex
Disallow: /about
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Забавно, не правда ли?
Теперь перейдем на страничку Яндекс.Вебмастер и проверим один из проиндексированных URL:

Ага, в robots.txt у нас ошибки нет. Замечательно, значит все URL имеющие маску */feed* запрещены к индексации. Но почему туда заходит поисковый бот?
Есть еще один любопытный документ, где на третьей странице черным по белому:
Поскольку поисковый робот Яндекса не производит активных действий на сайте, в индекс попадает только та информация, для доступа к которой не требуется производить дополнительных действий, например, регистрироваться на сайте, отправлять SMS, вводить какой-нибудь код или дополнительный запрос.
Иными словами, робот Яндекса не индексирует так называемый «глубинный веб» (от англ. «deep web»).
С точки зрения Яндекса страницы по маске URL */feed* совсем не «deep web»? Да эти страницы вообще не должны быть проиндексированы!
Объяснений вижу несколько:
1. Яндекс намеренно или ненамеренно вводит вебмастеров в заблуждение
2. Deep web Яндекс всеже индексирует
3. Цель индексации запрещенных страниц это поиск всевозможных махинаций со стороны вебмастеров (дабл контент, неуникальность, клоакинг)
Методы борьбы с этим злом пока не до конца ясны, как вариант – отдавать ботам страницу по клоакингу или банить бота по IP при попытке пройти на запрещенную страницу.