Любопытные роботы и deep web

Я уже писал о любопытном роботе Google, но вот за последнюю пару дней за неблаговидным занятием индексации страниц, запрещенных в robots.txt замечен бот яндекса:

robots

С первого взгляда может показаться, что это бот, который выкачивает RSS ленту для перепоста на другой ресурс, т.е. это «качалка» для говносайта, но это не так.

Смотрим whois:

Информация об IP-адресе 95.108.147.186

по данным RIPE:
% This is the RIPE Database query service.
% The objects are in RPSL format.
%
% The RIPE Database is subject to Terms and Conditions.
% See http://www.ripe.net/db/support/db-terms-conditions.pdf

% Note: this output has been filtered.
% To receive output for a database update, use the «-B» flag.

% Information related to ’95.108.147.0 – 95.108.147.255′

inetnum: 95.108.147.0 – 95.108.147.255
netname: YANDEX-95-108-147
descr: Yandex enterprise network
country: RU
admin-c: YNDX1-RIPE
tech-c: YNDX1-RIPE
remarks: INFRA-AW
status: ASSIGNED PA
mnt-by: YANDEX-MNT
source: RIPE # Filtered

% Information related to ’95.108.128.0/17AS13238′

route: 95.108.128.0/17
descr: Yandex enterprise network
origin: AS13238
mnt-by: YANDEX-MNT
source: RIPE # Filtered

То есть это бот Яндекса на все сто.

Теперь заглянем в наш robots.txt, привожу фрагмент:

User-Agent: Yandex
Disallow: /about
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed

Забавно, не правда ли?

Теперь перейдем на страничку Яндекс.Вебмастер и проверим один из проиндексированных URL:

feed

Ага, в robots.txt у нас ошибки нет. Замечательно, значит все URL имеющие маску */feed* запрещены к индексации. Но почему туда заходит поисковый бот?

Есть еще один любопытный документ, где на третьей странице черным по белому:

Поскольку поисковый робот Яндекса не производит активных действий на сайте, в индекс попадает только та информация, для доступа к которой не требуется производить дополнительных действий, например, регистрироваться на сайте, отправлять SMS, вводить какой-нибудь код или дополнительный запрос.

Иными словами, робот Яндекса не индексирует так называемый «глубинный веб» (от англ. «deep web»).

С точки зрения Яндекса страницы по маске URL */feed* совсем не «deep web»? Да эти страницы вообще не должны быть проиндексированы!

Объяснений вижу несколько:

1. Яндекс намеренно или ненамеренно вводит вебмастеров в заблуждение
2. Deep web Яндекс всеже индексирует
3. Цель индексации запрещенных страниц это поиск всевозможных махинаций со стороны вебмастеров (дабл контент, неуникальность, клоакинг)

Методы борьбы с этим злом пока не до конца ясны, как вариант – отдавать ботам страницу по клоакингу или банить бота по IP при попытке пройти на запрещенную страницу.