И.Ашманов:"Продвижение сайта в поисковых системах" |
Страница 229 из 278 Большинство поисковых роботов имеют свое уникальное имя (кроме тех роботов, которые по каким-то причинам маскируются под пользовательские браузеры). Имя робота можно увидеть в поле User-agent серверных лог-файлов, отчетах систем серверных статистик, а также на страницах помощи поисковых систем. Так, робота Яндекса собирательно называют Yandex, робота Рамблера — StackRambler, робота Yahoo! — Slurp и т.д. Даже пользовательские программы, собирающие контент для последующего просмотра, могут специальным образом представляться с помощью информации в поле User-agent. Кроме имени робота, в поле User-agent может находиться больше информации:версия робота, предназначение и адрес страницы с дополнительной информацией. Приведем в качестве примера полное имя робота Google (рис. А.1) ![]() Еще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу. В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 "Как сделать сайт доступным для поисковых систем". В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter — робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы. Даже в имени основного робота Яндекса можно найти эхо минувших дней:фрагмент его полного имени "compatible; Winl6;" был добавлен для совместимости с некоторыми старыми веб-серверами. 248 Приложение А |
