Роботы поисковых систем |
Что такое роботы поисковых систем? Какую функцию они выполняют? Каковы особенности работы поисковых роботов? Здесь мы постараемся дать ответ на эти и некоторые другие вопросы, связанные с работой роботов. Определения и терминологияВ английском языке существует несколько вариантов названий поисковых роботов: robots, web bots, crawlers, spiders; в русском языке фактически прижился один термин — роботы, или сокращенно — боты. На сайте www. robotstxt. org дается следующее определение роботам: "Веб-робот — это программа, которая обходит гипертекстовую структуру WWW, рекурсивно запрашивая и извлекая документы". Ключевое слово в этом определении — рекурсивно, т.е. имеется в виду, что после получения документа робот будет запрашивать документы по ссылкам из него и т.д. Имена роботовБольшинство поисковых роботов имеют свое уникальное имя (кроме тех роботов, которые по каким-то причинам маскируются под пользовательские браузеры). Имя робота можно увидеть в поле User-agent серверных лог-файлов, отчетах систем серверных статистик, а также на страницах помощи поисковых систем. Так, робота Яндекса собирательно называют Yandex, робота Рамблера — StackRambler, робота Yahoo! — Slurp и т.д. Даже пользовательские программы, собирающие контент для последующего просмотра, могут специальным образом представляться с помощью информации в поле User-agent. Кроме имени робота, в поле User-agent может находиться больше информации: версия робота, предназначение и адрес страницы с дополнительной информацией. Немного историиЕще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу. В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 "Как сделать сайт доступным для поисковых систем". В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter — робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы. Даже в имени основного робота Яндекса можно найти эхо минувших дней: фрагмент его полного имени "compatible; Win16;" был добавлен для совместимости с некоторыми старыми веб-серверами. Что делают роботы поисковых системКакие же функции могут выполнять роботы? В поисковой машине функционирует несколько разных роботов, и у каждого свое предназначение. Перечислим некоторые из задач, выполняемых роботами:
В качестве примера приведем список роботов Яндекса. Яндекс использует несколько видов роботов с разными функциями. Идентифицировать их можно по строке User-agent.
Кроме того, в Яндексе работает несколько проверяющих роботов — "просту-кивалок", которые только проверяют доступность документов, но не индексируют их.
И все-таки наиболее распространенные роботы — это те, которые запрашивают, получают и архивируют документы для последующей обработки другими механизмами поисковой системы. Здесь уместно будет отделить робота от индексатора. Поисковый робот обходит сайты и получает документы в соответствии со своим внутренним списком адресов. В некоторых случаях робот может выполнять базовый анализ документов для пополнения списка адресов. Дальнейшей обработкой документов и построением индекса поисковой системы занимается уже индексатор поисковой машины. Робот в этой схеме является всего лишь "курьером" по сбору данных. Поведение роботов на сайтеЧем отличается поведение робота на сайте от поведения обычного пользователя?
Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления. Таким образом, можно сделать вывод, что поисковые роботы закачивают в свой индекс HTML-структуру страницы, но без элементов оформления и без картинок. Управление роботамиКак же вебмастер может управлять поведением поисковых роботов на своем сайте? Как уже было сказано выше, в 1994 году в результате открытых дебатов вебмастеров был разработан специальный протокол исключений для роботов. До настоящего времени этот протокол так и не стал стандартом, который обязаны соблюдать все без исключения роботы, оставшись лишь в статусе строгих рекомендаций. Не существует инстанции, куда можно пожаловаться на робота, не соблюдающего правила исключений, можно лишь запретить доступ к сайту уже с помощью настроек веб-сервера или сетевых интерфейсов для IP-адресов, с которых "неинтеллигентный" робот отсылал свои запросы. Однако роботы крупных поисковых систем соблюдают правила исключений, более того, вносят в них свои расширения. Об инструкциях специального файла robots.txt. и о специальном мета-теге robots подробно рассказывалось в главе 6 "Как сделать сайт доступным для поисковых систем". С помощью дополнительных инструкций в robots.txt, которых нет в стандарте, некоторые поисковые системы позволяют более гибко управлять поведением своих роботов. Так, с помощью инструкции Crawl-delaу вебмастер может устанавливать временной промежуток между последовательными запросами двух документов для роботов Yahoo! и MSN, а с помощью инструкции Но-; t указать адрес основного зеркала сайта для Яндекса. Однако работать с нестандартными инструкциями в robots . txi следует очень осторожно, поскольку робот другой поисковой системы может проигнорировать не только непонятную ему инструкцию, но и весь набор правил, связанных с ней. Управлять посещениями поисковых роботов можно и косвенно, например, робот поисковой системы Google чаще будет повторно забирать те документы, на которые много ссылаются с других сайтов. ВыводыРоботы — необходимая и очень важная составная часть поисковых систем. Если представить поисковую систему как "черный ящик", где выдача результатов поиска — это "выход" системы, то поисковые роботы — это "вход", на который поступают документы. Если грамотно подавать свои страницы на этот "вход", управляя поведением поискового робота, можно добиться лучших результатов индексации — периодичности, полноты и лучшего ранжирования.
|
Поисковая оптимизация. С чего все начинаетсяПоисковая оптимизация - это комплекс работ над сайтом и внешними факторами для достижения наилучших позиций в поисковых системах в соответствии с выбранными ключевыми словами. Поисковую оптимизацию можно разделить на внутреннюю и внешнюю. Внутренняя оптимизация сайта направлена на работу с самим сайтом. Читать полностью |
Оптимизация сайтов под поисковые системы"Найдётся всё!" - говорит Yandex , обнадёживая тем самым пользователей. Но кто обнадёжит владельцев сайтов, которые хотят, чтобы "нашёлся" именно их Интернет-ресурс? Итак, попробуем разобраться, что же такое поисковая оптимизация сайтов и что она может дать с точки зрения потребностей каждого конкретного владельца сайта. Читать полностью |
Навигационные запросыПримерно каждый десятый запрос к Яндексу – «навигационный», то есть состоит из названия организации или сайта и пользователь хочет перейти на сайт этой организации. В этом случае поисковая строка Яндекса используется вместо адресной строки браузера и остальные девять поисковых результатов пользователя, как правило, не интересуют. Не отвлекая пользователя от главной цели, мы добавили после... Читать полностью |
Продвижение сайта и уникальность контентаВы, наверное, не раз попадали на разные сайты с совершенно одинаковым содержанием. А тем временем Яндекс продолжает настаивать на уникальности контента и призывать к этому владельцев сайтов и веб-мастеров. Уникальный контент способен сделать результаты поиска более объективными и более разнообразными по содержанию. Тут возникает вопрос: кто же наиболее заинтересован в оригинальности содержания:... Читать полностью |
