Роботы поисковых систем

  • Определения и терминология
  • Имена роботов
  • Немного истории
  • Что делают роботы поисковых систем
  • Поведение роботов на сайте
  • Управление роботами
  • Выводы

Что такое роботы поисковых систем? Какую функцию они выполняют? Каковы особенности работы поисковых роботов? Здесь мы постараемся дать ответ на эти и некоторые другие вопросы, связанные с работой роботов.

Определения и терминология

В английском языке существует несколько вариантов названий поисковых роботов: robots, web bots, crawlers, spiders; в русском языке фактически прижился один термин — роботы, или сокращенно — боты.

На сайте www. robotstxt. org дается следующее определение роботам:

«Веб-робот — это программа, которая обходит гипертекстовую структуру WWW, рекурсивно запрашивая и извлекая документы».

Ключевое слово в этом определении — рекурсивно, т.е. имеется в виду, что после получения документа робот будет запрашивать документы по ссылкам из него и т.д.

Имена роботов

Большинство поисковых роботов имеют свое уникальное имя (кроме тех роботов, которые по каким-то причинам маскируются под пользовательские браузеры).

Имя робота можно увидеть в поле User-agent серверных лог-файлов, отчетах систем серверных статистик, а также на страницах помощи поисковых систем.

Так, робота Яндекса собирательно называют Yandex, робота Рамблера — StackRambler, робота Yahoo! — Slurp и т.д. Даже пользовательские программы, собирающие контент для последующего просмотра, могут специальным образом представляться с помощью информации в поле User-agent.

Кроме имени робота, в поле User-agent может находиться больше информации: версия робота, предназначение и адрес страницы с дополнительной информацией.

Немного истории

Еще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу.

В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 «Как сделать сайт доступным для поисковых систем».

В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter — робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы.

Даже в имени основного робота Яндекса можно найти эхо минувших дней: фрагмент его полного имени «compatible; Win16;» был добавлен для совместимости с некоторыми старыми веб-серверами.

Что делают роботы поисковых систем

Какие же функции могут выполнять роботы?

В поисковой машине функционирует несколько разных роботов, и у каждого свое предназначение. Перечислим некоторые из задач, выполняемых роботами:

  • обработка запросов и извлечение документов;
  • проверка ссылок;
  • мониторинг обновлений;проверка доступности сайта или сервера;
  • анализ контента страниц для последующего размещения контекстнойрекламы;
  • сбор контента в альтернативных форматах (графика, данные в форматахRSSnAtom).
В качестве примера приведем список роботов Яндекса. Яндекс использует несколько видов роботов с разными функциями. Идентифицировать их можно по строке User-agent.
  1. Yandex/1.01.001 (compatible; Win 16; I) —основной индексирующий робот.
  2. Yandex/1.01.001 (compatible; Win 16; P) —индексатор картинок.
  3. Yandex/1.01.001 (compatible; Win 16; H) —робот, определяющийзеркала сайтов.
  4. Yandex/1.03.003 (compatible; Win 16; D) —робот, обращающийсяк странице при добавлении ее через форму «Добавить URL».
  5. Yandex/1.03.000 (compatible; Win 16; М) — робот, обращающийсяпри открытии страницы по ссылке «Найденные слова».
  6. YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; В;robot) — робот, индексирующий xml-файлы для поиска по блогам.
  7. YandexSomething/1.0 — робот, индексирующий новостные потоки партнеров Яндекс.Новостей и файлы robots. txt для робота поиска по блогам.
Кроме того, в Яндексе работает несколько проверяющих роботов — «просту-кивалок», которые только проверяют доступность документов, но не индексируют их.
  1. Yandex/2.01.000 (compatible; Win 16; Dyatel; С) — «просту-кивалка» Яндекс.Каталога. Если сайт недоступен в течение несколькихдней, он снимается с публикации. Как только сайт начинает отвечать, онавтоматически появляется в каталоге.
  2. Yandex/2.01.000 (compatible; Win 16; Dyatel; Z) — «просту-кивалка» Яндекс.Закладок. Ссылки на недоступные сайты выделяютсясерым цветом.
  3. Yandex/2.01.000 (compatible; Win 16; Dyatel; D) —»простуки-валка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией.

И все-таки наиболее распространенные роботы — это те, которые запрашивают, получают и архивируют документы для последующей обработки другими механизмами поисковой системы. Здесь уместно будет отделить робота от индексатора.

Поисковый робот обходит сайты и получает документы в соответствии со своим внутренним списком адресов. В некоторых случаях робот может выполнять базовый анализ документов для пополнения списка адресов. Дальнейшей обработкой документов и построением индекса поисковой системы занимается уже индексатор поисковой машины. Робот в этой схеме является всего лишь «курьером» по сбору данных.

Поведение роботов на сайте

Чем отличается поведение робота на сайте от поведения обычного пользователя?

  1. Управляемость. Прежде всего «интеллигентный» робот должен запросить с сервера файл robots . txt с инструкциями по индексации.
  2. Выборочное выкачивание. При запросе документа робот четко указываеттипы запрашиваемых данных, в отличие от обычного браузера, готового принимать все подряд. Основные роботы популярных поисковиков в первую очередь будут запрашивать гипертекстовые и обычные текстовые документы, оставляя без внимания файлы стилен оформления CSS, изображения, видео. Zip-архивы и т.п. В настоящее время также востребована информация в форматах PDF, Rich Text, MS Word, MS Excel и некоторых других.
  3. Непредсказуемость. Невозможно отследить или предсказать путь роботано сайту, поскольку он не оставляет информации в поле Referer — адресстраницы, откуда он пришел; робот просто запрашивает список документов, казалось бы, в случайном порядке, а на самом деле в соответствии сосвоим внутренним списком или очередью индексации.
  4. Скорость. Небольшое время между запросами разных документов. Здесьречь идет о секундах или долях секунды между запросами двух разныхдокументов. Для некоторых роботов есть даже специальные инструкции,которые указываются в файле robots . txt, по ограничению скорости запроса документов, чтобы не перегрузить сайт.

Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления.

Таким образом, можно сделать вывод, что поисковые роботы закачивают в свой индекс HTML-структуру страницы, но без элементов оформления и без картинок.

Управление роботами

Как же вебмастер может управлять поведением поисковых роботов на своем сайте?

Как уже было сказано выше, в 1994 году в результате открытых дебатов вебмастеров был разработан специальный протокол исключений для роботов. До настоящего времени этот протокол так и не стал стандартом, который обязаны соблюдать все без исключения роботы, оставшись лишь в статусе строгих рекомендаций. Не существует инстанции, куда можно пожаловаться на робота, не соблюдающего правила исключений, можно лишь запретить доступ к сайту уже с помощью настроек веб-сервера или сетевых интерфейсов для IP-адресов, с которых «неинтеллигентный» робот отсылал свои запросы.

Однако роботы крупных поисковых систем соблюдают правила исключений, более того, вносят в них свои расширения.

Об инструкциях специального файла robots.txt. и о специальном мета-теге robots подробно рассказывалось в главе 6 «Как сделать сайт доступным для поисковых систем».

С помощью дополнительных инструкций в robots.txt, которых нет в стандарте, некоторые поисковые системы позволяют более гибко управлять поведением своих роботов. Так, с помощью инструкции Crawl-delaу вебмастер может устанавливать временной промежуток между последовательными запросами двух документов для роботов Yahoo! и MSN, а с помощью инструкции Но-; t указать адрес основного зеркала сайта для Яндекса. Однако работать с нестандартными инструкциями в robots . txi следует очень осторожно, поскольку робот другой поисковой системы может проигнорировать не только непонятную ему инструкцию, но и весь набор правил, связанных с ней.

Управлять посещениями поисковых роботов можно и косвенно, например, робот поисковой системы Google чаще будет повторно забирать те документы, на которые много ссылаются с других сайтов.

Выводы

Роботы — необходимая и очень важная составная часть поисковых систем. Если представить поисковую систему как «черный ящик», где выдача результатов поиска — это «выход» системы, то поисковые роботы — это «вход», на который поступают документы.

Если грамотно подавать свои страницы на этот «вход», управляя поведением поискового робота, можно добиться лучших результатов индексации — периодичности, полноты и лучшего ранжирования.

Posted in Продвижение сайта в поисковых системах.