Управление индексацией сайта

Поведением роботов поисковых систем в пределах сайта можно управлять. Мы рассмотрим лишь некоторые методы управления роботами поисковых систем.

Запрет индексации

Не все страницы на сайте имеет смысл отдавать на индексацию поисковому роботу. Например, если у вас есть форум, то служебные страницы поиска, карточек пользователей или списков участников, скорее всего, не будут иметь такой полезной информации, которую кто-то будет искать через поисковик. На форуме есть более важные и интересные страницы с обсуждениями и мнениями участников, — поэтому именно они должны быть проиндексированы в первую очередь.

Второй пример — версии страниц для печати. Вы наверняка видели на многих сайтах, где публикуются статьи или новости, ссылку на версию для печати — это страница с тем же самым текстом, но без навигационных ссылок, рекламы и другой лишней информации. Если человек попадет на такую страницу из результатов поиска, он увидит только текст статьи или новости, но не сможет перейти на другие страницы сайта, так как на ней нет меню.

Поэтому такие страницы, примеры которых приведены выше, нужно не показывать поисковому роботу, чтобы не засорять его индекс ненужной информацией, тем самым обратив его внимание на другие, более важные страницы сайта. Для этого можно запретить индексацию определенных страниц с помощью специальных инструкция для робота. Инструкции о запрещении индексации размещают или в файле исключений, robots.txt, или в специальном мета-теге, <МЕТА NAME=»ROBOTS»>. Расскажем об этом подробнее.

CSS (Cascading Style Sheets каскадные таблицы стилей ) это набор определенных свойств (стилей) для удобной настройки внешнего вида элементов веб-страницы.

Мета-тег ROBOTS

Мета-теги — это невидимая пользователю служебная информация о документе, находящаяся в самом начале HTML-страницы. Упрощенно структура кода страницы выглядит так:

<html>

<head> титул страницы, метатеги </head>

<body> текст, изображения </body>

</html>

Тег <html> — это главное обозначение типа страницы, означающее, что эта страница представляет собой HTML-документ. В теге <head> размещаются мета-теги, заголовок (тег <title>) страницы и другая служебная информация, не отображаемая в основном тексте страницы. В теге <body> размещается текст страницы и другая информация (например, картинки), которая отображается в браузере пользователя.

Мета-тег <meta name=»robots» content=»…»> служит специально для управления индексацией конкретной страницы. С помощью различных инструкций, указываемых в атрибуте content=»…», можно запрещать или разрешать индексацию страницы и проход роботом по ссылкам на странице. Подробнее об использовании мета-тега ROBOTS читайте в рекомендациях на сайтах поисковых систем, ссылки на которые вы найдете в конце главы.

Файл robots.txt

Файл robots . txt предназначен для хранения инструкций по индексированию сайта поисковыми роботами. Этот файл располагается в корневой директории сайта и запрашивается каждый раз при обращении робота к сайту.

Суть записей в этом файле проста — указываем кому и что запрещено индексировать на сайте. Инструкций для разрешения индексации в файле robots . txt не предусмотрено, поэтому отсутствие этого файла на сайте означает, что будут индексироваться все встречаемые роботом страницы. Вот простейший пример содержимого файла robots.txt:

User-agent: StackRambler Disallow: /cgi-bin/

Эти две строки означают, что поисковому роботу Рамблера запрещено индексировать любые файлы в директории cgi-bin. Так как эти инструкции предназначены только для робота Рамблера, значит, все остальные поисковики будут индексировать все, в том числе и директорию cgi-bin.

Как видно в этом примере, с помощью файла robots . txt можно запретить индексацию целой группы страниц, а не только одной. В конце главы вы найдете дополнительные ссылки, по которым находятся подробные рекомендации по использованию файла robots . txt.

Дата изменения документа

Выше мы уже говорили об HTTP-заголовках. А сейчас остановимся подробнее на одном из них.

В стандарте протокола HTTP существует специальный запрос с заголовком If-modified-Since. Если поисковый робот делает такой запрос к серверу, на котором находится ваш сайт, это означает, что он обращается к серверу с «просьбой» выдать страницу только в том случае, если она изменялась после заданной даты.

Если на странице не было никаких изменений за указанный срок, то сервер посылает ответ 304 Not Modified (документ не изменялся) и саму страницу не выдает. Робот тогда вправе оставить в индексе старую копию документа и сможет уделить больше внимания новым документам и документам с изменениями. В случае статических адресов страниц веб-сервер может сам правильно обработать такие запросы. Когда же страницы динамически формируются серверными скриптами, сервер самостоятельно не может определить, вносились ли в документ изменения или нет. В этом случае нужно программировать скрипты так, чтобы запросы обрабатывались программно для каждой формируемой страницы.

Корректная обработка запросов с датами изменений документов актуальна для сайтов с большим количеством страниц и позволяет направлять роботов на новые и обновленные документы. Тем не менее этим методом следует пользоваться с осторожностью, поскольку алгоритмы работы разных поисковых систем могут существенно отличаться, и, перефразируя известное изречение, можно сказать: «Что для Google хорошо, то для Яндекса — плохо».

Выводы

Влияние внутренних факторов на ранжирование страниц сайта в поисковых системах часто недооценивается специалистами по поисковому продвижению, а также вебмастерами, занимающимися продвижением сайта. Хотя именно работу с внутренними факторами можно выполнять достаточно оперативно и результативно. В отличие от работы с внешними ссылками возможность влиять на внутренние факторы всегда доступна вебмастеру. Например, вебмастер может самостоятельно выявить страницы, которые не нужно индексировать, и настроить соответствующим образом файл robots . txt.

Технические вопросы функционирования сайта и взаимодействия с роботами поисковых систем можно и нужно решать еще на этапе проектирования сайта до начала его разработки. Это позволит избежать возможных проблем и минимизировать дальнейшие доработки, часто дорогостоящие, превращающие оптимизацию сайтов в «работу над ошибками».

Но правильное выполнение технических требований — далеко не все, что необходимо для успешного продвижения сайта в поисковых системах. Ранее мы говорили, что поисковые системы являются «местом встречи» спроса на информацию и предложения информации. Владелец сайта предлагает информацию своим посетителям, и чтобы делать это эффективно, он должен хорошо знать особенности спроса, представлять, как пользователи могут искать в поисковых системах то, что он предлагает.

В следующей главе мы расскажем, как из миллионов поисковых запросов, которые вводят пользователи в поисковые системы, отобрать формулировки, наилучшим образом подходящие для продвижения вашего сайта.

Posted in Продвижение сайта в поисковых системах.