Как сделать сайт доступным для поисковых систем

  • Факторы, влияющие на индексацию сайта
  • Управление индексацией сайта
  • Выводы

В данной главе вы узнаете о том, как добиться корректной индекса ции сайта, что нужно сделать, чтобы поисковая система включила страницы вашего сайта в список доступных для поиска, и как можно управлять индексацией страниц.

Факторы, влияющие на индексацию сайта

Из главы 1 «Предложение и поиск информации в Интернете» вы узнали, почему важно, чтобы сайт появился в результатах поиска. Для этого поисковая система должна включить страницы сайта в свой индекс. Об устройстве поисковиков вы прочитали в предыдущей главе. Теперь поговорим о том, как сделать так, чтобы робот поисковика беспрепятственно проиндексировал ваш сайт, а также о том, как можно управлять поведением поискового робота на сайте.

Можно выделить несколько факторов, которые оказывают значительное влияние на индексацию страниц сайта и дальнейшее ранжирование ссылок на документы в результатах поиска на поисковых системах. Рассмотрим их подробно.

Адреса страниц

Как вы помните из предыдущей главы, «знакомство» поискового робота и вашего сайта начинается с того, что робот заносит адреса страниц сайта в список для последующей индексации.

Статические адреса

Если на сайте всего несколько страниц с текстами, то обычно адрес у таких страниц имеет вид www . si te . ru/sorvice . html. Такие страницы представляют собой обычный HTML-файл, находящийся на веб-сервере, содержимое этой страницы одинаково и для каждого посетителя, зашедшего на сайт, и для поискового робота, т.е. оно статическое. Адреса таких страниц называют статическими. Это самый простой вариант адресов, и поисковые роботы успешно индексируют такие страницы.

Динамические адреса

Когда сайт становится большим, на нем часто обновляется информация или существует регистрация пользователей для входа в скрытые разделы, то создать такой сайт на статических страницах будет очень трудно. В этом случае используют серверные скрипты — программы, написанные на языках веб-программирования (PHP, Perl, ASP, JSP или CFML), которые выполняются сервером. Получается, что страниц сайта как бы не существует в виде готовых файлов — они создаются серверными скриптами при обращении к серверу и потом показываются пользователю или поисковому роботу. Адреса у таких страниц характеризуются как расширением файлов (.php, .pJ, . cqi, . jsp), так и наличием в адресе символов ?, &, -, например www.site.ru/script.php? pacTC-yervice&mode=show.

В настоящее время основные поисковые системы успешно работают с динамическими страницами, но с некоторыми оговорками. В некоторых поисковых системах квоты на количество индексируемых страниц отличаются для динамических и статических страниц (надо сказать, не в пользу первых). Поэтому на сайте желательно иметь статические адреса страниц, даже если страницы создаются динамически с помощью скриптов.

Привести адреса страниц к псевдостатическому виду можно с помощью инструкций в файле .htaccess, который позволяет настраивать работу веб-сервера Apache в каждом каталоге вашего сайта. Здесь мы не будем углубляться в технические подробности, поскольку о настройке этого файла вы сможете прочитать на специализированных сайтах, ссылки на которые приведены в конце главы. Отметим еще, что в результате мы не только поможем поисковому роботу индексировать наш сайт, но и получим легко запоминающиеся адреса страниц. Например, динамический адрес из предыдущего абзаца в псевдостатическом виде может выглядеть так: www . site . ru/service/.

Вид адресов страниц

Если вы хотите использовать в имени HTML-страницы несколько слов, можете соединить их тремя способами: написать слитно, разделить дефисом (-) или знаком подчеркивания (_).

Некоторые поисковики, например Google, при ранжировании страниц учитывают найденные ключевые слова в названии домена, директорий и файлов и придают немного больший вес таким страницам. Значит, для нас важно, чтобы слова в имени страницы были учтены поисковым роботом. Для этого в качестве знака разделителя между словами нужно использовать дефис, так как знак подчеркивания не является для поискового робота разделителем слов. Если несколько слов в адресе страницы разделены знаком подчеркивания, то робот увидит одно большое неизвестное ему слово, так что лучше называть файлы realty-brokeг-service . html, а не realty broker service.html.

Если на сайте адреса страниц приводятся из динамического в исевдостати-ческий вид, то может возникнуть вопрос: какой вид адреса для индексирования поисковиком лучше — с расширением файла (www . site . ru/realty-broker-service.html) или без (www.site.ru/realty-broker-service/). В первом случае все хорошо — робот поисковика сразу принимает с сайта HTML-файл. Во втором случае появляется одна особенность: дело в том, что браузер Internet Explorer, как и робот поисковой системы Yahoo, отбрасывает завершающий слеш в адресе, даже если он явно указан. Поэтому вам нужно будет настраивать обработку адресов в файле .htaccess так, чтобы они создавали еще один адрес страницы — без слеша. Получается, что сервер выполняет двойную работу. В случае с небольшим или средним по размеру сайтом это не страшно, но если на сайте несколько тысяч страниц, то желательно заранее обдумать вид адресов страниц и избежать лишних нагрузок.

Работа серверных скриптов

В работе серверных скриптов и настройках веб-сервера часто скрыто довольно много факторов, оказывающих огромное влияние на индексацию сайта роботами поисковых систем.

Заголовки HTTP

Прежде всего нужно правильно настроить работу сервера и серверных скриптов с заголовками HTTP .

Протокол HTTP — это язык, на котором клиент (например, браузер или поисковый робот) и сервер вашего сайта «разговаривают» с помощью запросов и откликов. При каждом запросе к серверу браузер или робот поисковика передает служебную информацию в HTTP-заголовках.

Заголовки HTTP это служебная информация, которой обмениваются клиент и веб-сервер (например, поддерживаемые браузером типы данных, тип передаваемых данных, адрес ссылающейся страницы, с которой перешел посетитель, и т.д.).

Некоторые роботы могут обращаться к серверу вашего сайта с нестандартными служебными заголовками. Если сервер не имеет нужных настроек, то он выдаст роботу сообщение об ошибке или совсем другую страницу, тогда как в браузере посетителя по этому адресу выводится правильная страница. В результате нужная страница не попадет в индекс поисковика, а робот может и не вернется долгое время по этому адресу. Поэтому важно проверять корректную обработку сервером служебных заголовков. Более подробную информацию вы при желании сможете1 почерпнуть в статьях, ссылки на которые приведены в конце главы.

Дата изменения страницы

Чем чаще на вашем сайте изменяется информация и добавляются новые страницы, тем чаще будет приходить на сайт робот поисковой машины. Допустим, мы знаем, что на сайте есть страницы, которые не изменились (например, архив новостей), и есть обновленные страницы или совсем новые. Нам важно, чтобы поисковик проиндексировал свежие страницы, а старые лишний раз не скачивал. Но поисковая машина не знает того, что знаем мы.

Чтобы понять, изменилась ли страница с момента последнего визита робота, поисковик должен ее заново скачать к себе и сравнить с предыдущей версией. Бели страница содержит значимые изменения, то ее копия в индексе заменяется новой, если нет, то в индексе остается ранее скачанный вариант. Получается, что робот занят скачиванием не изменившихся страниц, а на новые у него не хватает времени. Кроме того, что в индекс не попадают новые страницы, большие сайты могут столкнуться с еще одной проблемой — неоправданной нагрузкой на сервер. Для того чтобы избежать этого, можно настроить на сервере обработку даты создания и изменения страниц. Если такая настройка включена, то при запросе поискового робота какой-то страницы сервер будет сообщать роботу дату последнего изменения этой страницы. Тогда те страницы, которые не были изменены с даты прошлого прихода робота, не будут скачиваться еще раз, а робот будет больше уделять внимания новым или изменившимся страницам.

О том, как настроить обработку даты изменения страницы, мы расскажем ниже.

Сессии и дубликаты

Если на сайте предусмотрена возможность регистрации пользователя (например, форум), важно как-то запоминать, когда он последний раз был на сайте, какие страницы посещал, какие настройки сделал, и т.д. Для этого существует механизм сессий — уникальные идентификаторы для каждого посетителя сайта.

У обычного пользователя идентификатор сессии хранится в записях cookie браузера, но бывает и так, что в браузере настройки установлены таким образом, что cookie отключены. Если посетитель приходит на сайт с отключенными cookie, то, для того, чтобы проследить его действия на сайте, к каждому адресу страницы добавляется идентификатор сессии (комбинация символов). Такие адреса могут выглядеть так: www. site . ru/forum. asp?topic=135&session ID=42 4 87E3 9A2B0 427 9A42 62 3E5 9DFF.

Cookie (от англ. cookie печенье) специальная текстовая строка, хранимая на компьютере пользователя, с помощью которой каждый сайт может «пометить» браузер пользователя. При повторном обращении сайт считывает значение cookie и «узнает» пользователя.

Поисковые роботы не могут принимать cookie, поэтому получают идентификатор сессии в адресе страницы, как те пользователи, у которых cookie отключены. Каждый раз, когда робот приходит на сайт, в котором используется механизм сессий, ему присваивается разный идентификатор, который добавляется к адресам страниц, и каждый раз одни и те же страницы для робота имеют разные адреса. После нескольких заходов на сайт в разное время поисковый робот имеет огромные списки одних и тех же страниц с разными идентификаторами сессий. В результате расходуются ресурсы сервера, а очередь до индексирования действительно важных страниц может и не дойти.

Еще одной проблемой для крупных сайтов могут стать дубликаты страниц. После того как на сайте была изменена адресация страниц, может возникнуть ситуация, когда для каждой страницы сайта существует еще несколько ее копий. Приведем в качестве примера несколько адресов, которые для робота будут разными страницами, но на самом деле ведут на одну и ту же страницу (предположим, что на сайте были введены псевдостатические адреса):

  • www.site.ru/script.php?page=service&mode=show
  • www.site.ru/service/
  • www.site.ru/service.html
  • www.site.ru/service.htm

Если на этом сайте, к примеру, было 1000 страниц, то поисковая система получит 4000 ссылок, а позже вынуждена будет выбирать из четырех копий наиболее релевантную страницу на сайте. Чтобы этого не случилось, нужно проверять страницы сайта и исключать ситуации, когда по нескольким разным адресам находятся совершенно одинаковые страницы.

Отдельно следует отметить механизм Яндекса по удалению дубликатов: когда количество одинаковых страниц сайта достигает определенного порога, запускается специальная программа, которая удаляет лишние страницы из индекса поисковой системы. Иногда после такой процедуры в индексе просто не остается документов с сайта, и процесс индексации начинается с самого начала.

Код страниц

Основная часть информации в Интернете — это тексты в формате HTML. Веб-страница представляет собой текст, размеченный HTML-кодом (процесс разметки называется версткой). Поисковик, после того, как выкачает страницу, начинает ее разбирать — отделять текст от HTML-кода (об этом вы читали в предыдущей главе). От того, насколько корректно составлен HTML-код страницы, зависит то, насколько правильно робот проиндексирует страницу.

Кроме того, HTML-код страниц — один из основных внутренних факторов, важных для успешного позиционирования страниц сайта в результатах поиска. Поисковики стараются распознать логическую структуру текста — заголовки, логические акценты на наиболее важных словах. Для этого в языке HTML существуют специальные средства- теги’, например <title>, <hl>-<h6>, <strong>,<em>.

При создании дизайна и верстке страниц часто возникают ошибки.

  • Визуальное оформление заголовков и слов в тексте с помощью устаревшего тега <f ont>. В этом случае не используются нужные теги заголовков,полужирного шрифта или курсива, из-за чего важность страницы для поискового робота может уменьшиться и шансов попасть на верхние строчки станет меньше.
  • Позиционирование элементов страницы с помощью большого количества вложенных таблиц. Это усложняет работу со страницей как вам, таки роботу. В результате вашей опечатки или ошибки в работе поисковогоробота может произойти неправильная индексация страницы, из-за чегов индексе поисковика окажется совсем не то, что бы нам хотелось.
  • «Избыточность» кода. Случается, что в HTML-код страницы вноситсямного лишних тегов, комментариев и элементов оформления. Это «утяжеляет» страницу и мешает поисковому роботу правильно определитьважную информацию на странице.
  • Использование графики вместо текста. (Об этом мы говорили в предыдущей главе.) Поисковая машина не распознает текст, изображенный накартинке. Как бы вам не хотелось разместить на странице красивую картинку с заголовком статьи, лучше сделать это обычным текстом, чтобыпоисковик смог «прочитать» его.
  • Использование клиентских скриптов (сценариев) вместо текстовых ссылок. Клиентские скрипты — это программы, которые выполняются в браузере пользователя. Наиболее распространенные языки программирования подобных программ — JavaScript и VBScript. Такие скрипты позволяют вебмастеру создавать красивые и удобные раскрывающиеся менюдля навигации по сайту. Но поисковые роботы в большинстве случаев невыполняют код сценариев на JavaScript и VBScript или выполняют егов ограниченном объеме, поэтому не могут обнаружить и проиндексироватьвнутренние страницы сайта, если ссылки на них сделаны с помощью такихсредств. Поэтому, если вы хотите использовать на сайте раскрывающеесяменю, нужно выбрать такой вариант их реализации, чтобы в меню стояли обычные текстовые ссылки и чтобы робот мог «пройти» по этим ссылкам.
  • Игнорирование при верстке CSS . Использование стилей позволяет отделить определение внешнего вида текста от его содержания. Указывать стили можно непосредственно на HTML-странице, а можно вынести их в специальный стилевой файл, который будет загружаться браузером пользователя автоматически. Стили оформления не распознаются поисковыми системами, поэтому их желательно не писать в коде веб-страниц, а размещать в отдельных файлах CSS.

HTML-теги служебные символы, представляющие собой команды языка HTML, которые указывают браузеру, как следует отображать данные на веб странице.

Подробнее на элементах, повышающих вес страницы в «глазах» поисковика, мы остановимся в главе 11 «Внутренние факторы, от которых зависит положение сайта в результатах поиска» и главе 12 «Коррекция сайта с целью продвижения в поисковых системах».

Posted in Продвижение сайта в поисковых системах.