Бридж-страницы

Спам тегов <noframes>, или бриджстраницы

Оригинальное «хранилище» для текстов, предназначенных лишь поисковому роботу, было найдено при переходе рынка на новые версии браузеров.

Среди вебмастеров в то время стал популярным прием создания страниц на сайте с помощью тега <f rame> (в переводес англ. рама, каркас; произносится как «фрейм»). С помощью этого приема можно было как бы разделить всю отображаемую страницу на несколько площадей (фреймов) и показывать в каждой из них разный текст.

Новые браузеры, прекрасно отображающие фреймы, сосуществовали вместе со старыми версиями, которые не поддерживали фреймы. Поэтому в язык HTML был введен специальный тег, <nof rames>, содержимое которого должно было отображаться в случае, если пользователь открывает страницу в устаревшем браузере, не поддерживающем фреймы.

Поисковые системы прекрасно индексировали тексты, находящиеся в теге <nof rames>, поэтому на какое-то время сложилась парадоксальная ситуация. Поскольку практически у всех пользователей были уже новые браузеры и никаких проблем с просмотром фреймовых сайтов не возникало, легко можно было сложить специальный, «накачанный» текст для поисковых роботов в тег <nof rames>, а во фрейме показать пользователям нужную информацию, тем самым увеличив релевантность страницы по запросу и обманув поисковик.

Подобные страницы получили название бридж-страниц (от англ. bridge — мост), или информационных страниц. Время бридж-страниц закончилось, когда поисковые системы перестали учитывать содержимое тега <nof rames> как контент страницы, — необходимость в этом теге отпала, так как все версии браузеров стали правильно отображать фреймы.

Замена содержимого входных страниц, или свопинг

Показать поисковому роботу одно содержимое, а пользователям другое можно также с помощью простого приема — замены, или свопинга (англ. swap — обмен, замена; читается «своп») содержимого страницы после ее посещения поисковым роботом.

Своп выполняется обычно следующим образом.

  • С помощью генератора входных страниц создается большое количестводорвеев.
  • Дорвейный сайт выкладывается в Интернете и подается на индексациюв поисковые системы.
  • После визита на страницы поискового робота содержимое заменяется тем,которое необходимо показывать посетителям.

Смысл приема в том, что при замене содержимого после индексации, в индексе поисковой системы остается «накачанное» ключевыми словами содержимое, а пользователям предоставляется нужная спамеру информация. При этом невозможно обвинить спамера в использовании редиректа или создании страниц, не содержащих информации для пользователей и/или неряшливо оформленных. Владелец сайта имеет право изменять информацию, когда ему захочется, а разница между информацией в индексе и реальной выдачей получилась как бы естественным путем, поэтому нет повода для бана такого сайта.

Метод работает до следующего визита на страницу поискового робота, после чего информация о содержимом обновляется уже и в индексе поисковой системы. Стоит заметить, что срок между двумя заходами поискового робота на одну и ту же страницу может составлять несколько недель или месяцев.

Клоакинг

Термин «клоакинг» (cloaking) происходит от английского глагола «to cloak» — маскировать, прикрывать, прятать, скрывать.

Клоакинг — это методика отображения роботу поисковой системы оптимизированной страницы вместо той страницы, которую увидит обычный пользователь при просмотре сайта. Иногда эти «технические» страницы делают не просто оптимизированными, а в корне отличными от оригинальных. Например, поисковому роботу выдают страницу со списком популярных музыкальных композиций с расширением . трЗ, в то время как обычному пользователю предлагают посетить магазин музыкальных компакт-дисков. Таким методом в интернет-магазины компакт-дисков заманивают пользователей, которые искали в поисковой системы ссылки на свежие хиты в формате МРЗ.

Выполнить клоакинг с помощью обычного HTML или средств JavaScript не получится. Клоакинг реализуется с помощью серверных программ и скриптов, выполняющихся на стороне веб-сервера. Серверные скрипты формируют выходные данные в зависимости от изменяющихся величин: параметров в адресе запроса, доступных системных переменных веб-сервера и окружения и некоторых параметров запроса. По ряду данных можно определить, от кого исходит запрос — от робота или обычного пользователя, и сформировать для каждого отдельную результирующую страницу.

На первый взгляд может показаться, что клоакинг нельзя «отловить», поскольку надо быть пользователем, чтобы увидеть обычную страницу, и роботом — чтобы увидеть оптимизированную версию страницы. Тем не менее существует возможность определить наличие клоакинга, не являясь при этом сотрудником поисковой системы, и ниже мы расскажем о ней.

Как же определить робота поисковой системы? Есть две возможности:

  • проверить поле User-agent;
  • проверить IP-адрес, откуда приходит запрос.

Клоакинг по Useragent

User-agent (в переводе с англ. пользовательский агент) — это одно из служебных полей, которое передается серверу от браузера или другой программы вместе с запросом на получение страницы. Если это человек, просматривающий сайт, то его User-agent — это его браузер, соответственно в поле User-agent будет отображаться название браузера. Если это поисковый робот, то поле User-agent будет содержать название или идентификатор поисковика.

Метод клоакинга по User-agent — это самый простой метод, основанный на проверке данных в поле User-agent, где при запросе в большинстве случаев передается имя робота и некоторые дополнительные данные.

Вот примеры данных в User-agent для некоторых поисковых роботов:

  • Mozillа / 5 . О (compatible; Googlebot/2 . 1; +http : / /www . google .com/bot. htm].)
  • Yandex/1.01.001 (compatible; Winl6; I)
  • Mozilla/j.O (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/yce arch/s1ur p)

У скрипта, выполняющего подмену «пользовательского содержания» на текст для роботов, есть словарь таких строк агентов. Чаще используется даже словарь подстрок (частей записи). Если искомая подстрока есть в поле User-agent программы, запрашивающей страницу, то скрипт выдает оптимизированную страницу. Скрипт может выдавать всем роботам один и тот же текст, а может выдавать каждому роботу свою страницу, оптимизированную специально для него.

Такой клоакинг довольно просто «отловить». Для этого достаточно, чтобы разработчики поисковика или пользователи с помощью специальных программ или расширений к браузерам представились при запросе страницы роботом, т.е. следует поместить в поле User-agent название поискового робота. В итоге на экране вместо обычной страницы загрузится «оптимизированная» страница, потому что скрипт на сайте примет вас за робота.

Подробнее строка User-agent для разных поисковых роботов описана в приложении А «Роботы поисковых систем».

Клоакинг по IPадресу

Есть и более хитроумный способ подмены содержания, основанный на проверке IP-адреса , откуда приходит запрос.

IP адрес зто уникальный адрес каждого компьютера в Интернете. Представляет собой четыре числа от 0 до 255, разделенные точками, например 213.180.206.248.

Как известно, архитектура Интернета такова, что IP-адрес практически невозможно подделать. Зная корпоративные подсети (диапазоны адресов) поисковых систем, можно выдавать оптимизированные страницы вообще всем веб-клиентам из указанных подсетей. В этом случае даже сотрудник поисковой системы с обычным браузером увидит тот же список МРЗ-файлов, что и робот, а не рекламу магазина компакт-дисков, как все остальные.

Но и в этом случае определить наличие клоакинга относительно просто. Сотруднику поисковой системы достаточно запросить страницу через прокси-сервер (промежуточный сервер, являющийся посредником между браузером и сайтом) из другого диапазона адресов. Например, можно воспользоваться анонимным прокси, расположенным где-нибудь в Новой Зеландии, или воспользоваться сервисом анонимизации, аналогичным WebWarper.net.

Обычному пользователю, чтобы определить клоакинг, достаточно просмотреть сохраненную копию страницы в базе поисковой системы (в большинстве поисковых систем есть такая возможность). Если сохраненная страница в базе поисковой системы отличается от той, которую можно увидеть на сайте, то, скорее всего, на сайте используется клоакинг. Следует только обращать внимание на даты изменения страницы и ее индексации, поскольку можно спутать клоакинг с описанным выше свопингом.

Комбинированный метод

При определении робота можно пользоваться одновременно двумя вышеописанными методами: сначала определить запрос из определенной сети IP-адресов, после чего сразу проверить данные в поле User-agent.

Если не задаваться целью обмануть поисковую систему, то метод формирования страницы в зависимости от некоторых параметров из запроса браузера может быть использован, так сказать, во благо. Приведем несколько вариантов такого использования:

  • выдача пользователю страницы на том языке, который указан в настройках его браузера;
  • перенаправление пользователя на ближайшее зеркало сайта в зависимости от местонахождения пользователя;
  • выдача версии страницы, корректно отображающейся в специфическомбраузере пользователя, и многое другое.

При использовании клоакинга или методов, близких к нему, следует помнить, что поводом для бана сайта служит явная попытка обмана поисковой системы. Если же вы заботитесь о пользователе, то модераторы поисковика не должны забанить сайт за использование клоакинга.

Еще надо отметить, что робот поисковой системы будет получать только одну из всех возможных версий документа. Например, при выдаче разных языковых версий GoogleBot (поисковый робот Google), скорее всего, получит англоязычную версию страницы и не догадается о русскоязычной, а робот Яндекса проиндексирует русскоязычную и не увидит остальных версий, если на них явно не сослаться.

Posted in Продвижение сайта в поисковых системах.