Бридж-страницы |
Спам тегов <noframes>, или бридж-страницыОригинальное "хранилище" для текстов, предназначенных лишь поисковому роботу, было найдено при переходе рынка на новые версии браузеров. Среди вебмастеров в то время стал популярным прием создания страниц на сайте с помощью тега <f rame> (в переводес англ. рама, каркас; произносится как "фрейм"). С помощью этого приема можно было как бы разделить всю отображаемую страницу на несколько площадей (фреймов) и показывать в каждой из них разный текст. Новые браузеры, прекрасно отображающие фреймы, сосуществовали вместе со старыми версиями, которые не поддерживали фреймы. Поэтому в язык HTML был введен специальный тег, <nof rames>, содержимое которого должно было отображаться в случае, если пользователь открывает страницу в устаревшем браузере, не поддерживающем фреймы. Поисковые системы прекрасно индексировали тексты, находящиеся в теге <nof rames>, поэтому на какое-то время сложилась парадоксальная ситуация. Поскольку практически у всех пользователей были уже новые браузеры и никаких проблем с просмотром фреймовых сайтов не возникало, легко можно было сложить специальный, "накачанный" текст для поисковых роботов в тег <nof rames>, а во фрейме показать пользователям нужную информацию, тем самым увеличив релевантность страницы по запросу и обманув поисковик. Подобные страницы получили название бридж-страниц (от англ. bridge — мост), или информационных страниц. Время бридж-страниц закончилось, когда поисковые системы перестали учитывать содержимое тега <nof rames> как контент страницы, — необходимость в этом теге отпала, так как все версии браузеров стали правильно отображать фреймы. Замена содержимого входных страниц, или свопингПоказать поисковому роботу одно содержимое, а пользователям другое можно также с помощью простого приема — замены, или свопинга (англ. swap — обмен, замена; читается "своп") содержимого страницы после ее посещения поисковым роботом. Своп выполняется обычно следующим образом.
Смысл приема в том, что при замене содержимого после индексации, в индексе поисковой системы остается "накачанное" ключевыми словами содержимое, а пользователям предоставляется нужная спамеру информация. При этом невозможно обвинить спамера в использовании редиректа или создании страниц, не содержащих информации для пользователей и/или неряшливо оформленных. Владелец сайта имеет право изменять информацию, когда ему захочется, а разница между информацией в индексе и реальной выдачей получилась как бы естественным путем, поэтому нет повода для бана такого сайта. Метод работает до следующего визита на страницу поискового робота, после чего информация о содержимом обновляется уже и в индексе поисковой системы. Стоит заметить, что срок между двумя заходами поискового робота на одну и ту же страницу может составлять несколько недель или месяцев. КлоакингТермин "клоакинг" (cloaking) происходит от английского глагола "to cloak" — маскировать, прикрывать, прятать, скрывать. Клоакинг — это методика отображения роботу поисковой системы оптимизированной страницы вместо той страницы, которую увидит обычный пользователь при просмотре сайта. Иногда эти "технические" страницы делают не просто оптимизированными, а в корне отличными от оригинальных. Например, поисковому роботу выдают страницу со списком популярных музыкальных композиций с расширением . трЗ, в то время как обычному пользователю предлагают посетить магазин музыкальных компакт-дисков. Таким методом в интернет-магазины компакт-дисков заманивают пользователей, которые искали в поисковой системы ссылки на свежие хиты в формате МРЗ. На первый взгляд может показаться, что клоакинг нельзя "отловить", поскольку надо быть пользователем, чтобы увидеть обычную страницу, и роботом — чтобы увидеть оптимизированную версию страницы. Тем не менее существует возможность определить наличие клоакинга, не являясь при этом сотрудником поисковой системы, и ниже мы расскажем о ней. Как же определить робота поисковой системы? Есть две возможности:
Клоакинг по User-agentUser-agent (в переводе с англ. пользовательский агент) — это одно из служебных полей, которое передается серверу от браузера или другой программы вместе с запросом на получение страницы. Если это человек, просматривающий сайт, то его User-agent — это его браузер, соответственно в поле User-agent будет отображаться название браузера. Если это поисковый робот, то поле User-agent будет содержать название или идентификатор поисковика. Метод клоакинга по User-agent — это самый простой метод, основанный на проверке данных в поле User-agent, где при запросе в большинстве случаев передается имя робота и некоторые дополнительные данные. Вот примеры данных в User-agent для некоторых поисковых роботов:
У скрипта, выполняющего подмену "пользовательского содержания" на текст для роботов, есть словарь таких строк агентов. Чаще используется даже словарь подстрок (частей записи). Если искомая подстрока есть в поле User-agent программы, запрашивающей страницу, то скрипт выдает оптимизированную страницу. Скрипт может выдавать всем роботам один и тот же текст, а может выдавать каждому роботу свою страницу, оптимизированную специально для него. Подробнее строка User-agent для разных поисковых роботов описана в приложении А "Роботы поисковых систем". Клоакинг по IP-адресуЕсть и более хитроумный способ подмены содержания, основанный на проверке IP-адреса , откуда приходит запрос. IP адрес — зто уникальный адрес каждого компьютера в Интернете. Представляет собой четыре числа от 0 до 255, разделенные точками, например 213.180.206.248. Как известно, архитектура Интернета такова, что IP-адрес практически невозможно подделать. Зная корпоративные подсети (диапазоны адресов) поисковых систем, можно выдавать оптимизированные страницы вообще всем веб-клиентам из указанных подсетей. В этом случае даже сотрудник поисковой системы с обычным браузером увидит тот же список МРЗ-файлов, что и робот, а не рекламу магазина компакт-дисков, как все остальные. Но и в этом случае определить наличие клоакинга относительно просто. Сотруднику поисковой системы достаточно запросить страницу через прокси-сервер (промежуточный сервер, являющийся посредником между браузером и сайтом) из другого диапазона адресов. Например, можно воспользоваться анонимным прокси, расположенным где-нибудь в Новой Зеландии, или воспользоваться сервисом анонимизации, аналогичным WebWarper.net. Обычному пользователю, чтобы определить клоакинг, достаточно просмотреть сохраненную копию страницы в базе поисковой системы (в большинстве поисковых систем есть такая возможность). Если сохраненная страница в базе поисковой системы отличается от той, которую можно увидеть на сайте, то, скорее всего, на сайте используется клоакинг. Следует только обращать внимание на даты изменения страницы и ее индексации, поскольку можно спутать клоакинг с описанным выше свопингом. Комбинированный методПри определении робота можно пользоваться одновременно двумя вышеописанными методами: сначала определить запрос из определенной сети IP-адресов, после чего сразу проверить данные в поле User-agent. Если не задаваться целью обмануть поисковую систему, то метод формирования страницы в зависимости от некоторых параметров из запроса браузера может быть использован, так сказать, во благо. Приведем несколько вариантов такого использования:
При использовании клоакинга или методов, близких к нему, следует помнить, что поводом для бана сайта служит явная попытка обмана поисковой системы. Если же вы заботитесь о пользователе, то модераторы поисковика не должны забанить сайт за использование клоакинга. Еще надо отметить, что робот поисковой системы будет получать только одну из всех возможных версий документа. Например, при выдаче разных языковых версий GoogleBot (поисковый робот Google), скорее всего, получит англоязычную версию страницы и не догадается о русскоязычной, а робот Яндекса проиндексирует русскоязычную и не увидит остальных версий, если на них явно не сослаться.
|
Матрикснет – новое качество поиска ЯндексаОсновная задача поисковой системы – дать ответ на вопрос пользователя. Когда пользователь задает запрос, поисковая система не обращается к каждому сайту в интернете, а ищет по базе известных ей страниц – поисковому индексу. Там она находит все страницы со словами из запроса. Ссылки на эти страницы пользователь и видит на страницах результатов поиска. Читать полностью |
Поисковики фильтруют ссылкиНепот - это нелегальная "взаимовыручка" среди оптимизаторов сайтов. Например, веб-ресурс А поставил ссылку на сайт Б по дружбе или за деньги, а тот в ответ разместил ссылку на свой сайт. Врезультате оба ресурса стали "более весомыми". Скажите, что этокольцевой линкообмен? Это не так. При кольцевом обмене, прежде всего,учитывается контент - сайты обмениваются ссылками, потому что считают,что... Читать полностью |
Навигационные запросыПримерно каждый десятый запрос к Яндексу – «навигационный», то есть состоит из названия организации или сайта и пользователь хочет перейти на сайт этой организации. В этом случае поисковая строка Яндекса используется вместо адресной строки браузера и остальные девять поисковых результатов пользователя, как правило, не интересуют. Не отвлекая пользователя от главной цели, мы добавили после... Читать полностью |
Алгоритм НаходкаТестирование новой версии алгоритма Яндекса началось 9 июля 2008 года. По заявлениям Яндекса, «основные изменения в программе связаны с новым подходом к машинному обучению и, как следствие, отличиями в способе учета факторов ранжирования в формуле». Читать полностью |
