Различная информация о поисковых системах

 Google SandBox

   В начале 2004 года в среде оптимизаторов обозначилось новое таинственное понятие – Google SandBox или песочница Google. Такое обозначение получил новый спам-фильтр Google, направленный на исключение из выдачи молодых, вновь созданных сайтов.

   Фильтр SandBox проявляется в том, что вновь созданные сайты отсутствуют в выдаче поисковой системы практически по всем фразам. Это происходит, несмотря на наличие качественного и уникального информационного содержимого и правильно проведенную раскрутку (без использования спам-методов).

   На данный момент SandBox касается только англоязычного сегмента, сайты на русском и других языках этому фильтру не подвергаются. Однако, вполне вероятно что этот фильтр может расширить свое влияние.

   Можно предположить, что цель SandBox фильтра исключить из выдачи спам-сайты – действительно, ни один поисковый спамер не сможет ждать месяцы до появления результатов. Однако вместе с этим страдает огромное количество нормальных, вновь созданных сайтов.

   Точной информации о том, что же конкретно представляет из себя SandBox фильтр до сих пор нет. Существует ряд предположений, полученных на основании опыта, которые мы и приведем ниже:

   — SandBox – это фильтр на молодые сайты. Вновь созданный сайт попадает в «песочницу» и находится в ней неопределенное время, пока поисковая система не переведет его в разряд «обычных»;

   — SandBox – это фильтр на новые ссылки, проставляемые на вновь созданные сайты. Постарайтесь заметить принципиальное отличие от предыдущего предположения – фильтр накладывается не на возраст сайта, а на возраст ссылок на сайт. Другими словами Google не имеет претензий к сайту, однако отказывается учитывать внешние ссылки на него, если с момента их появления прошло менее X месяцев. Так как внешние ссылки являются одним из основных факторов ранжирования, игнорирование внешних ссылок равносильно отсутствию сайта в выдаче поисковой системы. Какое из двух приведенных предположений более верно сказать сложно, вполне вероятно, что оба они верны ;

   — сайт может находится в песочнице от 3-х месяцев до года и более. Есть также наблюдение, что сайты выходят из песочницы в массовом порядке. Т.е. срок песочницы определяется не индивидуально для каждого сайта, а для больших групп сайтов (сайты созданные в некотором временном диапазоне попадают в одну группу). Фильтр затем снимается сразу для всей группы, таким образом, сайты из одной группы пробудут в «песке» разное время.

   Типичные признаки того, что ваш сайт находится в песочнице:

   — ваш сайт нормально проиндексирован Google, регулярно посещается поисковым роботом;
   — ваш сайт имеет PageRank, поисковая система знает и корректно отображает внешние ссылки на ваш сайт;
   — поиск по адресу сайта (www.site.com) выдает правильные результаты, с правильным заголовком, сниппетом (описание ресурса) и т.д.;
   — ваш сайт нормально находится по редким и уникальным словосочетаниям, содержащимся в тексте страниц;
   — ваш сайт не виден в первой тысяче результатов по любым иным запросам, даже по тем, под которые он изначально создавался. Иногда встречаются исключения и сайт по некоторым запросам появляется на 500-600 позициях, что, конечно, сути не меняет.

   Методов обхода фильтра практически не существует. Есть ряд предположений, о том, как это можно сделать, однако это не более чем предположения, к тому же малоприемлимые для обычного вебмастера. Основной метод – это работать над сайтом и ждать окончания фильтра.

   После того, как фильтр снимается, происходит резкий рост рейтингов на 400-500 и более позиций.

 Google LocalRank

   25 февраля 2003 года компания Google запатентовала новый алгоритм ранжирования страниц, получивший название LocalRank. В основе лежит идея о том, чтобы ранжировать страницы не по их глобальной ссылочной цитируемости, а по цитируемости среди группы страниц, тематически связанных с запросом.

   Алгоритм LocalRank не используется на практике (по крайней мере, в том виде, в каком он описывается в патенте), однако, патент содержит ряд интересных идей, с которыми, мы считаем, должен быть знаком каждый оптимизатор. Учет тематики ссылающихся страниц используется почти всеми поисковыми системами. Хотя происходит это, видимо, по несколько другим алгоритмам, изучение патента позволит уяснить общие идеи, как это может быть реализовано.

   При чтении этой главы учитывайте, что в ней представлена теоретическая информация, а не практическое руководство к действию.

   Основную идею алгоритма LocalRank выражают следующие три пункта:

   1. Используя некоторый алгоритм, выбирается определенное число документов, релевантных поисковому запросу (обозначим это число N). Эти документы изначально отсортированы согласно некоторому критерию (это может быть PageRank, либо оценка релевантности или какой-либо другой критерий или их группировка). Обозначим численное выражение данного критерия как OldScore.

   2. Каждая из N страниц проходит новую процедуру ранжирования, в результате которой каждая страница получает некоторый новый ранг. Обозначим его LocalScore.

   3. На этом шаге величины OldScore и LocalScore перемножаются, в результате чего получается новая величина NewScore, согласно которой и происходит итоговое ранжирование страниц.

   Ключевой в данном алгоритме является новая процедура ранжирования, в результате которой каждой странице присваивается новый ранг LocalScore. Опишем эту процедуру подробнее.

   0. Используя некоторый алгоритм ранжирования отбираются N страниц, отвечающих поисковому запросу. Новый алгоритм ранжирования будет работать только с этими N страниц. Каждая страница в этой группе имеет некоторый ранг OldScore.

   1. При расчете LocalScore для данной страницы выделяются все страницы из N, которые имеют внешние ссылки на данную страницу. Обозначим множество этих страниц M. При этом, в множество M не попадут страницы с того же хоста (host, фильтрация произойдет по IP адресу), а также страницы, являющиеся зеркалами данной.

   2. Множество M разбивается на подмножества Li . В эти подмножества попадают страницы, объединенные следующими признаками:
   — принадлежность одному (или сходным) хостам. Таким образом, в одну группу попадут страницы, у которых первые три октета IP адреса совпадают. То есть, страницы, IP адрес которых принадлежит диапазону
xxx.xxx.xxx.0
xxx.xxx.xxx.255

будут считаться принадлежащими одной группе;
   — страницы, которые имеют одинаковое или схожее содержание (зеркала, mirrors);
   — cтраницы одного сайта (домена).

   3. Каждая страница в каждом множестве Li имеет некоторый ранг (OldScore). Из каждого множества выбирается по одной странице с самым большим OldScore, остальные исключаются из рассмотрения. Таким образом, мы получаем некоторое множество K страниц, ссылающихся на данную страницу.

   4. Страницы в множестве K сортируются согласно параметру OldScore, затем в множестве K остаются только k первых страниц (k – некоторое заданное число), остальные страницы исключаются из рассмотрения.

   5. На данном шаге рассчитывается LocalScore. По оставшимся k страницам происходит суммирование их значений OldScore. Это можно выразить следующей формулой:

formula

   Здесь m– некоторый заданный параметр, который может варьироваться от 1 до 3 (к сожалению, информация, содержащаяся в патенте на описываемый алгоритм, не дает подробного описания данного параметра).

   После того, как расчет LocalScore для каждой страницы из множества N закончен, происходит расчет значений NewScore и пересортировка страниц согласно новому критерию. Для рассчета NewScore используется следующая формула:

   NewScore(i)= (a+LocalScore(i)/MaxLS)*(b+OldScore(i)/MaxOS)

   i – страница, для которой рассчитывается новое значение ранга.

   a и b – некоторые числа (патент не дает более подробной информации об этих параметрах).

   MaxLS – максимальное из рассчитанных значений LocalScore

   MaxOS – максимальное из значений OldScore

   Теперь постараемся отвлечься от математики и повторим все вышесказанное простым языком.

   На первом этапе происходит отбор некоторого количества страниц соответствующих запросу. Это делается по алгоритмам, не учитывающим тематику ссылок (например, по релевантности и общей ссылочной популярности).

   После того, как группа страниц определена, будет подсчитана локальная ссылочная популярность каждой из страниц. Все страницы так или иначе связаны с темой поискового запроса и, следовательно, имеют отчасти схожу тематику. Проанализировав ссылки друг на друга в отобранной группе страниц (игнорируя все остальные страницы в Интернете), получим локальную (тематическую) ссылочную популярность.

   После проделанного шага у нас есть значения OldScore (рейтинг страницы на основе релевантности, общей ссылочной популярности и других факторов) и LocalScore (рейтинг страницы среди тематически связанных страниц). Итоговый рейтинг и ранжирование страниц проводится на основе сочетания этих двух факторов.

 Особенности работы различных поисковых систем

   Все, сказанные выше идеи по текстовой оптимизации и увеличению ссылочной популярности применимы ко всем поисковым системам в равной степени. Более подробное описание Google объясняется большим наличием информации об этой поисковой системе в свободном доступе, однако идеи, высказанные в отношении Google, в большой степени применимы и к другим поисковым системам.

   Вообще, я не являюсь сторонником поиска «секретного знания» о том, как детально работают алгоритмы различных поисковых систем. Все они в той или иной мере подчиняются общим правилам и грамотная работа над сайтом (без учета каких-либо особенностей) приводит к хорошим позициям почти во всех поисковых системах.

   Тем не менее, приведем некоторые особенности различных поисковых систем:

   Google – очень быстрая индексация, очень большое значение придается внешним ссылкам. База Google используется очень большим числом других поисковых систем и порталов.

   MSN – больший, нежели у других поисковых систем, акцент на информационное содержимое сайта.

   Yandex – крупнейшая российская поисковая система. Обрабатывает (по разным данным) от 60% до 80% всех русскоязычных поисковых запросов. Уделяет особое внимание тематическим ссылкам (нетематические внешние ссылки также имеют эффект, но в меньшей степени, чем у других поисковых систем). Индексация проходит медленнее, чем у Google, однако так же в приемлемые сроки. Понижает в рейтинге или исключает из индекса сайты, занимающиеся нетематическим ссылкообменом (содержащих каталоги нетематических ссылок, созданных лишь с целью повышения рейтинга сайта), а также сайты, участвующие в системах автоматического обмена ссылками. В периоды обновлений базы, которые длятся несколько дней, выдача Яндекса постоянно меняется, в такие периоды следует отказаться от каких-либо работ по сайту и дождаться стабильных результатов работы поисковой системы.

   Еще одна особенность Яндекс – различные результаты поиска в зависимости от регистра ключевых слов (т.е. «Слово» и «слово» дают разные результаты поиска).

   Rambler – наиболее загадочная поисковая система. Занимает второе (по другим данные третье после Google) место по популярности среди российских пользователей. По имеющимся наблюдениям, понижает в рейтинге сайты, активно занимающиеся раскруткой (быстрое увеличение числа внешних ссылок). Ценит наличие поисковых терминов в простом тексте страницы (без выделения различными стилистическими тегами).

   Mail.ru – набирающая популярность поисковая система. Использует результаты поисковой системы Google после некоторой дополнительной обработки. Оптимизация под Mail.ru сводится к оптимизации под Google.

Posted in Раскрутка и оптимизация сайта.