Качество поисковой машины

В отношении поисковых машин очень часто можно слышать качественные оценки. «Я пользуюсь Яндексом, потому что он лучше ищет!», «Гугл круче всех» — довольно распространенные высказывания. Что такое качество поисковика? Обычно синонимом качества поиска считается его релевантность.

Что такое релевантность

В отношении поисковых машин слово релевантный — чуть ли не главный термин. Релевантная выдача, релевантные результаты, у поисковика X релевантность выше, чем у поисковика У, — такие выражения можно слышать постоянно. А что они означают?

Как уже говорилось выше, релевантный — значит относящийся к делу. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, относящиеся к делу, т.е. к смыслу поискового запроса.

Это определение релевантности выглядит очень просто. Казалось бы, из него следует, что если мы введем поисковый запрос и если среди первых результатов поиска окажутся только релевантные сайты, то выдача поисковой машины будет релевантна. Однако это не совсем так. Давайте разберемся с этим вопросом подробнее.

Не существует релевантности вообще, в вакууме. Ведь кто-то должен определить, действительно ли сайты соответствуют тому, что предполагалось в запросе. Кто? Очевидно, лучше всего это может сделать сам автор запроса, который ввел его в поисковую машину.

И вот здесь возникает несколько проблем. Ведь не очень интересно обсуждать запросы выдуманные, введенные для эксперимента. В Яндексе, Рамблере, Google есть десятки миллионов популярных, реальных запросов, которые ежедневно вводят реальные пользователи. А с ними далеко не все так ясно.

Во-первых, большинство запросов — одно- или двухсловные, т.е. очень лаконичные. Ясно, что далеко не всегда они полностью задают смысл искомой страницы. Значит, какие-то условия поиска всегда остаются недосказанными, в уме пользователя. Во-вторых, ни поисковик, ни мы с вами не можем знать, что происходит в уме реального пользователя, вводящего конкретный запрос. Что он на самом деле имел в виду? В-третьих, у популярных запросов очень много «соавторов» — их вводят совершенно разные люди. Всегда ли они имеют в виду одно и то же — неизвестно. Скорее всего, нет. Например, что такое запрос дизайн! Что имел в виду автор — веб-дизайн, дизайн квартир, ландшафтный дизайн или промышленный? А что делать, если разные авторы этого запроса имели в виду разное?

Итак, молено сформулировать следующее утверждение: сам по себе поисковый запрос принципиально неполон. Почти для каждого запроса существует не высказанное пользователем явно, но важное для него условие релевантности запроса.

Условие релевантности

Условие релевантности — это не входящее в запрос предположение пользователя о том, какие страницы будут релевантным ответом на запрос. Фактически — это скрытая постановка задачи поиска в уме пользователя.

Например, если пользователь вводит запрос ногу свело, то в большинстве случаев таким условием релевантности является имеющееся в уме пользователя дополнительное ограничение на поиск — «музыкальная группа».

Значит, большинство пользователей поисковика, задавшие запрос ногу свело, имеют в виду именно музыкальную группу и будут довольны, если поисковая машина по запросу ногу свело выведет их прямиком на сайт группы «Ногу свело», на ее последний диск или еще на что-то, связанное с этой музыкальной группой. Заметим, что пользователь, как правило, держит это условие релевантности в уме, не сообщая его поисковику !

А тот редкий несчастный пользователь, у которого в самом деле свело ногу и который хочет узнать в Интернете, что делать в таком случае, скорее всего, вообще не получит никакой информации на первых страницах выдачи. Выдача будет забита ссылками на разные аспекты деятельности группы «Ногу свело», и ему придется как-то дополнительно уточнять свой «медицинский» запрос.

Условие релевантности в уме пользователя прямо зависит от его намерений, от цели запроса, от того, что вообще хочет сделать пользователь с найденными по запросу сайтами.

Цели и типы поисковых запросов

Пользователи в Интернете все очень разные, и приходят они в Интернет с совершенно разными целями. Поэтому запросы, которые вводят пользователи в поисковые машины, также отличаются по своим целям. Заранее знать и понимать эти цели довольно важно как для поисковой машины, так и для тех, кто хочет привлекать посетителей на свой сайт.

Ниже описаны основные типы запросов в поисковики.

Почему пользователи ведут себя так — вопрос сложный. Во-первых, они зачастую не осознают того обстоятельства, что запрос может иметь не один смысл. Во-вторых, экономят силы если, достаточно ввести просто «ногу свело», чтобы Яндекс показал сайт группы, зачем трудиться и писать еще что-то? Для большинства популярных запросов такая экономная тактика себя оправдывает.

Навигационные запросы

Это один из самых распространенных видов запросов. Такие запросы вводят пользователи, которые хотят найти конкретное место в Сети — сайт нужной им компании, сайт интересного им форума, ссылку на блог интересной персоны и т.п.

Таким образом, если пользователь ввел запрос наподобие Администрация Президента, то, скорее всего, он хочет получить ссылку на сайт Администрации Президента. То же утверждение с большой вероятностью можно отнести и к запросам вида Вимбильдан или Аэрофлот.

Аудитория, которая приходит на ваш сайт по навигационным запросам, скорее всего, уже знает ваш бренд, сайт, услугу, либо зашла к вам по ошибке.

Конечно, точную цель запроса знает только пользователь, который ввел этот запрос. К сожалению, подавляющее большинство пользователей не очень опытны в обращении с поисковиками и не знают, как именно формулировать запросы, чтобы получить наилучший результат. Поэтому не исключено, что конкретный запрос Аэрофлот представляет собой не очень удачную попытку получить расписание рейсов или желание купить билет.

Тогда это информационный или транзакционный запрос.

Информационные запросы

Информационный запрос вводят, когда хотят найти какие-то сведения, информацию в Сети, причем пользователю все равно, где именно она находится. Примером информационных запросов могут служить, например:

  • поиск телефона нужной организации (в данном случае подойдет сайт любого справочника);
  • желание получить сведения по истории Древнего Рима или выяснитьудельный вес ртути (здесь сгодится любой более-менее серьезный научный сайт или онлайновая энциклопедия);
  • запрос о результатах финального матча чемпионата мира или поиск последних сведений об очередной вспышке напряженности на БлижнемВостоке (в данном случае пригодится любая свежая новость по заданнойтеме, независимо от того, где она опубликована);
  • запрос типа руководство к очистителю воздуха Дайкин или Расписание полетов Аэрофлота (здесь пригодится любой авторитетный источник).

Ясно, что пользователи, сделавшие информационные запросы, наиболее интересны тем владельцам сайтов, которые делают ставку на показ посетителям какого-то интересного им содержания, справочной информации или уникальных сведений.

Транзакционные запросы

Как мы уже говорили, массовому пользователю свойственно вводить недооп-ределенные, нечеткие, самые общие запросы, так что поисковику из формальных соображений трудно отличить, что имеется в виду, когда введен, например, запрос пластиковые окна.

Но нам-то с вами более-менее ясно, что здесь с большой вероятностью имеется в виду не общая теория пластиковых окон или конкурс дизайна пластиковых окон в Париже. Этим запросом пользователь, скорее всего, выражает желание выбрать и установить окна у себя в квартире, так что это — не информационный, а другой вид запроса — транзакционный.

Транзакционным является такой запрос, который вводит пользователь, желающий совершить какое-то действие в Интернете — транзакцию (т.е. купить, заказать, скачать, подписаться или заплатить). Например: антивирус скачать, установка кондиционеров, летний лагерь под Москвой и тому подобные конкретные, «деловые» запросы.

Ясно, что транзакционные запросы наиболее интересны для тех владельцев сайтов, у которых уже есть готовая структура для продажи товаров или услуг через Интернет.

Нечеткие запросы

И конечно же, есть огромная «серая зона», обширная категория нечетких, слишком общих запросов, которые вводят в поисковиках неопытные или ленивые пользователи. Например, какую цель преследуют запросы типа квартира, кондиционер, окна, мобильник? Это точно не навигационные и, скорее всего, не информационные, а транзакционные запросы, но этого нельзя знать наверняка.

Сделаем общее замечание о «качестве» запроса, которое нам пригодится в дальнейшем.

С одной стороны, нечеткие, т.е. самые общие, запросы наподобие билеты, квартира, кондиционер, окна, как правило, кажутся наиболее привлекательными владельцам сайтов. Очень часто директор фирмы желает видеть свой сайт на первом месте в поисковиках именно по этим запросам. Если фирма строит бассейны, ее генеральный директор обычно хочет быть первым в Яндексе и Рамблере по запросу бассейны. А директор агентства недвижимости — по запросу квартира.

Именно поэтому по самым общим запросам обычно имеется наиболее высокая конкуренция, как в продвижении сайтов, так и в контекстной рекламе.

С другой стороны, аудитория такого запроса может быть очень неоднородной, смешанной, потому что в таком общем запросе могут быть смешаны самые разные цели и типы запросов. Например, что на самом деле означает запрос квартира? Что хотел автор запроса — купить, продать, арендовать, сдать? Может, ему вообще нужна ипотека или ремонт? И нужно ли тратить много ресурсов на этого пользователя с его неизвестными целями?

В последующих главах мы покажем, что для продвижения своих услуг в областях с высокой конкуренцией часто гораздо эффективнее заниматься более точными, низкочастотными, многословными запросами.

Зачем нужно знать тип запроса

Зачем нужно понимать, по запросам какого типа пользователи заходят на ваш сайт? Затем, что только зная ожидания посетителей сайта, их можно обслужить более качественно. Например, если посетитель зашел к вам на сайт по информационному запросу, не стоит пытаться сразу же заставить его купить товар — он просто уйдет со страницы в раздражении. Напротив, нужно сначала предложить ему искомую информацию (и чем более полной она будет, тем выше вероятность удержать посетителя на сайте) и только затем предложить ему соответствующую услугу или товар.

И наоборот, посетитель, сделавший транзакционный запрос, больше всего будет интересоваться условиями транзакции — ценой, сроками, доставкой, скидкой и т.п. И он будет рассчитывать сразу же найти эти условия на странице, окинув ее одним взглядом.

Заметим, что все поисковые машины по-разному работают с разными типами запросов. Поскольку без чтения мыслей пользователя поисковик не может точно установить цель, т.е. тип запроса, то на качество обработки разных типов запросов влияют скорее общие особенности поисковых алгоритмов каждого поисковика.

Извне оценить эти отличия можно только приблизительно, статистически. Например, известно, что Google лучше всего справляется с навигационными запросами, это его конек. А Яндекс более силен в обработке информационных запросов.

А что вообще такое «лучше справляется», что значит утверждение, что поисковая машина «лучше ищет»?

Полнота и точность

Мы выяснили, что запросы к поисковым машинам могут быть совершенно разных типов и что большинство запросов имеет неявное условие релевантности, которое не присутствует в самом запросе, а находится в уме пользователя. В общем, релевантность, она же качество поиска, — довольно сложная вещь.

Как же оценить качество работы поисковика с запросами? Для этого применяются понятия, традиционные для задач поиска информации, — полнота и точность.

Полнота

Полнота поиска — это мера того, нашел ли поисковик все нужные веб-страницы, которые есть в Сети. Проще всего вычислить полноту в процентах от всех релевантных запросов страниц. Например, если в Интернете есть 100 тысяч страниц о группе «Ногу свело», а поисковик нашел лишь 65 тысяч из них, «не заметив» остальных по тем или иным причинам, то полнота будет равна 65%.

Заметим, что из данного, вполне жизненного примера видно, что полнота поиска не очень-то интересна обычному пользователю интернет-поисковика. Ведь в Сети всегда слишком много данных! Все равно невозможно просмотреть что 100 тысяч страниц, что 65 тысяч…

А ведь поисковик показывает данные постранично — первые десять найденных страниц, потом еще десять и т.д. Большинство обычных пользователей (до 80%) не заглядывают дальше первой-второй страницы результатов поиска, просматривая только первые 10-20 результатов. Поэтому не очень важно, сколько там релевантных результатов (десять тысяч, сто тысяч или миллион) осталось за пределами первых страниц результатов поиска или вообще осталось не найденными в Сети. И того, что найдено, за глаза хватит.

Поэтому основным показателем работы интернет-поисковика является его точность.

Не полнота, а разнообразие

На самом деле полнота поиска — очень важна, если понимать ее не как требование найти все, а как требование разнообразия «верхней» части выдачи, т.е. требование найти и показать все варианты, все типы ответов на запрос.

Например, если по запросу «дизайн» поисковик находит только релевантные документы, но все — только про дизайн сайтов, то полнота поиска явно низкая. Желательно, чтобы были также найдены страницы про другие виды дизайна — дизайн квартир, ландшафтный дизайн, полиграфический дизайн и пр. Таким образом, если поисковик находит много, но по одной теме, то пользователь получает однообразную информацию.

В последнее время, увы, это довольно обычная ситуация в поисковиках. Сегодня по большинству «коммерческих» запросов невозможно получить «некоммерческие» страницы вверху списка результатов поиска — все первые десятки и даже сотни результатов поиска занимает только коммерческая выдача. Например, если спросить у Яндекса или Google «цветы», то, скорее всего, вся поисковая выдача будет забита страницами с предложениями доставки цветов, причем в основном по Москве. Налицо очень малое разнообразие выдачи. Ни страницы про семена цветов, ни сведения о разведении цветов в выдачу не попадают.

Точность

Точность — это мера качества выданных результатов. Точность вычисляется как количество релевантных страниц в общем объеме того, что выдал нам поисковик.

Если, допустим, нам выдано всего 1000 страниц по запросу очистители воздуха, а на самом деле отношение к очистителям воздуха имеют только 850 из них, то точность поиска будет равна 85% . Ясно, что для поисковика точность важнее всего.

Однако из данного примера видно, что на самом деле нет смысла вычислять точность по всему объему найденных страниц. Гораздо важнее порядок выдачи. А что если все 150 нерелевантных страниц из 1000 окажутся в начале выдачи? Ясно, что средний пользователь, просматривающий две первые страницы результатов поиска (это максимум 20-30 первых результатов), сочтет такую выдачу абсолютно нерелевантной и будет прав.

Таким образом, важно не только обеспечить достаточную точность поиска, или релевантность всего объема найденных по запросу страниц, но и правильно расположить релевантные результаты в выдаче, т.е. обеспечить правильный порядок, или ранжирование, результатов поиска.

Ранжирование

Ранжированием называется упорядочивание результатов поиска по их релевантности. Каждая поисковая машина имеют свою «формулу релевантности» для веб-страниц.

В нее входит учет наличия искомых слов на странице, учет плотности этих слов по отношению к остальным словам, наличие компактных вхождений искомого словосочетания, искомых слов в особых текстовых элементах повышенной важности (например, в заголовках) и т.д.

Подробнее об этих факторах ранжирования рассказывается в главе 11 «Внутренние факторы, от которых зависит положение сайта в результатах поиска» и главе 13 «Авторитетность сайта и ссылочное ранжирование», а здесь стоит только заметить, что не существует единой формулы релевантности не только для всех поисковиков, но и для одного конкретного поисковика, потому что эта «формула» непрерывно развивается и дополняется разработчиками поисковика. Возможно, в эту самую минуту, когда вы читаете эти строки, разработчик Рамблера или Яндекса добавляет какой-то совершенно новый фактор ранжирования в алгоритм своей поисковой машины, чтобы в очередной раз кардинально улучшить качество ранжирования…

Кроме упомянутых сведений о составе и релевантности текста на самой странице, поисковики анализируют также позицию страницы в общем пространстве Интернета, а именно — авторитетность страницы, которую они вычисляют по количеству ссылок на нее с других сайтов.

Что такое ссылочное ранжирование (PageRank)

Как уже говорилось выше, поисковые глашины анализируют структуру ссылок веб-страниц друг на друга. Таким образом выясняется авторитет отдельных страниц (и сайтов в целом) среди сетевого сообщества, среди тех, кто создает сайты и делает на них ссылки на другие сайты.

Опять-таки сама по себе эта идея не новая — она представляет собой автоматизацию довольно старой идеи индекса цитируем ости, который используется в научном мире для вычисления авторитета ученого. Идея проста — кого больше цитируют и на кого чаще ссылаются, тот авторитетен, а его работы, очевидно, больше нужны человечеству. Тот же, кого цитируют меньше, человечеству менее интересен.

Поэтому к обычной «текстовой релевантности», основанной на соответствии самого текста страницы запросу, можно добавить «авторитетность» страницы среди других страниц.

Впервые эту идею применили в публичной поисковой машине в конце 1990-х годов создатели Google — Брин и Пейдж, аспиранты Станфордского университета. Для них, конечно, идея научного индекса цитирования была естественной и давно известной.

Именно ссылочный ранг страницы стал основным принципом ранжирования результатов поиска в Google, что привело к резкому отрыву от конкурентов по качеству поиска и стало одной из основных причин доминирования Google в мировом Интернете. Они назвали этот ссылочный ранг PageRank (ранг страницы), включив заодно в название также и фамилию одного из двух авторов идеи — Ларри Пейджа (Larry Page).

Как определяется ранг страницы

Теоретически идея автоматического использования ссылок для вычисления авторитета страницы выглядит просто: возьмем матрицу всех ссылок всех страниц Интернета друг на друга, т.е. фактически «Интернет в квадрате». Получится матрица гигантских размеров — скажем, двадцать миллиардов на двадцать миллиардов.

Теперь начнем учитывать ссылки страниц друг на друга. Сначала присвоим всем страницам равный вес (ранг). Затем, начиная с какого-нибудь угла этой огромной матрицы, начнем пересчитывать вес страниц и ссылок примерно таким образом: если на страницу ссылается много страниц (т.е. у нее много «входящих» ссылок), то ранг страницы повышается (по некоторой относительно простой формуле).

Будем также учитывать и ранг ссылок. Ведь ссылка с важной страницы лучше ссылки с малозначительной страницы, не так ли? Если на вас сослался президент в своей ежегодной речи, то это более ценно, чем если бы вас вчера упомянул во дворе дворник. Итак, при расчете ранга страницы нужно учесть вес каждой «входящей» ссылки. Наоборот, если со страницы с неким рангом «уходит» несколько ссылок, разделим ранг страницы между всеми ссылками. Действительно, если президент в своей речи сослался исключительно на вас одного — это серьезное событие. Если же он зачитал список из двухсот имен, среди которых было и ваше, то это тоже почетно, но в меньшей степени. Таким образом, если на страницу ссылается очень авторитетный ресурс, то и ранг самой страницы повышатся. Правда, если этот авторитетный ресурс ссылается еще на тысячи других страниц (скажем, это каталог Yahoo), то авторитет каталога «размажется» по всем тысячам ссылок и нам от него достанется немного (другими словами, ранг нашей страницы повысится незначительно). Заметим, что после первого цикла пересчета матрицы связей Интернета нам придется вернуться к началу и пересчитать все ранги еще раз, так как ранги страниц, ссылающихся на самые первые страницы (с которых мы начинали), уже изменились. И так придется сделать много повторов пересчета, так называемых итераций.

В ходе разработки алгоритма создателям Google пришлось доказать эргодическую теорему о том, что процесс пересчета матрицы сойдется, как говорят математики. Получается, что на самом деле достаточно пересчитать матрицу всего несколько раз, чтобы ранги страниц уже были более-менее стабильны и ими можно было пользоваться в поисковике для расчета релевантности.

Для расчета авторитетности сайта нужно пересчитывать гигантские таблицы ссылок с длиной, равной количеству всех страниц в Интернете. Естественно, технически задача такого пересчета гигантских матриц очень сложна. Именно поэтому даже спустя шесть-сесь лет после запуска Google пересчитывает свой индекс не так уж часто, далеко не каждый день, поскольку для пересчета матрицы связей требуются огромные вычислительные мощности.

Зато и выигрыш в релевантности поиска в Google был значительным. Сейчас, спустя шесть лет, уже все поисковые машины (Яндекс и Рамблер в том числе) применяют расчет авторитетности страницы и ссылочный ранг в том или ином виде для расчета релевантности результатов поиска.

В дальнейшем поисковики усовершенствовали идею вычисления авторитетности страницы за счет учета текста на ссылках. Действительно, почти каждая ссылка в Интернете представляет собой какой-то текст (под который и «подложен», собственно, адрес страницы, на которую ссылаются). Естественно учитывать этот текст при расчете ранга той страницы, на которую ведет ссылка. Так возникает ссылочный ранг страницы — ранг, учитывающий тему ссылок.

Ссылочный ранг страницы

Допустим, автор сайта написал у себя на сайте фразу «хорошие стрелялки и мочилки для мобильников» и дал под ней ссылку на некоторую страницу X, повествующую об играх для мобильных телефонов. Ясно, что эти слова нужно как минимум добавить к индексу этой страницы X, даже если на самой странице этих слов нет и если она повествует о мобильных играх в более «академическом» стиле.

А если ссылку на страницу Хсо словом «стрелялки» дали многие вебмастера, то и вес слова «стрелялки» для страницы Хнадо существенно повысить (хотя его вообще нет на странице X).

Например, в Яндексе можно заметить использование ссылочного ранга, когда в результатах поиска страница помечается как «найдено по ссылке». Это значит, что страница показана в результатах поиска не потому, что на ней часто встречается ваш запрос, а потому, что он часто встречается на других страницах в ссылках на эту страницу.

Для вебмастера понятие ранга страницы чрезвычайно важно, ибо с помощью управления ссылками, ведущими на сайт и уходящими с сайта, можно влиять на свой ссылочный ранг и, значит, на свое положение в поисковых машинах.

Posted in Продвижение сайта в поисковых системах.