Внутренние факторы, от которых зависит положение сайта в результатах поиска

  • Представление о «естественных веб-страницах»
  • Внутренние факторы ранжирования
  • Сочетание факторов ранжирования: «формула релевантности»
  • Выводы

В этой главе вы узнаете, на какие параметры веб-страницы можно влиять, чтобы повысить позицию страницы в результатах поиска, а также почему поисковые системы считают именно их важными для ранжирования результатов поиска.

Мы уже знаем, как устроен индекс поисковой системы — об этом рассказывалось в главе 5 «Как устроены поисковые системы». Если пользователь ввел запрос, например «новости», поисковая система увидит в своем индексе, что слово «новости» было найдено на многих веб-страницах. При этом количество страниц может быть очень большим — тысячи и даже десятки тысяч.

Возникает закономерный вопрос: в каком порядке поисковой системе нужно сортировать (ранжировать) ссылки на найденные страницы, чтобы наверху списка результатов оказались ссылки на страницы, наиболее соответствующие поисковому запросу?

Для решения этой задачи поисковые системы учитывают довольно много свойств текста страницы и всего сайта — факторов, которые можно условно разделить на две группы: внутренние и внешние.

К внутренним факторам мы относим те факторы, на которые владелец сайта может влиять самостоятельно. Это, например, тексты сайта, теги, изображения, ссылки на сайте и т.н. Внешние факторы — это, прежде всего, ссылки на сайт с других сайтов Сети. Их ставят владельцы других сайтов, и напрямую повлиять на них нельзя. О способах влияния на внешнюю ссылочную структуру сайта мы расскажем в отдельной главе.

Какие же внутренние факторы учитывают поисковые системы, ранжируя ссылки на найденные страницы?

Представление о «естественных веб-страницах»

Главный принцип поисковых систем таков: они стремятся найти и показать вверху списка результатов «естественные веб-страницы» , наиболее соответствующие запросу.

Как говорят разработчики поисковых машин, их интересуют веб-страницы, созданные людьми и для людей (а не для поисковых роботов).

Что же означает слово «естественные»? Разберем это на примере.

Пусть поисковая система по запросу новости нашла два следующих текстовых документа. В обоих текстах есть слово «новости».

Главные неофициальные новости 2005 года

Весь год, параллельно с самыми важными событиями, происходит множество любопытных курьезов, которые упоминаются в новостях в последнюю очередь. Однако без них картина уходящего года была бы, наверное, не полной, и уж, во всяком случае, не такой красочной. Лента. Ру предлагает список самых странных новостей года, составленный на основе предпочтений наших читателей.

* * *

Главные новости неофициальные новости 2005 новости года

Весь новости год, параллельно новости с самыми важными событиями, происходит новости множество любопытных новости курьезов, которые упоминаются в новостях в последнюю новости очередь. Однако без новости них картина уходящего года была бы, наверное, не полной, и уж во всяком новости случае не такой красочной. Лента.Ру предлагает новости список самых странных новостей года, составленный на основе предпочтений новости наших читателей.

Например, Яндекс называет это естественными сетевыми документами.

Даже беглый взгляд на эти тексты позволяет увидеть принципиальное отличие: первый текст написан хорошим, гладким языком, а вот второй… какой-то «неправильный». Читать его сложно, слово «новости» употребляется в нем не к месту и не в меру. Иными словами, первый текст — естественный, он написан человеком и для человека. Второй — неестественный, люди не смогут легко прочитать его и понять. Очевидно, он составлен кем-то специально для поискового робота.

А теперь вспомним, что нам (поисковой машине) необходимо решить, ссылку на какой из этих документов поставить выше в результатах поиска по запросу новости. В первом тексте слово «новости» встречается два раза, во втором — двенадцать.

Казалось бы, чем чаще в тексте встречается нужное слово, тем более соответствует текст запросу… Следуя такой простой логике, мы должны были бы в результатах поиска первой поставить ссылку на полную белиберду.

Увы, поисковая система не умеет понимать тексты, как это делает человек, и выбор из двух, или двух сотен, или двух миллионов текстов, в которых найдено слово из поискового запроса, осуществляется автоматически. Как же поисковая машина может автоматически отличить естественные тексты от неестественных?

На помощь приходят лингвистика и математика. Естественный текст имеет свои качественные и количественные характеристики, которые почти не меняются от текста к тексту. Это средняя длина предложений, средняя длина слов, частоты употребления слов, распределение знаков препинания и т.п. Многие из этих характеристик можно подсчитать автоматически и тем самым оценить степень естественности текста.

Наиболее устойчивы частоты встречаемости слов в тексте. Они лучше всего исследованы, и их труднее всего подделать. Наиболее известным лингвистическим фактом о частотах слов в «естественных» текстах является закон Ципфа: если расположить слова в порядке их частоты употребления в некотором достаточно большом текстовом массиве, то количество вхождений слова будет обратно пропорционально его номеру. Закон Ципфа применяют для анализа текстов в самых разных отраслях, в том числе даже для анализа зашифрованных сообщений в криптографии, когда нужно понять, имеем ли мы дело хоть и с зашифрованным, но все-таки естественным текстом.

Конечно, частота употребления конкретного слова сильно зависит от тематики рассматриваемых текстов. Но в одной тематике эти частоты довольно устойчивы и починяются закону Ципфа.

Зная этот закон и другие принципы поведения слов в тексте, поисковая машина может обнаружить неестественную плотность и расположение некоторых слов и на этом основании сделать заключение о неестественном характере текста.

Например, в приведенном примере неестественного текста частота слова «новости» почти в три раза выше, чем ожидаемое для естественных текстов.

Несомненно, что алгоритмы ранжирования реальных поисковых машин намного сложнее и учитывают множество факторов. Но все эти факторы, используемые в качестве значимых параметров для ранжирования, взяты именно из представлений о том, какими должны быть нормальные, естественные, сетевые документы, предназначенные для пользователей.

У читателя может возникнуть естественный вопрос, почему мы так старательно подчеркиваем слово «естественный». Разве в Интернете кроме обычных текстов веб-страниц бывают какие-то другие, «неестественные» документы? Откуда они могут появиться, кто и с какой целью их создает? Кому может понадобиться нечитаемый документ, где слово «новости» повторяется через каждые два слова?

К сожалению, неестественных документов, созданных для того, чтобы обмануть поисковики, в Интернете очень много. Вопрос, кто их создает и с какой целью, мы подробно разберем в главе о поисковом спаме.

А сейчас рассмотрим внутренние факторы, от которых зависит положение сайта в результатах поиска.

Posted in Продвижение сайта в поисковых системах.