Как устроен индекс поисковой машины

Индекс — слово, которое постоянно упоминается в связи с поисковыми машинами. Увы, большинство пользователей Интернета до сих пор довольно смутно представляют себе, что это такое. Хотя, как уже говорилось выше, ничего сложного в этом понятии нет, более того, ему много веков, и каждый из нас встречался с индексом в виде предметного указателя книги еще до своего первого выхода в Интернет.

Давайте рассмотрим процесс индексирования текста подробнее и разберемся с устройством индекса. Вот какие шаги выполняет поисковая машина для создания индекса из выкачанных веб-страниц.

Конверсия в чистый текст

Для начала текст индексируемой страницы нужно очистить от всяких нетекстовых элементов — графики, разметки (тегов) языка HTML и прочего «мусора». В результате получается чистый текст, с которым дальше работает индексный робот.

Выборка слов

Все слова нужно выбрать из текста, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом — последовательность букв (и какого именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом и т.п., а также, что словом не считается и пропускается (пробелы, знаки препинания и пр.). Ниже мы расскажем об этом чуть подробнее. А сейчас лишь заметим, что у каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь, увы, не существует).

Итак, поисковик выбирает из текста все, что считает словами, и собирает их в отдельный список.

Лингвистическая обработка

В большинстве поисковых машин слова не заносятся в индекс в том виде, в котором они приведены в тексте.

Обычно на этапе выборки слов из текстов веб-страниц поисковая машина применяет какой-то свой алгоритм лингвистической обработки слов, а именно, приведения слов к их начальным грамматическим формам, или основам (к именительному падежу, грубо говоря). Этот алгоритм называется машинной морфологией. Делается это для экономии места в индексе и, что более важно, для более точного поиска.

По поводу использования машинной морфологии в поисковиках также бытует довольно много мифов и домыслов, так что ниже, в отдельном разделе, мы специально коснемся этого вопроса. Пока же достаточно сказать, что машинная морфология служит для замены слов на их основы в индексе поисковика.

Составление индекса

Собранные вместе основы всех слов из всех текстов сводятся в индекс — своеобразный словарь, в котором основы упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и на каком месте на этой странице данная основа стояла (номер вхождения). Основы в словаре упорядочиваются по алфавиту для удобства поиска по ним.

Таким образом, индексная запись имеет следующую структуру:

ОСНОВА  /номер  страницы +  номер  вхождения   /   номер  страницы  + номер   вхождения   /   номер   страницы  +   номер   вхождения   /   ….

Конечно, в реальности для экономии места и повышения скорости использования индекса его структуру всячески оптимизируют и усложняют. Например, вместо основ в индексе хранят их номера (так как номера короче и имеют фиксированную длину), а основы хранят отдельно; номера страниц пишут не всякий раз, а только единожды для всех вхождений с данной страницы, и т.д. Затем индекс упаковывают для экономии места, еще раз индексируют для ускорения доступа и т.д.

Но общая идея индексной записи именно такова, как описано выше.

«Координатный» индекс

Первые интернет-поисковики (середины 1990-х годов) не запоминали местоположение слова на странице. В индекс записывался только список страниц, на которых встретилось данное слово. Это делалось для экономии места и для того, чтобы получить более простую структуру индекса, другими словами, для более быстрого доступа к индексу.

Однако это ограничение не позволяло достаточно точно определить релевантность страницы при поиске словосочетаний. Ведь поисковик не мог различить компактное вхождение слов запроса, когда они стоят рядом, в одной фразе, от разнесенного вхождения, когда одно слово запроса, скажем, находится в правом верхнем углу страницы, а второе — в левом нижнем.

В результате для многословных запросов релевантность была практически нулевой. Так, например, был устроен поисковик Рамблера вплоть до 1999 года.

С ростом числа многословных запросов (а их доля все время растет по мере роста числа опытных пользователей) и по мере развития поисковых технологий большинство популярных поисковиков перешли на индекс, учитывающий координату слова на странице. Такой индекс называется координатным.

Учет компактных вхождений слов запроса в координатном индексе позволяет не только более аккуратно «взвешивать» релевантность страницы, но и показывать наиболее подходящую цитату из текста страницы.

Как видим, индекс представляет собой обращенную, вывернутую «наизнанку» копию всех страниц Интернета. Если в обычном тексте мы идем от страницы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным или инверсным, т.е. обращенным, перевернутым.

А откуда же берется цитата в поисковых результатах? Ведь порядка слов в тексте в инвертированном индексе явно нет. Неужели поисковик восстанавливает текст страницы по этому вывернутому «наизнанку» индексу?

Нет, хотя это и возможно технически, гораздо проще и экономнее для показа цитат хранить еще и второй индекс, так называемый прямой. Этот прямой индекс есть, по сути, сжатая текстовая копия всего Интернета.

Прямой индекс

Чтобы показывать при найденных страницах цитаты с выделенными (подсвеченными) словами запроса, поисковые машины хранят все тексты всех проиндексированных страниц. Хранят, конечно, в сжатом, упакованном виде, без HTML-разметки, графики и прочего «мусора», в чисто текстовом виде. Но в любом случае поисковая машина хранит у себя на серверах копию всего Интернета, выкачанного ее индексным «пауком».

Для хранения текстовой копии страниц инверсный индекс не подходит — слишком долго каждый раз при отображении цитаты восстанавливать порядок слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разработчиков называемый прямым. Он представляет собой тексты веб-страниц, очищенные от всех не-текстовых элементов, сжатые и упакованные, и является текстовой копией всего Интернета.

Например, Google имеет у себя текстовую копию всего мирового Интернета (в том объеме, до какого смог добраться его «паук»), а Яндекс — копию всего Рунета.

Именно наличие этой текстовой копии позволяет поисковым машинам не только показывать релевантные цитаты в результатах поиска, но и иметь функцию «восстановить текст страницы», которой удобно пользоваться, если сама нужная страница в данный момент недоступна или вообще уже удалена с сайта.

Некоторые важные вопросы

Какие слова индексирует поисковая машина

Как мы уже говорили, для индексации слов на страницах поисковику нужно знать, что именно считается словом.

Что такое слово

Например, слова с дефисом (красно синий, что-нибудь) — это одно слово или два? А числа — это тоже слова, или их следует выбрасывать как «мусор»? А слова на другом языке — выбрасывать или оставлять? Что делать с комбинацией букв и цифр (с названиями моделей электроники, например)? Индексируются ли адреса электронной почты, интернет-адреса или даты, и если да, то как?

Все эти вопросы решаются разработчиками каждой поисковой машины по-своему. Более того, нам здесь нет смысла пытаться точно указать правила выделения слов для Яндекса или Google — они могут меняться хоть раз в месяц, с каждым вводом «в бой» очередной версии поискового механизма. Гораздо проще это проверять самостоятельно, когда требуется.

Как проверить

Вы можете сами легко проверить, как разработчики Яндекса, Google или Рамблера обрабатывают, например, слова с дефисом или числа. Для этого достаточно ввести в поисковик такой запрос и посмотреть, что именно найдет и как покажет результаты поиска данная поисковая машина. Поскольку найденные слова отображаются и подсвечиваются в цитатах (аннотациях) страниц, будет сразу видно, как эти слова хранятся в индексе данного поисковика.

Разделители

Конечно, поисковики не индексируют всякие служебные символы, так называемые разделители — пробелы, знаки препинания, а также различные теги и другие конструкции языка HTML. Например, если ввести в Яндекс или Google запрос из одной точки (.), они откажутся искать по такому запросу, а Яндекс еще и сообщит о «синтаксической ошибке». Действительно, точка есть в любом тексте, так что искать ее нет смысла, да и накладно по затратам серверной мощности.

Стоп-слова

А есть ли «ненужные слова», которые поисковики не индексируют вовсе?

Поисковый индекс представляет собой пусть хорошо упакованную, максимально сжатую, вывернутую «наизнанку», но все же копию всех страниц Интернета, известных поисковику. А поисковики стремятся получить данные о максимально большем количестве страниц, т.е. в идеале поисковый индекс должен представлять собой копию всего Интернета, а это огромный объем данных.

Поэтому раньше поисковые машины старались экономить место на дисках и время работы сервера и отбрасывали при индексации некоторые неважные, служебные слова, так называемые стоп-слова, например предлоги, союзы, числа, сокращения и т.п. Отбрасывали они также и цифры.

В дальнейшем оказалось, что пользователи все-таки достаточно часто запрашивают такие слова, поэтому их нужно хранить (особенно для поиска точных цитат, включающих эти служебные слова). А стоимость хранения мегабайта данных к настоящему времени существенно снизилась — жесткие диски стали дешевы. Так что сейчас большинство популярных поисковиков индексируют все слова в текстах, в том числе и стоп-слова — предлоги, союзы, междометия. Индексируют они также и цифры, и буквенно-цифровые комбинации (т.е. считают их словами).

Так что сейчас вы можете поискать в Яндексе или Рамблере, например, предлог «в». Это, кстати говоря, хороший способ понять, сколько всего страниц в индексе поисковика, поскольку предлог «в» есть в любом русскоязычном тексте.

Индексация ссылок

В текстах веб-страниц во множестве присутствуют ссылки на другие страницы Интернета — гипертекстовые ссылки. Для пользователя они выглядят как подчеркнутые или подсвеченные особым цветом слова, на которых можно щелкнуть мышью и перейти на другую страницу. Для поискового робота выделить в тексте страницы гипертекстовые ссылки нетрудно, потому что они всегда имеют формальный вид — начинаются и заканчиваются специальными метками языка HTML.

Но ссылки — это не текст, не слова. Нужно ли их индексировать?

Да, безусловно. Индексируя ссылки, поисковики преследуют сразу несколько целей.

1. Пополнение списка страниц. С помощью ссылок поисковики пополняютсвой список веб-страниц для индексации.

2. Поиск ссылок на заданный сайт. Большинство современных поисковиков позволяют искать по ссылкам на заданный сайт или страницу, как пообычным словам.

3. Вычисление ранга авторитетности страницы. С помощью ссылок поисковые машины анализируют структуру ссылок сайтов друг на друга,чтобы определить наиболее авторитетные в Интернете страницы и сайты.Правило тут простое: на кого много ссылаются, тот, очевидно, более известен и авторитетен, чем тот, на кого поставили мало ссылок.

Авторитетность страницы, вычисленная по количеству ссылок на нее с других страниц, называется ссылочным рангом страницы (по-английски — PageRank). Об этом методе ранжирования подробно рассказано ниже в этой главе.

4.  Использование текста ссылки. С помощью текста ссылок можно получить тематическую классификацию страниц. Ведь ссылка обычно содержит не только адрес страницы, но и текст ссылки, т.е. те слова, которыеподчеркиваются на веб-странице и на которых можно щелкнуть.

Этот текст поисковики индексируют специальным образом, так как он является фактически кратким смысловым описанием той страницы, на которую ведет ссылка. Это описание можно использовать для поиска вебстраниц (обычно такие страницы помечают в результатах поиска как «найдено по ссылке»), а также для тематического ранжирования веб-страниц при выдаче результатов поиска. Об использовании текста ссылок мы подробнее расскажем в главе 11 «Внутренние факторы, от которых зависит положение сайта в результатах поиска» и главе 13 «Авторитетность сайта и ссылочное ранжирование».

Графический текст

Хотя ото покажется совершенно очевидным опытному человеку, стоит все-таки сказать, что поисковые машины не индексируют текст, написанный графически, т.е. в виде картинки. Оформлять заголовки рубрик сайта, лозунги, название фирмы красивым шрифтом в виде картинки — довольно распространенный прием, но нужно понимать, что поисковая машина фактически «не видит» этого текста.

В последнее время поисковики научились индексировать графику в формате Flash (но только потому, что текст все-таки скрыто присутствует в объектах Flash также и в исходном текстовом виде). А вот текст, представленный в растровом виде (нарисованный с помощью цветных точек, или пикселей), поисковикам еще долго будет недоступен.

Что такое машинная морфология

Как уже говорилось выше, при индексировании текстов и поиске запросов поисковая машина волей-неволей должна производить лингвистическую обработку слов. Причина этого — в устройстве языка.

Проблема окончаний

Во многих языках слова имеют несколько различных окончаний (в так называемых флективных языках; от лат. флексия — окончание). Поэтому у каждого слова очень много различных форм, которые называются словоформами. Бывают, конечно, во флективных языках и неизменяемые слова (предлоги, наречия, союзы и пр.), но их меньшинство.

Словоформы по смыслу являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в основе (например, видеть вижу, бобер бобры, fight fought). А в некоторых особых случаях (так называемый супплетивизм) словоформы одного и того же слова могут вообще не иметь ни единой общей буквы (например, идти шел; go went).

Как видно из примеров, русский и английский языки — флективные. Однако окончаний и разных словоформ в английском языке сравнительно мало. Лингвистическая обработка окончаний в английском очень проста, а часто и вовсе не делается поисковиками.

А вот русский язык, напротив,- высокофлективный язык, так как его слова имеют очень много форм. Например, существительное в общем случае имеет двенадцать словоформ (шесть падежей единственного числа и шесть падежей множественного). Есть и неизменяемые существительные, например кофе, пальто, но их мало. У прилагательного — почти двадцать словоформ, а уж глаголы со всеми своими причастиями могут иметь до сотни форм.

Таким образом, если хранить в индексе все встречающиеся в Интернете слова русского языка во всех их формах, словарь получится просто огромным, размером в десятки миллионов словоформ. Что, естественно, неудобно и неэффективно.

Кроме того, есть еще вопрос правильного поиска слов. Ведь хотелось бы, чтобы поисковая машина знала, что стол и столы — одно и то же слово! Таким образом, поисковику нужно отождествлять между собой словоформы, являющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова.

Как это делается?

Отбрасывание окончаний и работа с основами

Естественным решением этой проблемы изменчивости слов является решение хранить только основы слов, а окончания и чередования — отбрасывать и хранить отдельно. Это дает не только значительную экономию, но и позволяет объединять при поиске разные грамматические формы одного и того же слова, что довольно важно для качества поиска.

Для этого в ходе индексации веб-страниц слова приводятся к своим начальным формам (условно говоря, к именительному падежу или инфинитиву), а чаще — вообще к основам (корням слов), и уже в таком виде добавляются в индекс поисковой машины. Для этого поисковик обычно применяет словарь, т.е. работает только с известными ему словами. (Об обработке неизвестных слов рассказывается во врезке ниже в данной главе.)

Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет сведена к основе и будут найдены все вхождения этой основы в тексте.

Зачем нужно знать о машинной морфологии

Все три российских поисковика — Апорт, Рамблер и Яндекс — уже много лет применяют машинную морфологию при индексировании и поиске. С весны 2006 года русская машинная морфология подключена также и в Google . У каждой поисковой машины машинная морфология своя, особенная. Впрочем, обычные слова, наподобие кондиционер, все они склоняют практически одинаково.

Правда, в отличие от российских поисковиков, Google применяет машинную морфологию не на этапе индексирования, а только во время обработки запроса. Это означает, что Google записывает в индекс все словоформы отдельно, «как есть», а при обработке запроса применяет так называемое расширение запроса: слова запроса превращаются в веер словоформ и вер словоформы ищутся в индексе. Интересно, что делается это не. каждый раз, а только тогда, когда поисковик сочтет это обоснованным, на основе анализа статистики вхождении заданного слова на веб страницы.

Для владельца сайта понимание того, что поисковик считает разные формы слова одним и тем же словом, довольно важно при составлении текстов сайта, управлении ссылками, а также при планировании продвижения сайта и контекстных рекламных кампаний в системах контекстной рекламы Бегун и Яндекс.Директ.

Неизвестные слова и «нечеткая» морфология

Аккуратно отбросить окончание и найти основу можно только у известного слова, которое есть в словаре поисковика. А в языке и особенно в Интернете постоянно появляются новые слова, ибо словотворчество веб-мастеров не знает границ. Как же поступает поисковик с неизвестными ему словами?

С ними делают то же самое, что и с прочими несловарными элементами — числами, буквенно-цифровыми последовательностями, словами неизвестных языков: поисковик хранит их в индексе «как есть», как иероглиф, в той фиксированной форме, в которой они встретились в тексте при индексации. То же самое происходит и с опечатками — они хранятся «как есть». Это довольно очевидный факт, но он ведет к важному выводу: если нужно, чтобы слова на странице распознавались поисковиками во всех своих грамматических формах, их следует писать без ошибок и по возможности использовать общеупотребительные слова, которые наверняка известны машинной морфологии поисковиков.

Иногда поисковик пытается как-то разобраться со словоизменением неизвестного ему слова — выдвинуть гипотезу о его возможных окончаниях по форме слова. Например, если у вас на сайте использовано слово «квазистул», то можно предположить, что оно склоняется так же, как слово «стул». Этот алгоритм называется нечеткой морфологией. Такой алгоритм, в частности, применяют Яндекс и Google. Но этот процесс во многом вероятностный, и рассчитывать на него при написании текстов сайта не стоит.

Какие сайты индексирует поисковая машина

Домены

Очень важно понимать, где находятся пределы зоны индексирования поисковика, какие сайты можно в нем найти, а какие нет, какие сайты можно добавить в поисковик, а какие нет. Хотя Яндекс и Рамблер — поисковые машины по русскоязычным сайтам, т.е. по Рунету, это не значит, что они индексируют только сайты с именами в зоне . ru. В оба поисковика можно добавить сайт с расширением . com, . info и другими, но при этом он должен быть на русском языке. До сайтов из этих и других доменных зон Яндекс и Рамблер добираются и сами, если на них ведут ссылки с сайтов, уже известных этим поисковикам.

Google, который позиционирует себя, как мировую поисковую машину, естественно, индексирует вообще любые сайты во всех доменных зонах.

Какие документы индексируют поисковики

Изначально целью поисковиков было проиндексировать веб-страницы, т.е. тексты в формате HTML, выложенные на сайт и отображаемые веб-сервером по протоколу HTTP . Позже обнаружилось, что много полезной информации выложено в Интернете в виде статей, прейскурантов, документации, руководств и т.п. в разных «офисных» форматах. Поэтому большинство поисковиков 2-3 года назад начали индексировать выложенные на сайт документы в форматах MS Word, PDF и MS Excel. Широкое распространение динамических страниц в формате Flash заставило поисковики индексировать и тексты, скрытые в этом формате файлов.

Однако не стоит рассчитывать на индексацию вашей информации в этих экзотических для Интернета форматах, поскольку нет гарантии, что поисковик заиндексирует их хорошо. Если есть возможность, всегда следует дублировать на сайте любые важные тексты в формате HTML.

Протокол HTTP (HyperText Transfer Protocol) методика передачи веб страниц по сети Интернет.

Например, нужно всегда иметь прейскурант в виде обычной веб-страницы, потому что до прейскуранта в формате Excel поисковик может не добраться, а если и доберется, то индексация, поиск и показ его в результатах поиска будут обязательно хромать, поскольку поисковики не умеют разбирать структуру Excel-файлов так же хорошо, как HTML-страниц.

Заметим, что поисковики не индексируют тексты, которые выводятся на экран пользователя динамически разными программными средствами наподобие сценариев на языке JavaScript. Они так же невидимы для поисковика, как и тексты в графическом виде, о которых говорилось выше.

Глубина и объем индексации

А насколько глубоко поисковик «зарывается» в сайт, есть ли какие-то ограничения?

Теоретически таких ограничений нет, однако на практике поисковик не станет выкачивать с вашего сайта миллионы страниц (если они там есть). Ведь у поисковика в очереди на индексацию кроме вашего сайта стоят миллионы других сайтов, поэтому он старается за один раз, за один проход взять с каждого сайта некоторое разумное количество страниц. На следующем цикле индексации поисковик может взять еще какое-то количество ваших страниц и т.д. Чтобы не брать каждый раз слишком много, поисковик старается не погружаться слишком глубоко по ссылкам внутрь вашего сайта.

Это означает, что даже при большом количестве страниц сайт должен быть разумно организован, скажем, не должно быть страниц, до которых можно добраться только по цепочке из десяти ссылок. В главе б «Как сделать сайт доступным для поисковых систем» и главе 12 «Коррекция сайта с целью продвижения в поисковых системах» мы расскажем об этом подробнее.

Индексация баз данных

Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Это гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.

Как поисковики обращаются с такими сайтами, могут ли они их индексировать?

Ответ тут простой: если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся при подобном переходе. Находится ли страница на сайте или генерируется динамически при переходе по ссылке — для индексации неважно. А вот если для получения страницы пользователь должен обязательно ввести какой-то запрос к базе данных, то поисковик таких страниц просто «не видит».

Поясним вышесказанное на примере. Допустим, у вас есть онлайновая энциклопедия по фильмам и актерам, содержащая 100 тысяч статей в алфавитном порядке. Конечно, хранить и редактировать такое количество страниц «россыпью», в виде HTML-файлов, крайне неудобно. Поэтому статьи энциклопедии будут, скорее всего, храниться в базе данных, где их достаточно просто свести в одну таблицу и хранить в нескольких файлах базы данных.

Пусть теперь вы подали свой сайт на индексацию в поисковиках. Если у вас на сайте будет полное оглавление статей энциклопедии, в виде иерархического оглавления (скажем, по буквам алфавита) или в виде простого линейного списка заголовков статей, то поисковик пройдет по этому оглавлению, как по обычным ссылкам, и проиндексирует всю вашу энциклопедию. Сделает он это, скорее всего, не сразу, а в несколько проходов (так как статей много), но в конце концов все статьи энциклопедии попадут в индекс.

Если же у автора сайта не хватило сил и времени сделать такое оглавление для доступа к отдельным статьям энциклопедии (а это большая работа — сделать 100 тысяч аккуратных ссылок в том или ином виде), то пользователь сможет найти статью только с помощью поиска в базе данных по ключевым словам, входящим в заголовок или тело статьи. Такие средства есть практически в любой базе данных, и вебмастера ими активно пользуются.

Но поисковик — не пользователь, он ведь не будет специально перебирать и подставлять все слова русского языка в окошко для поиска на вашем сайте! Он зайдет на страницу поиска, ссылок на статьи энциклопедии не обнаружит и отправится дальше индексировать Интернет по своему расписанию. Окошко поиска, так называемая форма поиска, не является ссылкой на другие страницы и интереса у поисковика не вызовет. Следовательно, в данном случае он проиндексирует только одну страницу — страницу поиска по энциклопедии, а сама энциклопедия останется для него невидимой.

Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте только то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска — для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о «глубинном Интернете», который невидим поисковикам и который больше видимого в десятки или даже сотни раз.

Как часто поисковая машина обходит Интернет

Более точно этот вопрос можно сформулировать так: как быстро новые страницы появляются в индексе поисковика и как часто поисковик их потом обновляет?

Безусловно, идеальный поисковик должен иметь всякую страницу в своем индексе сразу же, как только она появилась. И существующие поисковики к этому стремятся. Однако огромный объем Интернета ставит здесь свои препятствия и ограничения.

От обхода раз в месяц в начале текущего века Яндекс и Рамблер к настоящему времени добрались до еженедельной индексации. Однако, поскольку есть такие типы информации (новости, цены, курсы валют), для которых обновление раз в неделю — это чрезвычайно медленно, поисковики имеют специального «быстрого робота», который может обходить быстро изменяющиеся сайты по нескольку раз в день.

Каким образом сайты попадают в списки такого быстрого робота — отдельный разговор. Поисковик имеет механизмы «самообучения» быстрого робота. Если ваш сайт уже достаточно авторитетен (имеет высокий ссылочный ранг) и при этом имеет много страниц, которые часто изменяются, у него довольно много шансов быть замеченным «быстрым роботом».

Что такое язык запросов

Как правило, у любой поисковой машины есть возможность так называемого расширенного поиска. Расширенным он называется потому, что имеет расширенные возможности задания запроса. В первую очередь это касается возможности использовать при поиске логические операторы наподобие И, ИЛИ и НЕ, чтобы задать, например, поиск кондиционера или очистителя воздуха в Москве, но не в Петербурге. Также широко распространен оператор буквального поиска заданного словосочетания — обычно для этого искомую фразу заключают в кавычки.

Правила употребления этих и других поисковых операторов и называются языком запросов. Язык запросов, как правило, значительно отличается в разных поисковых машинах — по способам записи операторов, алгоритмам их применения в поиске и т.п.

Обычно при описании поисковой машины в научной литературе или компьютерной периодике считается хорошим тоном посвятить одну-две страницы ее языку запросов и показать, какой он мощный.

Мы здесь этого делать не будем по одной очень простой причине — это не имеет практического смысла для владельца сайта, желающего продвинуть свой сайт в поисковых машинах.

Дело в том, что, несмотря на богатые возможности языка запросов современных поисковых машин, пользуются им на практике 1-2% наиболее опытных и технически грамотных пользователей. Следовательно, какой бы ни был язык запросов у Яндекса, это практически никак не повлияет на посещаемость вашего сайта.

Более того, согласно статистике самих же поисковых машин, обычный пользователь по мере получения опыта в Интернете движется не в сторону овладения языком запросов, а в сторону использования естественного языка, т.е. более длинных словосочетаний и фраз в запросе. По сути, язык запросов — это анахронизм, оставшийся от тех времен, когда пользователями Интернета были в основном люди с техническим образованием, инженеры и математики, готовые программировать и отлаживать свои запросы для достижения наилучшего результата.

А обычный, массовый пользователь вводит запросы, как ему Бог на душу положит. Поэтому чуть ниже мы разберемся подробнее, какие вообще бывают запросы.

Posted in Продвижение сайта в поисковых системах.