Как устроены поисковые системы

  • Поиск информации и поисковые машины
  • Как работает поисковая машина
  • Как устроен индекс поисков
  • Некоторые важные вопросы
  • Качество поисковой машины
  • Какая поисковая машина лучше
  • Выводы

Большинство пользователей только в общих чертах представляют себе, как работает поисковая машина. Поэтому в данной главе мы рассматриваем основные понятия и устройство поисковых систем (они же поисковые машины, или поисковики). Если вы хорошо зна ете, что такое индекс и поисковый запрос, можете смело пропустить эту главу.

Главный элемент структуры современного Интернета — это поисковые машины, или поисковики. Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google (произносится как гугл). В российском же, а точнее, в русскоязычном Интернете (Рунете), наиболее популярный поисковик — Яндекс. В два раза (по количеству поисковых запросов в день) от Яндекса отстает Рамблер, потом следует «русский» Google, затем, совсем далеко от лидеров, следует Апорт.

Почему именно поисковики заняли в Интернете самое важное место?

Потому что они упорядочивают хаос. Ведь сайты и их страницы «разбросаны в Интернете без какого-либо порядка, без первой или последней страницы, без способа перехода к следующей странице. «Читать» Интернет подряд — невозможно.

Ситуация тут такая же, как и с телефонными номерами. Телефонные номера рассыпаны в беспорядке в «пространстве» всех телефонных номеров. Есть, конечно, какие-то закономерности в распределении первых цифр номера (можно догадаться о районе города по номеру АТС или угадать оператора мобильной связи), но чтобы найти точный номер нужной организации, нужна записная книжка или какой-то другой список персон или организаций. Именно поэтому для номеров телефонов существуют справочники.

Аналогом телефонных справочников в Интернете сейчас служат поисковые машины, которые обеспечивают «прозрачность» Интернета для пользователей. Как же они это делают?

Поиск информации и поисковые машины

За века, прошедшие со времени изобретения книг, человечество придумало только три основных способа поиска информации в большом количестве страниц. И каждый из нас встречался с ними еще до своего первого выхода в Интернет.

В Интернете используются эти же способы для поиска нужной страницы, просто они автоматизированы и выполняются специальными программами. Это — оглавление, ссылки и предметный указатель.

Оглавление

Первый, самый естественный способ поиска нужной страницы — это оглавление книги. Читатель книги просматривает ее оглавление, находит нужную ему главу, видит номер нужной страницы и открывает ее, пролистав книгу до нужного номера страницы.

Этому способу поиска в Интернете соответствуют каталоги.

В них страницы (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу.

Сначала именно каталоги были основным способом упорядочения Интернета (в середине 1990-х годов), но потом постепенно уступили первенство поисковикам — и на то было много причин. О существующих каталогах мы рассказывали в главе 1 «Предложение и поиск информации в Интернете».

Ссылки

Второй привычный нам способ поиска — это ссылки в тексте на нужные страницы книги, например «подробнее об этом см. на стр. 234». Чтобы найти нужный текст, читатель книги должен открыть указанную страницу 234 и найти в ее тексте интересующий фрагмент.

В Интернете идею отсылок читателя со страницы на страницу превратили в автоматические ссылки на страницы, на которых пользователь просто щелкает мышкой. Ссылки в Интернете называются гипертекстовыми ссылками («гипер» — потому, что ссылка уводит за пределы текста, на другую страницу).

Ссылки — это основной, «корневой» принцип Интернета, а ведь по сути это старая идея, просто автоматизированная текстовая ссылка.

Ссылки в каталогах и на обычных сайтах чаще всего расставляют вручную — вебмастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.

Предметный указатель, или индекс

Третий, самый интересный для нас способ поиска нужной страницы — это алфавитный список важных терминов в конце книги, так называемый предметный указатель, или индекс. Вы наверняка встречали его в учебниках, а также в научных и технических изданиях. Вот как может выглядеть фрагмент типичного индекса:

Тау Кита, 90

Третья космическая скорость, 255; 294

Туманность, 14; 29; 188

Андромеды, 29; 188

Тяжелые кварки, 347

В индексе перечислены важные для данной книги термины (ключевые слова) и номера страниц, на которых эти термины встречаются. Если читатель книги не может найти нужную страницу по оглавлению, он может предположить, какие слова могут встречаться на ней, и заглянуть в индекс.

Вот именно эта идея поиска нужной страницы по ключевым словам в индексе и стала основной идеей, на которой созданы интернет-поисковики. Естественно, составление и использование поискового индекса в Интернете автоматизированы.

Фактически, когда пользователь вводит поисковый запрос в поисковую машину, он обращается к предметному указателю Интернета, или индексу, — списку всех ключевых слов Интернета с указанием страниц, на каких они встречаются.

Каким же образом составляется и работает этот индекс Интернета?

Как работает поисковая машина

Поисковая машина — это программа, которая составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.

Вот из каких этапов состоит процесс составления индекса и поиска по нему.

Сбор адресов страниц в Интернете

Чтобы составить индекс по страницам, сначала нужно решить, какие страницы нам нужны. Таким образом, нужно сначала составить список страниц — набор адресов тех страниц, по которым будет составляться индекс.

Поскольку сайты и их страницы беспорядочно разбросаны в Интернете,поисковой машине нужно с чего-то начать. Обычно разработчики поисковоймашины загружают в нее какой-то начальный список адресов страниц сайтов(взяв его, например, из какого-нибудь каталога). Затем поисковая машина (еесоставная часть  — так называемый поисковый робот) собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет всенайденные в ссылках адреса к своему первоначальному набору адресов.

Таким образом, первоначальный набор адресов страниц быстро увеличивается за счет ссылок на другие сайты и страницы и постепенно становится очень большим. Сейчас поисковики обходят и индексируют миллиарды веб-страниц.

Нужно обратить внимание на тот очевидный факт, что малоизвестные страницы, на которые никто не ссылается, имеют очень мало шансов автоматически попасть в индекс поисковой машины! Дело в том, что вручную разработчики поисковика не смогут добавить их в начальный список адресов (из-за того, что они мало известны), а по ссылкам поисковому роботу до них добраться трудно — из-за небольшого количества этих ссылок. Возможно, поисковый робот и доберется до них когда-нибудь, но далеко не в первую очередь.

А страница, на которую нет вообще ни одной ссылки, «своим ходом» не попадет в индекс поисковика никогда, если не предпринимать специальных усилий.

Конечно, владелец сайта может сам добавить новый адрес страницы в индекс поисковика вручную, используя средства регистрации новых веб-страниц, которые есть во всех поисковых машинах.

Выкачивание страниц

Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст.

Для этого поисковик должен выкачать этот текст, т.е. запросить у сайта заданную страницу. Выкачивает страницы специальный модуль поисковой машины, называемый поисковым «пауком» (по-английски crawler), или поисковым роботом. Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу.

Составление индекса, или индексирование

Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице.

Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), удаляет из текста страниц всякий ненужный, нетекстовый «мусор» (например, разметку языка HTML ), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты.

Как именно устроен индекс, мы подробно расскажем чуть позже.

Поиск

Все описанные предыдущие шаги незаметны для пользователя поисковой машины, они выполняются в поисковой машине. А вот сам поиск — это и есть то, что видит пользователь. Пользователь вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина — о, чудо! — выдает список ссылок на страницы в Интернете.

Как это работает? Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к заданному слову, и показывает пользователю результаты поиска, т.е. список страниц.

В списке результатов обычно отображается заголовок страницы (так называемый титул), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым словом. Откуда взялась эта цитата, мы расскажем далее, в разделе, описывающем устройство индекса.

Если же в запросе было несколько слов, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются, т.е. встречаются в каждом списке страниц для каждого слова. Таким образом, выбираются только те страницы, на которых одновременно встречаются все слова запроса.

Конечно, здесь изложена самая суть механизма поиска по индексу, его основной принцип, а в реальности разработчики поисковиков используют множество разнообразных ухищрений (о нескольких из них вы узнаете ниже).

Поисковик тем лучше, чем более «правильные» страницы он показывает пользователю в ответ на запрос. «Правильные» страницы называются релеван тными (т.е. относящимися к делу, уместными).

Чтобы понимать, как поисковику удается находить наиболее релевантные страницы, нужно разобраться в том, как устроен индекс поисковой машины.

HTML (HyperText Markup Language —— язык гипертекстовой разметки ) — набор специальных команд для оформления отображаемой на веб-странице информации: текста, изображений, таблиц, форм и т.д.

Posted in Продвижение сайта в поисковых системах.