Откуда берутся данные для анализа |
|
Все системы статистики берут свои данные из событий, происходящих при обращении браузера пользователя к веб-серверу, который обслуживает ваш сайт. События эти записываются в журнал сайта, так называемый лог. Логи сайтаПри обращении пользователя к сайту происходит сразу несколько событий. 1. Запрос страницы. Клиент (браузер) передает на WWW-сервер запрос на выдачу страницы, при этом на сервере становятся известны: а) обязательные параметры: IP-адрес клиента, запрашиваемый URL,дата и время запроса (по IP-адресу можно определить географическоеположение клиента); б) дополнительные параметры (необязательные, но обычно передаваемые): используемый пользователем браузер, адрес (URL) предыдущейстраницы, с которой произошел переход, имя пользователя и парольдля защищенных страниц и т.д. 2. Выдача страницы. Сервер возвращает клиенту запрошенный документ(HTML или картинку). 3. Запись в лог. Веб-сервер записывает данные о произошедшей транзакциив журнальный файл (лог-файл). Как правило, веб-страницы (в этой главе будем называть их документами) являются составными, т.е. они состоят из HTML-текста страницы и некоторого количества вставленных в текст изображений. Все они передаются в браузер пользователя по отдельности - на самом деле при запросе страницы происходит несколько транзакций, записываемых в лог по отдельности. Необходимо упомянуть также особенности составных документов.
Вот пример нескольких записей журнального файла: 62.205.178.34 [17/Jun/2005:00:06:52 +0400] "/apache-talk/msg05126.html HTTP/1.1" 12854 "http://www.yandex.ru/yandsearch?rpt=rad&text=RFCl94 5" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; .NET CLR 1.1.4322)" "ruid=0000000142B1DAE90000 92EA03030F02" 62.205.178.34 [17/Jun/2005:00:06:52 +0400] "image/color_logo.gif HTTP/1.1" 2649 "http://www.lexa.ru/apache-talk/msg0512 6.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon;.NET CLR 1.1 .4322) " "ruid=0 000 000142BlDAE900 00 92EA0 30 30F02" Здесь первая запись фиксирует получение HTML-страницы, а вторая - вложенной в нее картинки. Следует уточнить, что в этом примере оставлены только существенные для изложения поля данных (в порядке следования: IP-адрес, дата, URL, размер документа, URL ссылающейся страницы, название пользовательского ПО и идентификатор пользователя). Журнальные файлы представляют собой сырые данные, которые необходимо обработать. Качество обработки этих сырых данных (глубина анализа) и определяет качество той системы статистики, которую вы будете использовать. Заметим, что в логах сайта содержится вся необходимая информация, и никаких других данных о посещаемости сайта в большинстве случаев не существует. Подсчет посетителейПо IP-адресам невозможно точно подсчитать количество посетителей сайта. Это связано с тем, что многие пользователи пользуются корпоративным доступом в Интернет и при выходе в сеть получают один и тот же IP-адрес (адрес корпоративного "прокси", т.е. сервера-посредника). То же самое верно для пользователей некоторых публичных систем доступа в Интернет (домашних сетей, систем телефонного дозвона) - пользователям каждый раз назначаются разные IP-адреса или один на всех. Для более точного подсчета посетителей и для распознавания того же посетителя в его следующих заходах на ваш сайт в Интернете используется технология cookie (в переводе с англ. печенье; читается как куки), которая заключается в следующем.
На сегодняшний день для большинства сайтов этот метод является единственным способом отследить поведение посетителей сайта (без их регистрации и последующего ввода имени и пароля). В то же время, согласно современным оценкам, от 10 до 30% пользователей в течение месяца очищают (или теряют) записи cookies. Это и приводит к тому, что оценка количества новых пользователей оказывается завышенной, как уже упоминалось выше. Точность подсчетовРеальная жизнь несколько сложнее описанной выше простой схемы. Аккуратный подсчет статистики сайта затрудняется по нескольким причинам.
Вследствие этих причин полученные статистическими сервисами данные отличаются от реальных. Не существует каких-то корректных способов оценить величину отклонения "реальности" от измеренных характеристик, однако принято считать, что эти отклонения в среднем не превышают 5-10%. В то же время, если аудитория сайта достаточно велика и нет оснований полагать, что она резко изменится (например, после активной рекламы на ресурсах с большой посещаемостью), то можно считать ошибку измерения постоянной и успешно сравнивать между собой данные по соседним дням, неделям, месяцам.
|
Навигационные запросыПримерно каждый десятый запрос к Яндексу – «навигационный», то есть состоит из названия организации или сайта и пользователь хочет перейти на сайт этой организации. В этом случае поисковая строка Яндекса используется вместо адресной строки браузера и остальные девять поисковых результатов пользователя, как правило, не интересуют. Не отвлекая пользователя от главной цели, мы добавили после... Читать полностью |
Что ждет нас в будущем?Как мы видим, Яндекс не стоит на месте, и я уверен, что поисковые технологии этой системы будут развиваться и дальше, чтобы повышать качество поиска, которое пока трудно назвать идеальным. Читать полностью |
Алгоритм НаходкаТестирование новой версии алгоритма Яндекса началось 9 июля 2008 года. По заявлениям Яндекса, «основные изменения в программе связаны с новым подходом к машинному обучению и, как следствие, отличиями в способе учета факторов ранжирования в формуле». Читать полностью |
Алгоритм Магадан14 апреля 2008 года адресу buki.yandex.ru начала тестироваться новый поисковый алгоритм «Магадан». Кроме того, что увеличилось вдвое количество факторов ранжирования, был также добавлены следующие нововведения: Читать полностью |
