Откуда берутся данные для анализа

Все системы статистики берут свои данные из событий, происходящих при обращении браузера пользователя к веб-серверу, который обслуживает ваш сайт.

События эти записываются в журнал сайта, так называемый лог.

Логи сайта

При обращении пользователя к сайту происходит сразу несколько событий.

1. Запрос страницы. Клиент (браузер) передает на WWW-сервер запрос на выдачу страницы, при этом на сервере становятся известны:

а)  обязательные параметры: IP-адрес клиента, запрашиваемый URL,дата и время запроса (по IP-адресу можно определить географическоеположение клиента);

б)  дополнительные параметры (необязательные, но обычно передаваемые): используемый пользователем браузер, адрес (URL) предыдущейстраницы, с которой произошел переход, имя пользователя и парольдля защищенных страниц и т.д.

2.  Выдача страницы. Сервер возвращает клиенту запрошенный документ(HTML или картинку).

3. Запись в лог. Веб-сервер записывает данные о произошедшей транзакциив журнальный файл (лог-файл).

Как правило, веб-страницы (в этой главе будем называть их документами) являются составными, т.е. они состоят из HTML-текста страницы и некоторого количества вставленных в текст изображений. Все они передаются в браузер пользователя по отдельности — на самом деле при запросе страницы происходит несколько транзакций, записываемых в лог по отдельности. Необходимо упомянуть также особенности составных документов.

  • Для каждого вложенного документа (изображения, текста во фрейме, стилевого файла и т.п.) пользовательский браузер делает отдельный запрос.
  • Элементы составного документа могут извлекаться не с одного сайта,а с нескольких разных сайтов (веб-серверов). В этом случае адреса (URL)вложенных элементов описываются в основном, внешнем документе.В данном случае запись о запросе страницы появится не только в логахвашего сайта, но и в журнальных файлах этих третьих серверов.

Вот пример нескольких записей журнального файла: 

62.205.178.34 [17/Jun/2005:00:06:52 +0400]

«/apache-talk/msg05126.html HTTP/1.1» 12854

«http://www.yandex.ru/yandsearch?rpt=rad&text=RFCl94 5»

«Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; .NET

CLR 1.1.4322)»

«ruid=0000000142B1DAE90000 92EA03030F02»

62.205.178.34 [17/Jun/2005:00:06:52 +0400]

«image/color_logo.gif HTTP/1.1» 2649

«http://www.lexa.ru/apache-talk/msg0512 6.html»

«Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon;.NET

CLR 1.1 .4322) «

«ruid=0 000 000142BlDAE900 00 92EA0 30 30F02»

Здесь первая запись фиксирует получение HTML-страницы, а вторая — вложенной в нее картинки. Следует уточнить, что в этом примере оставлены только существенные для изложения поля данных (в порядке следования: IP-адрес, дата, URL, размер документа, URL ссылающейся страницы, название пользовательского ПО и идентификатор пользователя).

Журнальные файлы представляют собой сырые данные, которые необходимо обработать. Качество обработки этих сырых данных (глубина анализа) и определяет качество той системы статистики, которую вы будете использовать.

Заметим, что в логах сайта содержится вся необходимая информация, и никаких других данных о посещаемости сайта в большинстве случаев не существует.

Подсчет посетителей

По IP-адресам невозможно точно подсчитать количество посетителей сайта. Это связано с тем, что многие пользователи пользуются корпоративным доступом в Интернет и при выходе в сеть получают один и тот же IP-адрес (адрес корпоративного «прокси», т.е. сервера-посредника). То же самое верно для пользователей некоторых публичных систем доступа в Интернет (домашних сетей, систем телефонного дозвона) — пользователям каждый раз назначаются разные IP-адреса или один на всех.

Для более точного подсчета посетителей и для распознавания того же посетителя в его следующих заходах на ваш сайт в Интернете используется технология cookie (в переводе с англ. печенье; читается как куки), которая заключается в следующем.

  • При первом посещении сайта браузеру пользователя присваивается уникальный cookie-идентификатор — по сути, простая текстовая строчкас данными веб-сервера.
  • При последующих просмотрах страниц сайта браузер, наоборот, сообщаетэтот идентификатор выдавшему его сайту (и только ему). Таким образом,можно отследить как нескольких пользователей, приходящих с одногоIP-адреса, так и одного пользователя, приходящего с разных IP-адресов.

На сегодняшний день для большинства сайтов этот метод является единственным способом отследить поведение посетителей сайта (без их регистрации и последующего ввода имени и пароля).

В то же время, согласно современным оценкам, от 10 до 30% пользователей в течение месяца очищают (или теряют) записи cookies. Это и приводит к тому, что оценка количества новых пользователей оказывается завышенной, как уже упоминалось выше.

Точность подсчетов

Реальная жизнь несколько сложнее описанной выше простой схемы. Аккуратный подсчет статистики сайта затрудняется по нескольким причинам.

  • Часть пользователей выходит в Интернет с разделением одного IP-адресамежду многими пользователями. Это происходит при разделении одного ADSL-соединения между несколькими клиентами, при использованиикорпоративных «серверов-посредников» (прокси-серверов) и т.п.
  • Часть пользователей меняет свой IP-адрес в процессе работы (например,после обрыва dialup-соединения восстановление может происходить с заменой IP-адреса).
  • Используются персональные и корпоративные брандмауэры или «файр-воллы» (firewall) и анонимизаторы, которые вообще не позволяют передавать браузеру пользователя записи cookies и другие необязательные данные запроса.
  • Часть обращений пользователей к веб-страницам не фиксируется в логах, так как страница на самом деле берется браузером не с самого сайта, а с локального диска пользователя (если она была скачана ранее) илииз веб-акселератора провайдера (для ускорения доступа к сайтам многиепровайдеры хранят часто запрашиваемые страницы в специальном буфере — кэше).

Вследствие этих причин полученные статистическими сервисами данные отличаются от реальных. Не существует каких-то корректных способов оценить величину отклонения «реальности» от измеренных характеристик, однако принято считать, что эти отклонения в среднем не превышают 5-10%.

В то же время, если аудитория сайта достаточно велика и нет оснований полагать, что она резко изменится (например, после активной рекламы на ресурсах с большой посещаемостью), то можно считать ошибку измерения постоянной и успешно сравнивать между собой данные по соседним дням, неделям, месяцам.

Posted in Продвижение сайта в поисковых системах.