Дубликаты контента — мифы и решение проблемы Определение дублированного контента

Долгое время существовало сильное убеждение что поисковые машины — в частности Google -применяют санкции к сайтам которые содержат не оригинальный контент, или имеют контент который очень распространенный (популярный) в сети.

image41

И вот сейчас я хочу заявить вам, санкции за дублированный (т.е. не уникальный) контент — это миф.

MyOST: По поводу «мифа», что за дублированный контент санкций нет, как пишет автор — вот тут я в корне не согласен, на сегодняшний день — дублированный контент это бич современного SEO и главная причина многих проблем. Причем применительно это не только к Гуглу, но и к Яндексу в частности.

Давайте посмотрим на эту проблему шире. Если какая-то страница с контентом имеет 5 входящих ссылок и эта страница размещена только под одним URL’OM, тогда весь ссылочный вес передается только одному URL.

image42

А теперь представьте что эта страница с контентом и входящими на нее ссылками висит на 5 разных URL’ax, то теперь каждый из этих продублированных URL’OB получит только 1/5 ссылочного веса.

Все эти страницы только вместе имеют такой же ссылочный вес как только одна оригинальная.

Миф о санкциях поисковиков за не оригинальный контент произошел от неправильного понимания самой причины этого явления- распределения ссылочного веса.

Идеальная ситуация для продвижения — это когда один URL для одной страницы с контентом и одним набором ключевых слов. Я бы посоветовал интернет маркетологам сконцентрировать их усилия на оптимизации контента больше чем на попытках избежать его не уникальности.

 Причины появления дублированного контента

Много различных обстоятельств могут в результате привести к появлению двойного контента, но всех их объединяет одно: Двойного контента не существует до тех пор пока нет на него ссылки.

Если для сайта возникает проблема не оригинального контента, это означает что где-то появился этот контент но уже под другим URL’OM И на него есть хотя бы одна входящая ссылка.

Ссылки на URLbi страниц с продублированным контентом могут появляться, если добавляются трекинг параметры в адрес страницы, если сайт с субдоменом не перелинкован правильно, когда в URL добавляются фильтрационные и сортировочные параметры, когда версия страницы «для печати» создает новый URL, и еще много других вариантов.

Еще хуже, что каждый из них может генерировать другие источники двойного контента, плодить сотни вариаций URL-адресов для одной и той же страницы с оригинальным контентом.

Главная страницы (морда) может быть одним из примеров. Иногда случается и такое — домен по умолчанию есть ссылкой на главную страницу, но кликая по навигационным ссылкам которые должны были бы привести на главную страницу, вы попадаете на нее но уже с другим URL, т.е. в результате получаете страницу с продублированным контентом.

Сайт «Banana Republic» имеет в индексе Google 18 версий домашней страницы, и еще несколько которые не попали в индекс, вот смотрите сами:

http://www.bananareDublic.com/

http://bananareDublic.QaD.com/

httD://bananareDublic.QaD.com/?ssitelD=Dlft

httD://bananareDublic.gaD.com/?kwid=1&redirect=true

http://bananarepublic.ciap.com/browse/home.do?ssitelD=ON

И каждый из этих URL адресов имеет как минимум одну входящую ссылку.

Подумайте насколько больше было бы веса в морды этого сайта, если бы все входящие ссылки вели на одну настоящую главную страницу, вместо десятка ее клонов.

Типы двойного контента Плохая канонизация

Недостаток канонизации самая распространенная причина двойного контента. Канонизация означает устранение копий страниц, а в SEO, это еще и концентрация всех входящих ссылок на одном URL адресе, для каждой страницы с контентом. Ниже показаны 10 примеров URL-адресов на одну и ту же страницу:

• Каноничный URL: http://www.example.com/directorv4/index.html

 ссылочный вес распределялся между одинаковых 10001ЖЬ’ами. Оригинальная (первоначальная) страница была бы намного сильнее если весь ссылочный вес был направлен только на один URL.

Самый эффективный способ канонизации двойного контента это, сконцентрировать все входящие ссылки на оригинальную страницу через 301 редирект ее клонов.

Каннибализация

Каннибализация — это когда две или больше страниц сайта оптимизированы под один и тот же набор ключевых слов.

Онлайн магазины попадают в эту петлю очень часто когда из соображений улучшения юзабилити сайта: фильтрация товара, сортировка товара, количество единиц показываемых на странице, рекомендовать другу по e-mail и т.д. генерируются страницы дубликаты, полностью или частично похожие на оригинальную страницу.

Технически они не 100 %-е дубликаты. Без этих страниц нельзя обойтись, они нужны для юзабилити сайта, поэтому делаем им 301 редирект на оригинальную страницу.

В этом случае владельцы сайтов имеют только два выбора:

• Воспользоваться каноническим тегом (http://seom.info/seo-book/» />)

Запомните, что 301 редирект это лучший друг СЕОшника когда речь идет о двойном контенте или канонизации.

Если вы не можете использовать редирект потому что эта страница нужна для людей, тогда ваш второй друг это канонический тег, что бы аккумулировать ссылочную массу.

Есть и другие способы для удерживания контента — meta тег noindex, файл robots.txt тег disallow, и 404 ошибки — но они только закроют контент от индексации, но не предохранят его от утечки ссылочного веса.

MyOST: Я думаю тут будет полезно прочесть предыдущую статью в блоге: «Укажите Goople какие параметры URL адресов игнорировать».

Происхождение дублированного контента в интернете может быть различным. Один и тот же документ физически на одних и тех же серверах может отличаться технически — разные форматы, кодировки, разбавлен картинками.

image43

Большое количество документов в сети активно копируется и редактируется — ленты новостей, различного рода документация, прайсы, FAQ. Публикации ( в блогосфере посты) могут быть скопированы с нарушением авторских прав и отсинонимизорованы с целью сделать их уникальными для поисковиков. Для чего это надо манимейкерам, вы прекрасно знаете.

Кроме того, индексация поисковиками страниц, генерируемых при помощи баз данных и различных движков порождает еще один распространенный класс малоотличающихся документов: форумы, страницы с описаниями товаров…

С полными повторами (с тупым копипастом) особых проблем нет: поисковикам достаточно сохранять в индексе контрольную сумму текста (что это такое, спросите в комментариях) и игнорировать все остальные тексты с такой же контрольной суммой. Уточню, что для каждого уникального текста существует свое уникальное значение контрольной суммы. Но этот метод не срабатывает для выявления легкого рерайта. Я бы даже сказал очень легкого рерайта — замена синонимами, вставка междометий, наречий и т.д.

Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание.

я  говорю,  устал,  устал,  отпусти,  не  могу,  ГОВОРИ,  устал,  отпусти,  устал,  не  отпускает,  не  слушает

Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия — весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте.

Развитие этого алгоритма позволяет определять процент перекрытия текстов и выявлять его источники. Это особенно актуально для блоггеров, посты которых вывешиваются на сплогах.

 На вопрос, почему Yandex не всегда адекватно находит первоисточник, я могу ответить лишь одной фразой — нет ничего абсолютно совершенного. То что я описал выше — это идеал, к которому надо стремиться. На практике все сложнее. Если соберетесь это исправить, с меня пиво, баня и кальян ©. А так же ссылка в блогролле. Думаю к тому моменту она будет еще весомее ®.

К чему этот пост. А к тому, как правильно рерайтить тексты. Синонимайзеры поисковики уже не принимают. А вот разбавление текста словами прокатывает очень даже хорошо.

Posted in SEO: Поисковая Оптимизация от А до Я.